9 błędów w testach A/B, których musisz przestać popełniać

Opublikowany: 2016-08-17

Błędy są nieuniknioną częścią procesu uczenia się, ale gdy ich generowanie kosztuje biznes, mają tendencję do kłującego trochę więcej.

Chociaż marketerzy na wszystkich poziomach doświadczenia są zgodni – nie ma bardziej niezawodnego sposobu na ulepszanie stron internetowych, wiadomości e-mail i reklam niż testy A/B – aby były skuteczne, te testy A/B muszą być przeprowadzane we właściwy sposób. Niefortunna prawda jest niewielu.

Błędy w testach A/B, które prawdopodobnie popełnisz

Jest bardzo prawdopodobne, że w pewnym momencie zmarnowałeś zasoby, przeprowadzając nieprawidłowe testy A/B. Może przetestowałeś coś nieważnego lub nieświadomie podjąłeś decyzje biznesowe na podstawie fałszywych wyników. Cokolwiek to było, nie jesteś sam.

Zarówno nowicjusze, jak i weterani marketingu nadal popełniają 9 błędów w testach A/B. Jeśli rozpoznajesz niektóre z nich, świetnie. Masz pomysł, czego unikać. Jeśli nie, jeszcze lepiej. Pod koniec tego posta może się okazać, że zapisaliśmy Twoją następną kampanię.

1. Testowanie bez powodu do

Jeśli siedzisz w swoim biurze i zadajesz sobie pytanie „Co powinienem przetestować dalej?”, jesteś już skazany na porażkę. Powinieneś mieć powód, aby uruchamiać każdy test, poparty danymi. Zamiast tego powinieneś zadać sobie pytanie: „Dlaczego testuję X?”

Na przykład, nie testuj A/B rozmiaru przycisku tylko dla dobra tego. Jeżeli za pomocą oprogramowania do mapowania ciepła można odkryć, że perspektywy nie zwracając uwagi na to, czym test A / B, aby zobaczyć, czy bardziej widocznym jeden produkuje windy. Następnie stwórz wykształconą hipotezę, która wygląda mniej więcej tak:

„Korzystając z oprogramowania do map cieplnych zauważyłem, że mój przycisk wezwania do działania nie przyciąga uwagi, jaką powinien. Z tego powodu uważam, że zwiększenie rozmiaru przycisku sprawi, że będzie on bardziej zauważalny”.

Następnie zdecyduj, jak będziesz mierzyć wynik. W przypadku takiego testu nowe dane z mapy cieplnej mogą pokazać, czy odwiedzający zwracają na to większą uwagę. Więcej kliknięć może również wskazywać na większą atrakcyjność.

Powtarzaj ten proces, aż znajdziesz rozwiązanie każdego problemu, który w pierwszej kolejności pobudził Twój test. Następnie wykorzystaj ten proces do optymalizacji innych działań marketingowych dla swojej firmy.

2. Testowanie więcej niż jednego elementu

Dane mogą sugerować, że Twoja strona może używać wraz z nim nowego nagłówka i jednego pola formularza mniej, ale jednoczesne testowanie obu spowoduje powstanie całej masy danych, które będą trudne do zinterpretowania. To nie jest test A/B, ale „test wielowymiarowy” i znacznie trudniej jest go poprawnie wykonać. Dlatego…

W teście A/B określasz skuteczność jednego elementu w porównaniu z innym – na przykład czerwony przycisk kontra czarny:

ten obraz pokazuje, jak działa testowanie A/B. Obraz oznacza, że ​​błędem w testowaniu A/B jest testowanie większej liczby elementów

Tutaj wygrywa ta strona, która osiąga lepsze wyniki w oparciu o Twój wskaźnik sukcesu. Jeśli Twoim wskaźnikiem sukcesu są konwersje, a strona z czerwonym przyciskiem generuje więcej, czerwony przycisk działa lepiej. W przypadku testu wielowymiarowego sprawy nieco się komplikują.

Spójrzmy na ten drugi przykład z Optimizely teoretycznego testu wielowymiarowego, w którym oceniane są dwa elementy, obraz i nagłówek:

Ten obraz pokazuje, że testowanie wielu wariantów jest w porządku, jednak błędem testowania A/B jest testowanie wielu wariantów jednocześnie.

Jak widać powyżej, testowanie jeszcze jednego elementu w porównaniu z jedną odmianą daje podwójne wyniki. Wyniki tego testu nie są tak jednoznaczne.

Jeśli kierujesz ruch na cztery różne strony powyżej, a Twoim wskaźnikiem sukcesu są konwersje, wygrywa ta, która generuje najwięcej. Jednak w przeciwieństwie do testu A/B ustalenie, dlaczego ta strona zostanie wygrana, nie jest tak łatwe.

Jeśli na przykład nagłówek odmiany generuje więcej konwersji niż nagłówek kontrolny w teście A/B, zakładając, że test został przeprowadzony prawidłowo, nagłówek odmiany jest lepszy. Ponieważ jest to jedyna różnica między tymi dwiema stronami, na pewno wiesz, że nagłówek jest przyczyną wzrostu wydajności.

Jednak w teście wielowymiarowym musisz określić nie tylko, która kombinacja elementów daje najwięcej konwersji, ale także relacje między tymi elementami. Niezależnie od tego, która kombinacja wygrywa w nagłówku/obrazie z Optimizely, tester będzie musiał zapytać „W jaki sposób te elementy współdziałają ze sobą, aby uzyskać maksymalną liczbę konwersji?”

Czy obie strony z nagłówkiem „Jedyne widżety Acme” działały lepiej niż pozostałe? Możliwe, że za wzrost odpowiedzialny był nagłówek. Spośród tych dwóch, dlaczego zdjęcie sprzętu spowodowało więcej konwersji?

Są to pytania, na które będziesz musiał znaleźć odpowiedzi poprzez dogłębne badanie swoich danych. Dodatkowo będziesz potrzebować znacznie większego ruchu, aby uzyskać te dane.

Dobra zasada praktyczna? Alex Birkett z CXL zaleca trzymanie się testów A/B, jeśli nie masz dużego ruchu.

3. Spędzanie całego czasu na testach A/B

Łatwo jest oślepić test A/B – dać się złapać w poszukiwaniu idealnej kombinacji elementów na stronie docelowej po kliknięciu (lub reklamie, e-mailu) do tego stopnia, że ​​zaniedbujesz każdą inną część swojej kampanii. Nie pozwól, aby ci się to przytrafiło.

Powodem, dla którego ludzie nie dokonują konwersji, nie zawsze jest to, że strona docelowa po kliknięciu nie jest dobrze złożona. Może się zdarzyć, że Twój ruch jest słaby lub Twoja kampania lead nurturing nie jest silna.

Nie trać czasu na testowanie A/B obrazów i tekstu strony docelowej po kliknięciu. Pamiętaj, aby myśleć całościowo i najpierw zoptymalizować największe dziury w lejku. Tam zobaczysz największe zyski. Następnie rozpocznij doskonalenie procesu poprzez testy A/B.

4. Ślepe podążanie za najlepszymi praktykami testowania A/B

Jak się okazuje, najlepsze praktyki nie zawsze są najlepsze dla wszystkich. To, co działało dobrze w jednej firmie, może nie działać dobrze w Twojej. Przykładem:

Kilka lat temu agregator danych Device Magic postanowił dowiedzieć się, czy suwak obrazu lub wideo przekonwertuje więcej potencjalnych klientów na ich stronie głównej. Przeprowadzili więc test A/B.

Ale dlaczego mieliby?

Liczne badania wykazały już, że suwaki obrazu powodują ślepotę na banery, czasami są trudne do zauważenia i rzadko są klikane. Ponadto mnóstwo badań dowiodło, że wideo ma moc konwersji. Niektóre firmy odnotowały wzrost współczynnika konwersji nawet o 80%. To powinno być oczywiste. Wideo na wygraną, prawda?

Nie tak, powiedziały wyniki testu A/B Device Magic. Oto ich strona główna wideo sterującego:

ten obraz przedstawia stronę kontrolną testu A/B urządzenia Magic. Aby uniknąć błędów w testach A/B, firma Device Magic sprawdziła, czy wideo będzie dobrze działać na stronie, zamiast ślepo postępować zgodnie z najlepszymi praktykami

A oto strona główna suwaka wariacji:

Ten obraz przedstawia stronę z odmianą Device Magic utworzoną na potrzeby testu A/B. Testując suwak na stronie, firma była w stanie uniknąć błędu w testach A/B polegającego na ślepym przestrzeganiu najlepszych praktyk

Odmiana z suwakiem spowodowała 35% wzrost konwersji.

Zespół Device Magic nauczył się z tego testu dwóch cennych rzeczy. Po pierwsze: nie ufaj całym sercem najlepszym praktykom, a po drugie: nie popełniaj następującego błędu…

5. Zbyt wczesne zakończenie testu

Oto jak to zwykle działa: tester dociera do znacznej liczby odwiedzających, aby udowodnić, że odmiana strony jest lepsza niż kontrola lub odwrotnie. Zatrzymują się na 100 lub 1000, a następnie ogłaszają zwycięzcę.

Tak właśnie zrobił zespół Device Magic, pisze Paras Chopra w poście na blogu dla VWO:

Początkowo ich kontrola (z wideo) polegała na biciu wariacji (z suwakiem obrazu) i nie mogli zrozumieć, dlaczego. Ale potem pozwolili, aby test działał jeszcze przez chwilę, aż uzyskali znacznie więcej danych – ku ich zaskoczeniu wynik odwrócił się do zmienności przewyższającej kontrolę, czego się spodziewali. I ten wynik był statystycznie istotny.

Paras Chopra

Użycie zbyt małej próbki jest tylko jednym błędem, który może skutkować tak zwanym „fałszywie pozytywnym” – niejednoznacznym wynikiem testu zamaskowanym jako znaczący. W teście Device Magic ten fałszywie pozytywny wynik był taki, że ich strona główna była skuteczniejsza z filmem niż z suwakiem, mimo że na dłuższą metę tak nie było. Dowodzi to, że bez wystarczającej liczby odwiedzających strony, które testujesz A/B, nie będziesz mieć wystarczającej ilości danych, aby z pewnością wyciągnąć wnioski z wyników.

Oto znacznie prostszy przykład od Benny'ego Bluma, przedstawiający, jak może wyglądać fałszywie pozytywny wynik przy użyciu małej próbki:

Rozważ hipotezę zerową: psy są większe niż koty. Gdybym użył próbki jednego psa i jednego kota – na przykład Hawańczyka i Lwa – doszedłbym do wniosku, że moja hipoteza jest błędna i że koty są większe od psów. Ale gdybym użył większej próbki z szeroką gamą kotów i psów, rozkład rozmiarów uległby normalizacji i doszedłbym do wniosku, że psy są przeciętnie większe niż koty.

Benny Blum

Jak więc walczyć z fałszywymi alarmami, które pojawiają się przy użyciu zbyt małej wielkości próbki? Możesz znaleźć taki, który jest wystarczająco duży dzięki poważnej matematyce, lub możesz użyć sprytnych kalkulatorów, takich jak ten z Optimizely.

Ważną rzeczą, o której należy pamiętać, jest to, że nie ma ustalonego czasu ani liczby odwiedzających, których można wygenerować, aby mieć całkowitą pewność co do wyników testu A/B. Guru CRO, Peep Laja, opisuje czas, kiedy jego oprogramowanie ogłosiło, że jego odmiana jest przegrana:

Zbudowana przeze mnie odmiana przegrywała źle — o ponad 89% (i bez nakładania się marginesu błędu). Niektóre narzędzia już to nazwały i stwierdziły, że istotność statystyczna wynosi 100%. Oprogramowanie, z którego korzystałem, powiedziało, że Wariant 1 ma 0% szans na pokonanie Control. Mój klient był gotowy, aby to zakończyć. Jednak ponieważ wielkość próby tutaj była zbyt mała (tylko nieco ponad 100 wizyt na odmianę), upierałam się i tak to wyglądało 10 dni później.

Peep Laja

ten obraz przedstawia tabelę konwersji testów A/B.

Odmiana, która miała 0% szans na pokonanie kontroli, teraz wygrywała z 95% pewnością”.

Im dłużej trwa test i im więcej odwiedzasz, tym bardziej możesz być pewny wyniku, nawet jeśli nigdy nie możesz go całkowicie osiągnąć.

6. Testowanie elementów w różnym czasie

Zbyt wczesne zakończenie testu może nastąpić nawet po osiągnięciu istotności statystycznej. Załóżmy, że Twoja witryna generuje wystarczającą liczbę odwiedzających, aby osiągnąć istotność statystyczną, przy 15 000 odwiedzających na każdą stronę w ciągu weekendu. Nadal nie czas na wywołanie twojego eksperymentu.

Nic dziwnego, że dni tygodnia mają poważny wpływ na ruch i konwersje. Jeśli rozpoczniesz test w sobotę, powinieneś zakończyć go w następną sobotę, aby zmniejszyć prawdopodobieństwo, że jeden lub dwa dni przekrzywią wyniki, nawet jeśli osiągnąłeś już istotność statystyczną. Odbiorcy odwiedzający Twoją witrynę w weekend mogą bardzo różnić się od tych, którzy odwiedzają ją w ciągu tygodnia i może to mieć wpływ na wyniki testu.

7. Nie eliminowanie mylących zmiennych

Zmienne mylące są dokładnie takie, jak brzmią – zmienne w twoim teście A/B, które będą bałaganić z wynikami. Brak ich identyfikacji oznacza narażenie ważności Twoich danych. Oto przykład z Optymalizuj Smart pokazujący, jak mylące zmienne mogą wyglądać w Twoich testach:

ten obraz pokazuje, że jest to błąd testowania A/B, aby nie wyeliminować mylących zmiennych

Jeśli na przykład zmienisz kierowanie reklam, by w trakcie testu generować ruch inny niż odmiana, zmieniasz wynik, zmieniając osoby, które trafiają na Twoją stronę. Jako zupełnie inna grupa demograficzna ci ludzie mogą być bardziej otwarci na nagłówek lub obraz odmiany.

Pamiętaj, że wszystkie rzeczy poza ocenianym elementem powinny być takie same i pozostawać takie same przez cały czas wykonywania testów A/B . W ten sposób możesz mieć pewność, że różnica w wydajności jest wynikiem testowanego elementu.

8. Testowanie elementów, które nie przyniosą windy

Tak, kolor ma znaczenie w Twoim marketingu, ale czy naprawdę musisz przetestować wszystkie 41 odcieni niebieskiego, tak jak zrobił to Google kilka lat temu, aby określić, który ma największy wpływ na wydajność?

Absolutnie nie.

Nie trać czasu na frywolne testy A/B, takie jak ten. Google ma do tego zasoby (nie sądzimy, że powinien był ich użyć w ten sposób), nie masz. Nie trać czasu na testowanie rzeczy, które przyniosą minimalny, jeśli w ogóle, wzrost wydajności.

9. Rezygnacja po jednym teście

Załóżmy, że przeprowadziłeś testy A/B polecanego obrazu swojej strony i dzięki temu uzyskałeś trwały wzrost konwersji o 10%. Gratulacje! To niesamowite – ale czy to oznacza, że ​​masz najlepszy obraz? Nie. Oznacza to, że masz lepszy wizerunek niż wcześniej.

Gdybyśmy zrezygnowali z testowania tej strony docelowej webinaru po kliknięciu, zadowoleni z 45% wzrostu współczynnika konwersji z odmiany „B”, nigdy nie zobaczylibyśmy zdumiewającego wzrostu, jaki uzyskaliśmy dzięki odmianie „C”.

Oto oryginał:

ten obraz przedstawia stronę kontrolną Instapage. Stworzono jeszcze trzy odmiany strony, aby uniknąć błędu testowania A/B polegającego na zbyt wczesnej rezygnacji.

Oto odmiana „B”, która przyniosła 45% wzrost liczby konwersji:

ten obraz przedstawia odmianę B strony Instapage. Stworzono jeszcze trzy odmiany strony, aby uniknąć błędu testowania A/B polegającego na zbyt wczesnej rezygnacji.

I wreszcie, oto odmiana „C”, która zwiększyła konwersje o szokujące 129%!

ten obraz przedstawia odmianę C strony Instapage. Stworzono jeszcze trzy odmiany strony, aby uniknąć błędu testowania A/B polegającego na zbyt wczesnej rezygnacji.

Jeśli na początku twoje testy się nie powiodą, spróbuj, spróbuj ponownie. A nawet jeśli im się to uda, spróbuj, spróbuj jeszcze raz, aby uzyskać jeszcze lepsze wyniki. Ale najpierw zacznij tworzyć spersonalizowane strony po kliknięciu za pomocą Instpage, poproś o demo Instapage Enterprise już dziś.