5 amenințări comune la validitatea testului dvs. A / B

Publicat: 2016-11-17

Vești proaste: conversia cu 30% ridică cel mai recent test A / B produs? Probabil că nu este atât de mare pe cât ai crezut.

De fapt, există șansa să nu existe deloc.

„Cel puțin 80% din testele câștigătoare sunt complet inutile”, scrie Qubit Research Lead, Martin Goodson, într-o carte albă a companiei. Cele care nu sunt de obicei aduc ascensoare mici și durabile în loc de cele uriașe pe care le vedeți publicitate pe web.

De ce software-ul dvs. de testare A / B vă spune altfel?

Deoarece nu poate detecta numeroasele amenințări nevăzute la adresa validității care pot potența otrăvirea datelor dvs. Concepte precum efectul de noutate, regresia la medie, efectul de instrumentare și altele, vă pot face să vedeți mari ascensiuni de conversie acolo unde nu există.

Deci, dacă luați decizii de afaceri pe baza testelor dvs. A / B doar pentru că au atins semnificația statistică, opriți-vă acum. Trebuie să atingeți semnificația statistică înainte de a putea face inferențe pe baza rezultatelor dvs., dar nu de asta aveți nevoie doar. De asemenea, trebuie să efectuați un test valid.

Cel puțin 80% din testele câștigătoare sunt complet inutile.

Faceți clic pentru a trimite un Tweet

Diferența dintre semnificația statistică și validitate

Semnificația și valabilitatea statistică sunt două necesități foarte diferite, dar la fel de importante pentru desfășurarea testelor de succes.

Semnificația statistică indică, într-un anumit grad de încredere, probabilitatea constatărilor testului dvs. sunt fiabile și nu datorate întâmplării. Pentru a atinge semnificația statistică trebuie să știți:

  • Rata de conversie de bază a paginii dvs. de control
  • Modificarea minimă a ratei de conversie pe care doriți să o puteți detecta
  • Cât de încrezător vrei să fii că rezultatele tale sunt semnificative și nu datorate întâmplării (nivelul standard de încredere acceptat este de 95%)
  • Dimensiunea eșantionului, de asemenea, cât de mult trebuie să generați trafic înainte de a putea atinge semnificația statistică (utilizați acest calculator pentru a-l afla)

Valabilitatea, pe de altă parte, are legătură cu faptul că alți factori în afara dimensiunii eșantionului vă afectează negativ datele.

Deci, de ce trebuie să le cunoașteți pe amândouă?

Deoarece chiar și 53% din testele A / A (aceeași pagină față de testele de aceeași pagină utilizate pentru a evalua configurarea experimentului dvs.) vor atinge semnificația de 95% la un moment dat. Dacă testele cu două pagini identice pot atinge semnificație statistică ½ timp, cum poți fi încrezător că rezultatele testelor tale A / B sunt fiabile?

Nu poți, explică Peep Laja de la CXL:

„Dacă vă opriți testul imediat ce vedeți semnificația, există o șansă de 50% să fie o întâmplare completă. O aruncare de monede. În primul rând, ucide total ideea de testare. ”

În loc să vă bazați doar pe semnificația statistică pentru a determina câștigătorul unui test divizat, trebuie să colectați cât mai multe date valabile. Și pentru a face acest lucru, trebuie să înțelegeți ce fel de amenințări vă stau în cale.

Amenințări frecvente la validitatea testării A / B

1. Regresie spre medie

„Dimensiunea eșantionului este cea mai importantă atunci când vine vorba de testarea A / B”, spune marketerul digital Chase Dumont. Cu cât testați mai mulți oameni, cu atât rezultatele dvs. devin mai exacte.

Prea des, testerii A / B își încheie experimentele devreme. Se entuziasmează când văd o mare ascensiune și declară cu încredere un câștigător. Dar, studiile de caz au arătat că, chiar și atunci când un test atinge o semnificație statistică de 95% sau mai mare - chiar și atunci când se desfășoară de o lună întreagă - rezultatele pot fi înșelătoare.

Luați de exemplu Chase, care a testat două pagini de vânzări în formă lungă pentru una dintre afacerile sale. În cuvintele sale:

La început, versiunea originală a depășit variabila. Am fost surprins de acest lucru, deoarece am crezut că variabila este mai bună și mai bine scrisă și concepută.

Într-adevăr, variabila era mai bună decât originală, după cum indicaseră instinctele lui Chase. Dar abia după 6 luni de testare a arătat. În acel moment, rata de conversie a paginii originale nu numai că a regresat spre medie, ci a trecut-o, până la punctul în care a fost depășită de variabilă:

Această diagramă arată specialiștilor în marketing de ce este important să aveți un eșantion suficient de mare pentru a determina validitatea experimentelor de testare A / B.

Deci, ce înțelegem prin „regres la sens”?

În termeni de testare A / B, înseamnă că variația de conversie ridicată (în acest caz pagina originală reprezentată de linia albastră pe grafic) a început să se apropie de media așteptată pe măsură ce au fost colectate mai multe probe. În termeni chiar mai simpli, este un alt mod de a spune „lucrurile se uniformizează în timp”.

Luați în considerare un exemplu din lumea reală. La Turneul Internațional Martini din 1971, jucătorul de golf englez John Anthony Hudson a devenit singura persoană care a lovit vreodată două găuri consecutive într-un turneu profesional.

Pe două găuri, un par 4 și un par 3, a împușcat o combinație de 2 - 5 lovituri mai bine decât media 7 necesară majorității profesioniștilor.

Dacă ne-am uita doar la aceste două găuri pentru a compara performanța sa cu ceilalți participanți la turneu, am spune „Uau, Hudson este mult mai bun decât oricare dintre ceilalți jucători de golf din turneu. Este sigur că va câștiga. ”

Și ar fi făcut-o dacă ar numi turneul pe baza celor două găuri.

Dar, găurile în una sunt rare, iar turneele durează multe găuri. Și astfel, cu cât Hudson a jucat mai mult, cu atât scorul său a regresat la medie. Până la sfârșitul competiției, el a fost legat de locul al 9 - lea, nici pe departe câștigătoare.

În același mod, cu cât colectați mai multe date chiar și după atingerea semnificației statistice, cu atât rezultatele dvs. vor fi mai precise.

Ați putea înscrie două găuri într-una convertind primii doi vizitatori ai variației paginii dvs. de destinație după clic? Absolut. Dar asta înseamnă că noua dvs. pagină se va converti la 100%? În nici un caz. La un moment dat, rata de conversie de 100% va regresa spre medie.

Amintiți-vă că ascensorii gigantici de conversie, cum ar fi găurile într-unul, sunt rare. Majoritatea testelor de succes vor produce în schimb ascensoare mai mici și durabile.

2. Efectul de noutate

Să presupunem că testați o variantă de pagină de destinație post-clic cu un buton mai mare, portocaliu, când toate paginile de destinație post-clic de până acum au prezentat una mică de culoare verde. Inițial, ați putea descoperi că butonul portocaliu mai mare produce mai multe conversii - dar motivul poate să nu fie rezultatul schimbării și, în schimb, ceva numit „efectul de noutate”.

Efectul de noutate intră în joc atunci când efectuați o modificare pe care vizitatorul dvs. obișnuit nu este obișnuit să o vadă. Modificarea ratei de conversie este rezultatul schimbării culorii butonului? Sau este pentru că sunt atrași de noutatea schimbării? O modalitate de a afla este segmentarea traficului.

Vizitatorii care se întorc sunt obișnuiți să vadă micul buton verde, astfel încât cel mare portocaliu poate atrage mai multă atenție pur și simplu pentru că este diferit de ceea ce sunt obișnuiți. Dar noi vizitatori nu au mai văzut dvs. mic buton verde, așa că dacă se atrage atenția asupra lor, nu va fi , deoarece acestea sunt utilizate pentru ceva diferit. În acest caz, este mai probabil ca butonul portocaliu mai mare să atragă atenția în general.

Când testați ceva cu totul diferit de ceea ce publicul dvs. obișnuiește să vadă, luați în considerare atragerea de trafic nou către acesta pentru a vă asigura că efectul de noutate nu vă va afecta rezultatele.

3. Efectul instrumentar

Cea mai obișnuită amenințare la adresa validității, numită „efectul de instrumentare (sau instrument)”, are legătură cu instrumentul dvs. de testare. Funcționează așa cum ar trebui? Este codul dvs. implementat corect?

Nu există trucuri pentru a-l bate în afara vigilenței. Testați-vă campaniile înainte ca acestea să fie difuzate, uitându-vă la paginile de destinație și la anunțuri post-clic pe diferite browsere și dispozitive. Introduceți datele potențiale de testare pentru a vă asigura că pixelii de conversie se declanșează și CRM-ul dvs. este sincronizat cu formularul dvs.

Când intră în direct, urmăriți fiecare metrică cu atenție și țineți cont de rapoartele suspecte. Este posibil ca instrumentul dvs. să vă defecteze, să conduceți trafic rău sau să fiți victima următoarei amenințări de validitate ...

4. Efectul istoric

Testul dvs. A / B nu este administrat într-un laborator. Se desfășoară în lumea reală și, ca rezultat, este afectat de evenimente din lumea reală în afara controlului tău. Acestea pot fi lucruri precum sărbătorile, vremea, prăbușirea serverului și chiar data și ora.

Ce se întâmplă dacă testați traficul de pe Twitter și site-ul devine offline? Ce se întâmplă dacă testați o pagină de destinație post-clic cu amănuntul înainte de Crăciun, apoi efectuați un test de urmărire în februarie?

Datele dvs. vor fi distorsionate.

Luați acest test de la MarketingExperiments, de exemplu, care urmărea să optimizeze clicul pe anunțuri pe paginile cu rezultatele motorului de căutare. Destinația era un site de registru al infractorilor sexuali care ar permite vizitatorilor să caute prădători în zona lor.

În acesta, patru reclame cu o copie identică, dar titluri diferite, au fost testate una împotriva celeilalte.

Această imagine arată comercianților cum titlurile anunțurilor pot fi un factor important în timpul procesului de validare a testării A / B.

Testul a fost convocat după 7 zile și 55.000 de afișări și, la prima vedere, părea că câștigătorul era clar. Dar, la o inspecție mai atentă, testerii au observat ceva care le otrăvea datele. Dr. Flint McGlaughlin elaborează:

„Iată problema. În timpul testului, Dateline a difuzat un special numit „To Catch a Predator”. A fost vizionat de 10 milioane de oameni. Cuvintele prădător au devenit termenul cheie asociat cu infractorul sexual. Acum, să mergem înapoi.

Vedeți că copilul dumneavoastră este în siguranță. Vedeți că găsiți prădători pentru copii, prădători în zona dvs. și registrul de prădători pentru copii. Și apoi, uită-te în copie. Identificați infractorii sexuali, identificați infractorii sexuali. Cu toate acestea, cu excepția titlului, dar avem trei dintre aceste titluri cu cuvântul prădător în ele. Care a fost rezultatul?"

Această imagine arată comercianților cum cuvintele cheie din titlurile anunțurilor pot fi un factor important în determinarea validității testelor A / B.

Titlurile cu cuvântul „prădător” au avut o rată de clic cu 133% mai mare decât cele fără acesta - totul din cauza unui televizor special.

Pentru a lupta împotriva efectului istoric, utilizați un instrument de monitorizare media și asigurați-vă că toată lumea din compania dvs. știe că testați. Cu cât ați accesat mai mulți membri ai echipei în lumea exterioară, cu atât este mai probabil ca unul dintre voi să vadă ceva care ar putea avea impact asupra rezultatelor testului.

5. Efectul de selecție

Efectul de selecție apare atunci când un experimentator testează un eșantion de subiecți care nu sunt reprezentativi pentru publicul țintă.

De exemplu, să presupunem că am vrut să ne dăm seama care echipă de fotbal profesionist a fost cea mai populară din Statele Unite, dar am întrebat doar oameni din zona New England. Probabil am auzi un sprijin copleșitor pentru Patriots, care nu ar fi reprezentativ pentru întreaga țară.

În termeni de testare A / B, efectul de selecție poate avea un impact asupra testului dvs. atunci când generați trafic din diferite surse. Este ceva cu care Nick Usborne de la MarketingExperiments s-a confruntat când lucra cu un editor de știri important:

„Le-am reproiectat radical procesul de ofertă de abonament pentru versiunea electronică și eram în plină testare atunci când au lansat o nouă campanie publicitară cu link text de pe site-ul lor principal către produsul electronic.

Acest lucru a schimbat mixul de trafic care a ajuns la procesul de ofertă de abonament de la unul în care aproape tot traficul provenea de la motoarele de căutare plătite la unul în care sosea mult trafic dintr-un link intern către site-ul lor (trafic foarte precalificat).

Rata medie de conversie a crescut peste noapte de la 0,26% la peste 2%. Dacă nu am fi monitorizat îndeaproape, am fi ajuns la concluzia că noul proces a atins o creștere a ratei de conversie de peste 600%. ”

Este important să țineți cont de clienții dvs., dar la fel de important este să vă asigurați că vă proiectați testul într-un mod care să nu-l facă vulnerabil la efectul de selecție. Aflați de unde provine traficul dvs. și nu modificați sursele în mijlocul unui test. Eșantionul dvs. ar trebui să rămână cât mai consistent posibil pe tot parcursul.

Când puteți încheia în siguranță un test A / B?

Dacă nu puteți avea încredere în semnificația statistică și toate aceste amenințări la adresa validității vă pot otrăvi datele, atunci ... când vă puteți încheia testul în siguranță și vă puteți baza cu încredere pe rezultate?

Răspunsul nefericit este că nu poți fi niciodată sigur că rezultatele tale sunt 100% fiabile. Cu toate acestea, puteți lua măsuri de precauție pentru a vă asigura că vă apropiați cât mai mult posibil. Instrumentul de optimizare a ratei de conversie, Peep Laja, constată că urmarea acestor 4 criterii face de obicei trucul:

  1. Durata testului trebuie să fie de minimum 3 săptămâni, 4, dacă este posibil.
  2. Dimensiunea eșantionului trebuie calculată în prealabil, utilizând mai multe instrumente.
  3. Conversiile ar trebui să ajungă între 250 și 400 pentru fiecare variantă pe care o testați.
  4. Semnificația statistică ar trebui să fie de minimum 95%.

El adaugă în continuare că, dacă nu atingeți 250-400 de conversii în 3 săptămâni, atunci ar trebui să continuați să rulați testul până când ajungeți. Și dacă trebuie, asigurați-vă că testați în cicluri de săptămână întreagă. Dacă începeți testul într-o zi de luni și faceți 400 de conversii 5 săptămâni mai târziu într-o zi de miercuri, continuați testarea până în ziua următoare de luni (în caz contrar, ați putea fi victima efectului istoric).

Nu uitați să fiți atenți la amenințările de validitate de mai sus și să anunțați toată lumea din echipa dvs. (și echipa clientului dvs.) că testați. Cu cât informați mai mult organizația dvs., cu atât este mai puțin probabil ca cineva să modifice un aspect al testului (efectul de selecție) și cu atât este mai probabil ca cineva să observe când intră în joc o amenințare de validitate precum efectul de instrumentare sau efectul istoric.

Cum v-ați îmbunătățit site-ul web cu testarea A / B?

Utilizați testarea A / B pentru a vă optimiza site-ul web și pentru a surprinde orice amenințări la adresa validității. Începeți prin a crea pagini post-clic, solicitați astăzi o demonstrație Instapage Enterprise.