Semnificația statistică nu este egală cu validitatea (sau de ce obțineți ridicări imaginare)

Publicat: 2020-10-06

Un scenariu foarte comun: o afacere rulează zeci și zeci de teste A/B pe parcursul unui an, iar multe dintre ele „câștigă”. Unele teste vă oferă o creștere a veniturilor cu 25% sau chiar mai mult.

Cu toate acestea, atunci când lansați schimbarea, veniturile nu cresc cu 25%. Și la 12 luni după rularea tuturor acestor teste, rata de conversie este încă aproape aceeași. Cum se face?

Răspunsul este următorul: ridicările tale au fost imaginare. Nu a existat nicio ridicare de la început.

Da, instrumentul dvs. de testare a spus că aveți un nivel de semnificație statistică de 95% (sau mai mare). Ei bine, asta nu înseamnă mare lucru. Semnificația statistică și validitatea nu sunt aceleași.

Semnificația statistică nu este o regulă de oprire.

Când testul tău arată că ai atins un nivel de încredere de 95% sau chiar 99%, asta nu înseamnă că ai o variantă câștigătoare.

Iată un exemplu pe care l-am folosit înainte. La două zile după începerea unui test, acestea au fost rezultatele:

test results two days after starting an a/b test.

Variația pe care am construit-o pierdea foarte mult – cu mai mult de 89% (și nicio suprapunere în marja de eroare). Aici scrie că Varianta 1 are o șansă de 0% să învingă Controlul.

Este acesta un rezultat semnificativ statistic? Da, este. Introduceți aceleași numere în orice calculator de test A/B și ei vor spune același lucru. Iată rezultatele utilizând acest calculator de semnificație:

rezultate din calculatorul de semnificație statistică.

Deci, un test 100% semnificativ și 852,8% la sută de creștere (sau, mai degrabă, Controlul este peste >800% mai bun decât tratamentul). Să încheiem testul, da? Controlul câștigă! Sau ce-ar fi să-i acordăm ceva mai mult timp?

Iată cum arăta 10 zile mai târziu:

a/b test results after more time.


Așa este, varianta care avea 0% șanse de a învinge controlul era acum câștigătoare cu 95% de încredere. Ce-i cu aia? Cum se face că „100% semnificație” și „0% șanse de câștig” au devenit lipsite de sens? Pentru ca sunt.

Dacă încheiați testul mai devreme, există șanse mari să alegeți câștigătorul greșit. În acest scenariu, multe (majoritatea?) afaceri încă merg înainte și implementează schimbarea (adică lansează variația câștigătoare la 100% din trafic), în timp ce, de fapt, creșterea de 800% devine zero, sau chiar negativă (pierde).

Chiar mai rău decât liftul imaginar este încrederea falsă pe care o ai acum. Crezi că ai învățat ceva și continui să aplici învățarea în altă parte a site-ului. Dar învățarea este de fapt invalidă, făcând astfel toate eforturile și timpul tău o risipă completă.

Este la fel și cu cea de-a doua captură de ecran de testare (10 zile după) – chiar dacă spune o semnificație de 95%, încă nu este „gătită”. Eșantionul este prea mic; diferența absolută în conversii este de doar 19 tranzacții. Asta se poate schimba într-o zi.

ton wesseling.

Ton Wesseling are asta de spus despre asta:

Ar trebui să știți că oprirea unui test odată ce este semnificativ este păcatul mortal numărul 1 în terenul de testare A/B. Șaptezeci și șapte la sută din testele A/A (aceeași pagină față de aceeași pagină) vor atinge semnificația la un anumit moment.

Aflați ce semnificație este cu adevărat.

Numai semnificația statistică nu ar trebui să determine dacă încheiați un test sau nu. Nu este o regulă de oprire.

Semnificația statistică nu ne spune probabilitatea ca B să fie mai bun decât A. Nici nu ne spune probabilitatea că vom face o greșeală în selectarea lui B în locul lui A.

Acestea sunt ambele concepții greșite extraordinar de comune, dar sunt false. Pentru a afla despre ce sunt cu adevărat valorile p, citiți această postare.

Rulați-vă testele mai mult.

Dacă vă opriți testele după câteva zile, o faceți greșit. Nu contează dacă primești 10.000 de tranzacții pe zi. Numărul absolut de tranzacții contează, dar ai nevoie și de timp pur.

mat

Matt Gershoff de la Conductrics explică de ce:

Una dintre dificultățile legate de rularea testelor online este că nu deținem controlul asupra cohortelor noastre de utilizatori. Aceasta poate fi o problemă dacă utilizatorii distribuie diferit în funcție de oră și zi a săptămânii și chiar de sezon. Din acest motiv, probabil dorim să ne asigurăm că ne colectăm datele pe parcursul oricăror cicluri de date relevante. În acest fel, tratamentele noastre sunt expuse unui eșantion mai reprezentativ din populația medie de utilizatori.

Observați că segmentarea nu ne scoate cu adevărat din asta, deoarece va trebui să eșantionăm în continuare în zilele săptămânii, în weekend, etc. și probabil că vrem să atingem fiecare zi sau parte a zilei de câteva ori pentru a face o medie a evenimentelor externe și externe. care ar putea afecta fluxul/conversia traficului pentru a obține estimări bune ale funcțiilor/segmentelor bazate pe timpul de impact asupra conversiei.

Văd următorul scenariu tot timpul:

  • Primele două zile: B câștigă mare. De obicei datorită factorului de noutate.
  • După săptămâna #1: B câștigând puternic.
  • După săptămâna #2: B încă câștigă, dar diferența relativă este mai mică.
  • După săptămâna nr. 4: regresie la medie — ridicarea a dispărut.

Deci, dacă opriți testul înainte de patru săptămâni (poate chiar după câteva zile), crezi că ai o variantă câștigătoare, dar nu o faci. Dacă o lansați în direct, aveți ceea ce eu numesc un „lift imaginar”. Crezi că ai un plus pentru că instrumentul tău de testare a înregistrat o creștere de >25%, dar nu vezi o creștere în contul tău bancar.

Rulați-vă testele mai mult. Asigurați-vă că includ două cicluri de afaceri, că au suficiente conversii/tranzacții absolute și că au avut suficientă durată în timp.

Exemplu de ridicare imaginară

Iată un test pe care l-am efectuat pentru un client de comerț electronic. Durata testului a fost de 35 de zile, a vizat doar vizitatorii desktopului și a avut aproape 3.000 de tranzacții per variantă.

Spoiler: Testul s-a încheiat cu „nicio diferență”. Iată prezentarea generală a veniturilor Optimizely (dați clic pentru a mări):

testul veniturilor în timp cu regresie la medie.

Să vedem acum:

  • Primele două zile: Blue (varianta nr. 3) câștigă mare, cum ar fi 16 USD per vizitator față de 12,5 USD pentru Control (#Câștig!). Mulți oameni încheie testul aici (#Fail!).
  • După 7 zile: Albastrul încă câștigă, iar diferența relativă este mare.
  • După 14 zile: Orange (#4) câștigă!
  • După 21 de zile: Orange încă câștigă!
  • Sfârșit: Nicio diferență.

Deci, dacă ai fi rulat testul mai puțin de patru săptămâni, ai fi numit câștigătorul greșit.

Regulile de oprire

Deci, când se gătește un test?

Din păcate, nu există un răspuns ceresc universal și există o mulțime de factori „depinde”. Acestea fiind spuse, puteți avea câteva reguli de oprire destul de bune pentru majoritatea cazurilor.

Iată regulile mele de oprire:

  • Durata testului de cel puțin 3 săptămâni (mai bine dacă 4).
  • Dimensiunea minimă a eșantionului precalculată a fost atinsă (folosind diferite instrumente). Nu voi crede niciun test care are mai puțin de 250–400 de conversii pe variație.
  • Semnificație statistică de cel puțin 95%.

Ar putea fi diferit pentru unele teste din cauza particularităților, dar în cele mai multe cazuri, respect acele reguli.

Iată că Wesseling intervine din nou:

Doriți să testați cât mai mult posibil - cel puțin un ciclu de achiziție - cu cât mai multe date, cu atât puterea statistică a testului dvs. este mai mare!

Mai mult trafic înseamnă că aveți șanse mai mari de a vă recunoaște câștigătorul la nivelul de semnificație la care testați! Micile modificări pot avea un impact mare, dar impacturile mari nu se întâmplă prea des – de cele mai multe ori, variația dvs. este puțin mai bună, așa că aveți nevoie de multe date pentru a observa un câștigător semnificativ.

Dar dacă testele tale durează și durează, oamenii au tendința de a-și șterge cookie-urile (10% în două săptămâni). Când revin în testul dvs., pot ajunge în varianta greșită, așa că, când trec săptămânile, eșantioanele dvs. poluează din ce în ce mai mult și ajung să aibă aceleași rate de conversie.

Testare maxim 4 săptămâni.

Ce se întâmplă dacă, după trei sau patru săptămâni, dimensiunea eșantionului este mai mică de 400 de conversii pe variație?

Am lăsat testul să ruleze mai mult. Dacă, până la 4 săptămâni, dimensiunea eșantionului nu este atinsă, mai adaug încă o săptămână.

Testați întotdeauna săptămâni întregi . Dacă începeți testul luni, acesta ar trebui să se încheie într-o duminică. Dacă nu testați o săptămână întreagă la un moment dat, s-ar putea să vă denaturați rezultatele.

Rulați un raport privind conversiile pe zi a săptămânii pe site-ul dvs. Vezi câtă fluctuație există.

Ce vezi mai jos? Zilele de joi fac de 2 ori mai mulți bani decât sâmbăta și duminica, iar rata de conversie joia este de aproape 2 ori mai bună decât sâmbăta.

conversie pe zi a săptămânii.

Dacă nu am testa săptămâni întregi, rezultatele ar fi inexacte. Testați săptămâni întregi la un moment dat.

Aceleași reguli de oprire se aplică pentru fiecare segment.

Segmentarea este cheia pentru a învăța din testele A/B. Este obișnuit ca B să piardă în fața lui A în rezultatele generale, dar să îl învingă pe A în anumite segmente (de exemplu, traficul Facebook, utilizatorii de dispozitive mobile etc.).

Înainte de a putea analiza orice date segmentate, asigurați-vă că aveți o dimensiune a eșantionului suficient de mare în fiecare segment. Prin urmare, aveți nevoie de 250–400 de conversii per variantă în fiecare segment pe care îl priviți.

Vă recomand chiar să creați teste vizate (setați publicul/segmentul țintă în configurația testului) în loc să analizați rezultatele pe segmente după un test. Acest lucru asigură că testele nu sunt apelate devreme și că fiecare segment are dimensiunea eșantionului adecvată.

Prietenul meu Andre Morys a spus asta despre regulile lui de oprire:

andre morys.

Întotdeauna le spun oamenilor că aveți nevoie de un eșantion reprezentativ dacă datele dvs. ar trebui să fie valide.

Ce înseamnă „reprezentant”? În primul rând, trebuie să includeți toate zilele lucrătoare și weekendurile. Aveți nevoie de vreme diferită, deoarece afectează comportamentul cumpărătorului. Dar cel mai important, traficul tău trebuie să aibă toate sursele de trafic, în special newsletter, campanii speciale, TV... totul! Cu cât testul durează mai mult, cu atât veți obține mai multe informații.

Tocmai am făcut un test pentru un mare retailer de modă în mijlocul fazei de reducere a verii. A fost foarte interesant de văzut cum rezultatele au scăzut dramatic în timpul „fazei de vânzare grea” cu 70% și mai mult, dar s-au recuperat la o săptămână după încheierea fazei. Nu am fi aflat niciodată asta dacă testul nu ar fi rulat timp de aproape patru săptămâni.

„Regula noastră generală” este aceasta: 3.000–4.000 de conversii pe variație și durata testului de 3–4 săptămâni. Acesta este suficient trafic, astfel încât să putem vorbi chiar despre date valide dacă analizăm pe segmente.

Testarea „păcatului” numărul 1: căutarea unor creșteri în cadrul segmentelor atunci când nu aveți validitate statistică (de exemplu, 85 față de 97 de conversii). Asta e o prostie.

Învățarea din teste este foarte importantă, chiar mai mult decât obținerea de câștiguri. Și segmentarea datelor de testare este una dintre cele mai bune modalități de a învăța. Asigurați-vă că segmentele dvs. au suficiente date înainte de a trage concluzii.

Concluzie

Doar pentru că testul atinge un nivel de semnificație de 95% sau mai mare, nu opriți testul. Acordați atenție numărului absolut de conversii pe variație și duratei testului.