الأهمية الإحصائية لا تساوي الصلاحية (أو لماذا تحصل على مصاعد خيالية)
نشرت: 2020-10-06سيناريو شائع جدًا: تجري الشركة عشرات وعشرات من اختبارات A / B على مدار عام ، و "يفوز" الكثير منها. تحقق لك بعض الاختبارات زيادة في الأرباح بنسبة 25٪ أو حتى أعلى.
ومع ذلك ، عند طرح التغيير ، لا تزيد الأرباح بنسبة 25٪. وبعد مرور 12 شهرًا على إجراء كل تلك الاختبارات ، لا يزال معدل التحويل كما هو تقريبًا. كيف ذلك؟
الجواب هو: ارتفاعاتك كانت خيالية. لم يكن هناك رفع في البداية.
نعم ، قالت أداة الاختبار الخاصة بك إن لديك مستوى دلالة إحصائية بنسبة 95٪ (أو أعلى). حسنًا ، هذا لا يعني الكثير. الدلالة الإحصائية والصلاحية ليست هي نفسها.
الدلالة الإحصائية ليست قاعدة توقف.
عندما يشير الاختبار إلى أنك وصلت إلى مستوى ثقة بنسبة 95٪ أو حتى 99٪ ، فهذا لا يعني أن لديك صيغة فائزة.
هذا مثال استخدمته من قبل. بعد يومين من بدء الاختبار ، كانت هذه النتائج:

كان التباين الذي أنشأته يخسر بشكل سيئ - بأكثر من 89٪ (ولا يوجد تداخل في هامش الخطأ). تقول هنا أن Variation 1 لديه فرصة 0٪ للتغلب على Control.
هل هذه نتيجة ذات دلالة إحصائية؟ نعم إنه كذلك. اضغط على نفس الأرقام في أي آلة حاسبة لاختبار A / B ، وسوف يقولون نفس الشيء. فيما يلي النتائج باستخدام حاسبة الأهمية هذه:

لذا ، فإن الاختبار مهم بنسبة 100٪ ، ورفع بنسبة 852.8٪ (أو بالأحرى ، التحكم أكثر من 800٪ أفضل من العلاج). دعونا ننهي الاختبار ، أليس كذلك؟ فوز السيطرة! أو ماذا عن منحه مزيدًا من الوقت بدلاً من ذلك؟
هذا ما بدا بعد 10 أيام:

هذا صحيح ، التباين الذي كان لديه فرصة 0٪ للفوز بالسيطرة كان يفوز الآن بثقة 95٪. ما خطب ذلك؟ كيف أصبح "100٪ إشارة" و "فرصة 0٪ للفوز" بلا معنى؟ لانهم.
إذا أنهيت الاختبار مبكرًا ، فهناك فرصة كبيرة لاختيار الفائز الخطأ. في هذا السيناريو ، لا تزال العديد من الشركات (معظمها؟) تمضي قدمًا وتنفذ التغيير (أي طرح التباين الفائز بنسبة 100٪ من حركة المرور) ، بينما ، في الواقع ، يصبح رفع 800٪ صفرًا ، أو حتى سلبيًا (خاسرًا).
أسوأ من المصعد التخيلي هو الثقة الزائفة التي لديك الآن. تعتقد أنك تعلمت شيئًا ما وواصلت تطبيق هذا التعلم في مكان آخر على الموقع. لكن التعلم غير صالح في الواقع ، مما يجعل كل جهودك ووقتك مضيعة تمامًا.
إنه نفس الشيء مع لقطة الشاشة الثانية للاختبار (بعد 10 أيام) - على الرغم من أنها تشير إلى أهمية 95٪ ، إلا أنها لم تنضج بعد. العينة صغيرة جدًا ؛ الاختلاف المطلق في التحويلات هو 19 معاملة فقط. يمكن أن يتغير في يوم واحد.

هذا ما يقوله Ton Wesseling عنه:
يجب أن تعلم أن إيقاف الاختبار بمجرد أن يصبح مهمًا هو الخطيئة المميتة رقم 1 في أرض اختبار A / B. سبعة وسبعون بالمائة من اختبارات A / A (نفس الصفحة مقابل نفس الصفحة) ستصل إلى أهمية عند نقطة معينة.
تعلم ما هي الأهمية حقا.
لا يجب أن تحدد الأهمية الإحصائية وحدها ما إذا كنت ستنهي الاختبار أم لا. إنها ليست قاعدة توقف.
لا تخبرنا الدلالة الإحصائية باحتمال أن يكون B أفضل من A. كما أنها لا تخبرنا باحتمال ارتكابنا خطأ في اختيار B على A.
كلاهما مفاهيم خاطئة بشكل غير عادي ، لكنها خاطئة. لمعرفة ما هي قيم p حقًا ، اقرأ هذا المنشور.
قم بإجراء الاختبارات الخاصة بك لفترة أطول.
إذا أوقفت اختباراتك بعد بضعة أيام ، فأنت تفعل ذلك بشكل خاطئ. لا يهم إذا حصلت على 10000 معاملة في اليوم. العدد المطلق للمعاملات مهم ، لكنك تحتاج أيضًا إلى وقت خالص.

يوضح مات غيرشوف من Conductrics سبب ذلك:
تتمثل إحدى الصعوبات في إجراء الاختبارات عبر الإنترنت في أننا لا نتحكم في مجموعات مستخدمينا. يمكن أن تكون هذه مشكلة إذا قام المستخدمون بالتوزيع بشكل مختلف حسب الوقت واليوم من الأسبوع ، وحتى حسب الموسم. لهذا السبب ، ربما نريد التأكد من أننا نجمع بياناتنا عبر أي دورات بيانات ذات صلة. بهذه الطريقة ، تتعرض علاجاتنا لعينة أكثر تمثيلا لمستخدميها العاديين.
لاحظ أن التقسيم لا يخرجنا حقًا من هذا ، لأننا سنظل بحاجة إلى أخذ عينات على مدار أيام الأسبوع وعطلات نهاية الأسبوع وما إلى ذلك ، وربما نرغب في الوصول إلى كل يوم أو جزء من اليوم عدة مرات لمعدل الأحداث الخارجية والأحداث الخارجية التي يمكن أن تؤثر على تدفق / تحويل حركة المرور من أجل الحصول على تقديرات جيدة للميزات / الشرائح المستندة إلى وقت التأثير عند التحويل.
أرى السيناريو التالي طوال الوقت:
- أول يومين: B يفوز بشكل كبير. عادة بسبب عامل الجدة.
- بعد الأسبوع الأول: الفوز بقوة.
- بعد الأسبوع الثاني: لا يزال B يفوز ، لكن الفرق النسبي أصغر.
- بعد الأسبوع الرابع: الانحدار إلى المتوسط - اختفى الارتفاع.
لذا ، إذا أوقفت الاختبار قبل أربعة أسابيع (ربما حتى بعد بضعة أيام) ، فستعتقد أن لديك نسخة رابحة ، لكنك لا تفعل ذلك. إذا قمت بطرحها على الهواء مباشرة ، فلديك ما أسميه "المصعد التخيلي". تعتقد أنك حصلت على زيادة لأن أداة الاختبار الخاصة بك أظهرت نموًا بنسبة 25٪ ، لكنك لا ترى نموًا في حسابك المصرفي.
قم بإجراء الاختبارات الخاصة بك لفترة أطول. تأكد من أنها تتضمن دورتين من الأعمال ، ولديها عدد كافٍ من التحويلات / المعاملات المطلقة ، ولها مدة كافية في الوقت المناسب.
مثال على المصعد التخيلي
إليك اختبار أجريناه لعميل التجارة الإلكترونية. كانت مدة الاختبار 35 يومًا ، واستهدفت زوار سطح المكتب فقط ، وشمل ما يقرب من 3000 معاملة لكل اختلاف.

المفسد: انتهى الاختبار بـ "لا فرق". فيما يلي نظرة عامة حول الأرباح بشكل Optimizely (انقر للتكبير):

لنرى الآن:
- أول يومين: الأزرق (الشكل رقم 3) يفوز كثيرًا — مثل 16 دولارًا لكل زائر مقابل 12.5 دولارًا للتحكم (# الفوز!). كثير من الناس ينهون الاختبار هنا (# فشل!).
- بعد 7 أيام: لا يزال اللون الأزرق يربح ، والفارق النسبي كبير.
- بعد 14 يومًا: أورانج (رقم 4) تفوز!
- بعد 21 يومًا: أورانج ما زالت تربح!
- النهاية: لا فرق.
لذلك ، لو أجريت الاختبار لمدة تقل عن أربعة أسابيع ، كنت قد وصفت الفائز بأنه خطأ.
قواعد التوقف
إذن ، متى يتم طهي الاختبار؟
للأسف ، لا توجد إجابة سماوية عالمية ، وهناك الكثير من عوامل "الأمر يعتمد". ومع ذلك ، يمكن أن يكون لديك بعض قواعد التوقف الجيدة في معظم الحالات.
فيما يلي قواعد التوقف الخاصة بي:
- مدة الاختبار لا تقل عن 3 أسابيع (أفضل إذا كانت 4).
- الوصول إلى الحد الأدنى من حجم العينة المحسوبة مسبقًا (باستخدام أدوات مختلفة). لن أصدق أي اختبار يحتوي على أقل من 250 إلى 400 تحويل لكل شكل.
- دلالة إحصائية لا تقل عن 95٪.
قد يكون الأمر مختلفًا في بعض الاختبارات بسبب الخصائص المميزة ، لكن في معظم الحالات ، ألتزم بهذه القواعد.
ها هو Wesseling يدق مرة أخرى:
تريد الاختبار لأطول فترة ممكنة - دورة شراء واحدة على الأقل - كلما زادت البيانات ، زادت القوة الإحصائية للاختبار!
تعني زيادة عدد الزيارات أن لديك فرصة أكبر للتعرف على الفائز الخاص بك على مستوى الأهمية الذي تختبره! يمكن أن تحدث التغييرات الصغيرة تأثيرًا كبيرًا ، لكن التأثيرات الكبيرة لا تحدث كثيرًا - في معظم الأحيان ، يكون تباينك أفضل قليلاً ، لذا فأنت بحاجة إلى الكثير من البيانات لملاحظة فائز مهم.
ولكن إذا استمرت اختباراتك واستمرت ، يميل الأشخاص إلى حذف ملفات تعريف الارتباط الخاصة بهم (10٪ في أسبوعين). عندما يعودون في الاختبار الخاص بك ، يمكن أن ينتهي بهم الأمر في شكل خاطئ - لذلك ، عندما تمر الأسابيع ، تلوث عيناتك أكثر فأكثر وينتهي بها الأمر بنفس معدلات التحويل.
اختبري لمدة 4 أسابيع كحد أقصى.
ماذا لو - بعد ثلاثة أو أربعة أسابيع - كان حجم العينة أقل من 400 تحويل لكل شكل؟
تركت الاختبار يمتد لفترة أطول. إذا لم يتم بلوغ حجم العينة في غضون 4 أسابيع ، فأنا أضيف أسبوعًا آخر.
اختبر دائمًا أسابيع كاملة . إذا بدأت الاختبار يوم الاثنين ، فيجب أن ينتهي يوم الأحد. إذا لم تختبر أسبوعًا كاملاً في كل مرة ، فقد تحرف نتائجك.
قم بتشغيل تقرير التحويلات لكل يوم من الأسبوع على موقعك. انظر إلى مدى التقلب هناك.
ماذا ترى أدناه؟ تجني أيام الخميس أموالاً أكثر بمرتين من أيام السبت والأحد ، ومعدل التحويل في أيام الخميس أفضل مرتين تقريبًا من يوم السبت.

إذا لم نختبر لأسابيع كاملة ، ستكون النتائج غير دقيقة. اختبر أسابيع كاملة في كل مرة.
تنطبق نفس قواعد التوقف على كل جزء.
التقسيم هو مفتاح التعلم من اختبارات أ / ب. من الشائع أن يخسر B إلى A في النتائج الإجمالية ولكنه يتفوق على A في قطاعات معينة (على سبيل المثال ، حركة مرور Facebook ، ومستخدمي الأجهزة المحمولة ، وما إلى ذلك).
قبل أن تتمكن من تحليل أي بيانات مقسمة ، تأكد من أن لديك حجم عينة كبير بما يكفي داخل كل شريحة. لذا ، فأنت بحاجة إلى 250 إلى 400 تحويل لكل شكل داخل كل شريحة تبحث فيها.
أوصي أيضًا بإنشاء اختبارات مستهدفة (تعيين الجمهور / الشريحة المستهدفة في تكوين الاختبار) بدلاً من تحليل النتائج عبر الشرائح بعد الاختبار. يضمن ذلك عدم استدعاء الاختبارات مبكرًا ، ولكل جزء حجم عينة مناسب.
قال صديقي أندريه موريس هذا عن قواعد إيقافه:

أخبر الناس دائمًا أنك بحاجة إلى عينة تمثيلية إذا كانت بياناتك يجب أن تكون صالحة.
ماذا تعني كلمة "ممثل"؟ بادئ ذي بدء ، تحتاج إلى تضمين جميع أيام الأسبوع وعطلات نهاية الأسبوع. أنت بحاجة إلى طقس مختلف لأنه يؤثر على سلوك المشتري. ولكن الأهم من ذلك ، أن حركة المرور الخاصة بك تحتاج إلى جميع مصادر حركة المرور ، وخاصة الرسائل الإخبارية ، والحملات الخاصة ، والتلفزيون ... كل شيء! كلما طالت مدة تشغيل الاختبار ، زادت الإحصاءات التي تحصل عليها.
لقد أجرينا للتو اختبارًا لأحد بائعي التجزئة الكبار في مجال الأزياء في منتصف مرحلة التخفيضات الصيفية. كان من المثير للاهتمام أن نرى كيف انخفضت النتائج بشكل كبير خلال "مرحلة البيع الصعب" بنسبة 70٪ وأكثر - لكنها تعافت بعد أسبوع واحد من انتهاء المرحلة. لم نكن لنتعلم هذا أبدًا إذا لم يتم إجراء الاختبار لمدة أربعة أسابيع تقريبًا.
"القاعدة الأساسية" لدينا هي: 3000-4000 تحويل لكل شكل ومدة اختبار من 3 إلى 4 أسابيع. هذا عدد كافٍ من الزيارات حتى يمكننا التحدث عن البيانات الصالحة إذا انتقلنا إلى الشرائح.
اختبار "الخطيئة" رقم 1: البحث عن الارتفاعات داخل الشرائح عندما لا يكون لديك صلاحية إحصائية (على سبيل المثال ، 85 مقابل 97 تحويلاً). هذا هراء.
يعد التعلم من الاختبارات أمرًا بالغ الأهمية - حتى أكثر من مجرد الحصول على مكاسب. يعد تقسيم بيانات الاختبار الخاصة بك أحد أفضل الطرق للتعلم. فقط تأكد من أن شرائحك تحتوي على بيانات كافية قبل الانتقال إلى الاستنتاجات.
استنتاج
لمجرد أن اختبارك وصل إلى مستوى أهمية 95٪ أو أعلى ، فلا تتوقف عن الاختبار. انتبه إلى العدد المطلق للتحويلات لكل شكل ومدة الاختبار أيضًا.
