5 تهديدات شائعة لصحة اختبار أ / ب
نشرت: 2016-11-17الأخبار السيئة: هل هذا التحويل بنسبة 30٪ يرفع من مستوى آخر اختبار أ / ب تم إنتاجه؟ ربما ليس مرتفعًا كما كنت تعتقد.
في الواقع ، هناك احتمال ألا يكون موجودًا على الإطلاق.
كتب مارتن جودسون ، رئيس أبحاث Qubit ، في ورقة بيضاء للشركة: "80٪ على الأقل من الاختبارات الفائزة لا قيمة لها على الإطلاق". المصاعد التي لا تجلب عادةً مصاعد صغيرة ومستدامة بدلاً من المصاعد العملاقة التي تراها معلنة في جميع أنحاء الويب.
فلماذا يخبرك برنامج اختبار A / B بخلاف ذلك؟
لأنه لا يمكنه اكتشاف التهديدات العديدة غير المرئية للصلاحية والتي من المحتمل أن تؤدي إلى إفساد بياناتك. يمكن أن تجعلك مفاهيم مثل تأثير الحداثة ، والانحدار إلى المتوسط ، وتأثير الأجهزة ، وغيرها ، ترى ارتفاعات كبيرة في التحويل حيث لا توجد أي ارتفاعات.
لذلك إذا كنت تتخذ قرارات العمل بناءً على اختبارات A / B لمجرد أنها وصلت إلى أهمية إحصائية ، فتوقف الآن. تحتاج إلى الوصول إلى دلالة إحصائية قبل أن تتمكن من إجراء أي استنتاجات بناءً على نتائجك ، ولكن هذا ليس كل ما تحتاجه. يجب عليك أيضًا إجراء اختبار صالح.
انقر للتغريد
الفرق بين الدلالة الإحصائية والصلاحية
الأهمية الإحصائية والصلاحية هما ضروريتان مختلفتان تمامًا ولكنهما متساويتان في الأهمية لإجراء اختبارات تقسيم ناجحة.
تشير الدلالة الإحصائية ، إلى درجة من الثقة ، إلى احتمالية أن تكون نتائج اختبارك موثوقة وليست مصادفة. للوصول إلى دلالة إحصائية ، عليك أن تعرف:
- معدل التحويل الأساسي لصفحة التحكم الخاصة بك
- الحد الأدنى من التغيير في معدل التحويل الذي تريد أن تكون قادرًا على اكتشافه
- ما مدى ثقتك في أن تكون نتائجك مهمة وليس بسبب الصدفة (مستوى الثقة القياسي المقبول هو 95٪)
- حجم عينتك ، ويعرف أيضًا باسم مقدار حركة المرور التي تحتاج إلى توليدها قبل أن تتمكن من الوصول إلى أهمية إحصائية (استخدم هذه الآلة الحاسبة لمعرفة ذلك)
من ناحية أخرى ، تتعلق الصلاحية بما إذا كانت العوامل الأخرى خارج حجم العينة تؤثر سلبًا على بياناتك أم لا.
فلماذا تحتاج إلى معرفة كليهما؟
لأنه حتى 53٪ من اختبارات A / A (نفس الصفحة مقابل اختبارات الصفحة نفسها المستخدمة لتقييم إعداد تجربتك) ستصل إلى 95٪ أهمية في مرحلة ما. إذا كانت الاختبارات التي تحتوي على صفحتين متطابقتين يمكن أن تصل إلى دلالة إحصائية - الوقت ، كيف يمكنك أن تثق في أن نتائج اختبار A / B الخاصة بك موثوقة؟
لا يمكنك ذلك ، يوضح Peep Laja من CXL:
"إذا أوقفت الاختبار بمجرد أن ترى أهمية ، فهناك احتمال بنسبة 50٪ أن يكون صدفة كاملة. إرم عملة. يقتل تماما فكرة الاختبار في المقام الأول ".
بدلاً من الاعتماد فقط على الأهمية الإحصائية لتحديد الفائز في اختبار الانقسام ، تحتاج إلى جمع أكبر قدر ممكن من البيانات الصالحة. وللقيام بذلك ، عليك أن تفهم نوع التهديدات التي تقف في طريقك.
التهديدات الشائعة لصلاحية اختبار A / B
1. الانحدار نحو الوسط
يقول المسوق الرقمي Chase Dumont: "حجم العينة هو الأفضل عندما يتعلق الأمر باختبار A / B". كلما زاد عدد الأشخاص الذين تختبرهم ، أصبحت نتائجك أكثر دقة.
في كثير من الأحيان ، ينهي مختبرو أ / ب تجاربهم مبكرًا. إنهم متحمسون عندما يرون دفعة كبيرة ويعلنون بثقة الفائز. ولكن ، أظهرت دراسات الحالة أنه حتى عندما يصل الاختبار إلى 95٪ دلالة إحصائية أو أعلى - حتى عندما يتم تشغيله لمدة شهر كامل - يمكن أن تكون النتائج خادعة.
خذ Chase على سبيل المثال ، الذي قام بتقسيم صفحتين طويلتين للمبيعات لإحدى شركاته. في كلماته:
في البداية ، تفوقت النسخة الأصلية على المتغير. لقد فوجئت بهذا لأنني اعتقدت أن المتغير كان أفضل وأكثر دقة في الكتابة والتصميم.
في الواقع ، كان المتغير أفضل من الأصلي ، كما أشارت غرائز تشيس. لكنها لم تظهر إلا بعد 6 أشهر من الاختبار . بحلول ذلك الوقت ، لم يكن معدل التحويل للصفحة الأصلية قد انحرف باتجاه المتوسط فحسب ، بل تجاوزه أيضًا ، لدرجة أن المتغير كان يتفوق عليه في الأداء:

إذن ماذا نعني ب "تراجع إلى الوسط"؟
في مصطلحات اختبار A / B ، فهذا يعني أن التباين عالي التحويل (في هذه الحالة الصفحة الأصلية التي يمثلها الخط الأزرق على الرسم البياني) بدأ في الأداء بالقرب من المتوسط المتوقع حيث تم جمع المزيد من العينات. بعبارات أكثر وضوحًا ، إنها طريقة أخرى لقول "الأمور متساوية مع مرور الوقت".
فكر في مثال من العالم الحقيقي. في بطولة مارتيني الدولية عام 1971 ، أصبح لاعب الجولف الإنجليزي جون أنتوني هدسون الشخص الوحيد الذي وصل إلى ثقوبتين متتاليتين في بطولة احترافية.
في فتحتين ، معدل 4 و 3 ، قام بتصوير 2-5 ضربات مجتمعة أفضل من المتوسط 7 الذي يحتاجه معظم المحترفين.
إذا نظرنا إلى هاتين الثقبتين فقط لمقارنة أدائه بالمشاركين الآخرين في البطولة ، فسنقول "واو ، هدسون أفضل بكثير من أي لاعب غولف آخر في البطولة. إنه متأكد من الفوز ".
وكان سيفعل إذا دعوا البطولة بناءً على هاتين الفتحتين فقط.
لكن الثقوب في واحد نادرة ، والبطولات تدوم العديد من الثقوب. وهكذا كلما زاد لعب هدسون ، تراجعت نتيجته إلى المتوسط. بحلول نهاية المسابقة ، كان متعادلًا في المركز التاسع ، ولم يكن قريبًا من الفوز.
وبنفس الطريقة ، كلما زادت البيانات التي تجمعها حتى بعد الوصول إلى دلالة إحصائية ، زادت دقة نتائجك.
هل يمكنك تسجيل فتحتين في واحد عن طريق تحويل الزائرين الأولين لصفحتك المقصودة بعد النقر؟ على الاطلاق. ولكن هل هذا يعني أن صفحتك الجديدة ستتحول بنسبة 100٪؟ مستحيل. في مرحلة ما ، سوف يتراجع معدل التحويل بنسبة 100٪ نحو المتوسط.
تذكر أن مصاعد التحويل العملاقة ، مثل الثقوب في واحد ، نادرة. ستنتج غالبية الاختبارات الناجحة مصاعد أصغر ومستدامة بدلاً من ذلك.
2. تأثير الجدة
لنفترض أنك تختبر شكلًا مختلفًا للصفحة المقصودة بعد النقر باستخدام زر برتقالي أكبر عندما تتميز جميع صفحاتك المقصودة بعد النقر حتى الآن بلون أخضر صغير. في البداية ، قد تجد أن الزر البرتقالي الأكبر ينتج المزيد من التحويلات - لكن السبب قد لا يكون نتيجة التغيير ، وبدلاً من ذلك ، شيء يسمى "تأثير الجدة".
يظهر تأثير الحداثة عند إجراء تغيير لا يعتاد الزائر العادي على رؤيته. هل التغيير في معدل التحويل ناتج عن تغيير لون الزر؟ أم لأنهم انجذبوا إلى حداثة التغيير؟ طريقة لمعرفة ذلك هي تقسيم حركة المرور الخاصة بك.
اعتاد الزائرون العائدون على رؤية الزر الأخضر الصغير ، لذلك قد يجذب الزر البرتقالي الكبير مزيدًا من الاهتمام لمجرد أنه مختلف عما اعتادوا عليه. لكن زوار جدد لم يسبق لهم رؤية الرابط الصغيرة الخاصة بك، حتى إذا كان يجذب انتباههم، فإنه لن يكون لأنهم معتادون على شيء مختلف. في هذه الحالة ، من المرجح أن الزر البرتقالي الأكبر هو أكثر جذبًا للانتباه بشكل عام.

عندما تختبر شيئًا مختلفًا تمامًا عما اعتاد جمهورك على رؤيته ، ففكر في توجيه حركة مرور جديدة إليه للتأكد من أن تأثير الجدة لا يؤثر على نتائجك.
3. تأثير الأجهزة
يرتبط التهديد الأكثر شيوعًا للصلاحية ، والذي يُطلق عليه "تأثير الأجهزة (أو الأداة)" ، بأداة الاختبار الخاصة بك. هل تعمل بالطريقة التي يجب أن تعمل بها؟ هل تم تنفيذ كل التعليمات البرمجية الخاصة بك بشكل صحيح؟
لا توجد حيل للتغلب على هذا خارج اليقظة. اختبر حملاتك قبل نشرها من خلال النظر إلى الصفحات المقصودة والإعلانات بعد النقر على متصفحات وأجهزة مختلفة. أدخل بيانات اختبار الرصاص للتأكد من إطلاق وحدات بكسل التحويل الخاصة بك ومزامنة CRM الخاص بك مع النموذج الخاص بك.
عندما يبدأ البث المباشر ، راقب كل مقياس عن كثب وترقب التقارير المشبوهة. قد تخذلك أداتك ، أو ربما تقود حركة مرور سيئة ، أو قد تكون ضحية لتهديد الصلاحية التالي….
4. تأثير التاريخ
لا يتم إجراء اختبار A / B الخاص بك في المختبر. إنه يعمل في العالم الحقيقي ، ونتيجة لذلك ، يتأثر بأحداث العالم الواقعي الخارجة عن سيطرتك. يمكن أن تكون هذه أشياء مثل العطلات والطقس وانهيار الخادم وحتى التاريخ والوقت.
ماذا يحدث إذا كنت تختبر حركة المرور من Twitter وكان الموقع غير متصل بالإنترنت؟ ماذا لو اختبرت صفحة مقصودة للبيع بالتجزئة بعد النقر قبل عيد الميلاد ، ثم أجريت اختبار متابعة في فبراير؟
ستكون بياناتك منحرفة.
قم بإجراء هذا الاختبار من MarketingExperiments ، على سبيل المثال ، والذي يهدف إلى تحسين نسبة النقر إلى الظهور للإعلانات على صفحات نتائج محرك البحث. كانت الوجهة عبارة عن موقع ويب لتسجيل مرتكبي الجرائم الجنسية والذي من شأنه أن يسمح للزوار بالبحث عن المحتالين في منطقتهم.
في ذلك ، تم اختبار أربعة إعلانات بنسخة متطابقة ولكن عناوين مختلفة ضد بعضها البعض.

تم استدعاء الاختبار بعد 7 أيام و 55000 انطباع ، ويبدو للوهلة الأولى أن الفائز كان واضحًا. ولكن عند الفحص الدقيق ، لاحظ المختبرون شيئًا يسمم بياناتهم. يوضح الدكتور فلينت ماكجلولين:
"ها هي المشكلة. أثناء الاختبار ، بثت Dateline برنامجًا خاصًا يسمى To Catch a Predator. شوهد من قبل 10 ملايين شخص. أصبحت كلمات المفترس المصطلح الرئيسي المرتبط بالجاني الجنسي. الآن ، لنعد إلى الوراء.
ترى هل طفلك آمن. ترى العثور على طفل مفترس ، وحيوانات مفترسة في منطقتك ، وسجل الأطفال المفترسين. وبعد ذلك ، انظر في النسخة. تحديد مرتكبي الجرائم الجنسية وتحديد مرتكبي الجرائم الجنسية. كل هذا ما عدا العنوان الرئيسي ، لكن لدينا ثلاثة من هذه العناوين تحتوي على كلمة مفترس. ماذا كانت النتيجة؟"

حققت العناوين الرئيسية التي تحتوي على كلمة "مفترس" نسبة نقر إلى ظهور أعلى بنسبة 133٪ مقارنة بتلك التي لا تحتوي عليها - كل ذلك بسبب عرض تلفزيوني خاص.
لمحاربة تأثير السجل ، استخدم أداة مراقبة الوسائط وتأكد من أن كل شخص في شركتك يعرف أنك تختبر. كلما زاد عدد أعضاء الفريق الذين دخلت إلى العالم الخارجي ، زاد احتمال أن يكتشف أحدكم شيئًا قد يؤثر على نتائج الاختبار.
5. تأثير الاختيار
يحدث تأثير الاختيار عندما يختبر المجرب عينة من الموضوعات التي لا تمثل الجمهور المستهدف.
على سبيل المثال ، لنفترض أننا أردنا معرفة فريق كرة القدم المحترف الأكثر شعبية في الولايات المتحدة ، لكننا سألنا أشخاصًا من منطقة نيو إنجلاند فقط. من المحتمل أن نسمع دعمًا ساحقًا للباتريوتس ، والذي لن يمثل البلد بأكمله.
في شروط اختبار A / B ، يمكن أن يكون لتأثير التحديد تأثير على اختبارك عند إنشاء حركة مرور من مصادر مختلفة. إنه شيء واجهه Nick Usborne من MarketingExperiments عند العمل مع ناشر أخبار رئيسي:
"لقد أعدنا تصميمًا جذريًا لعملية عرض الاشتراك الخاصة بهم للإصدار الإلكتروني وكنا في منتصف الاختبار عندما أطلقوا حملة إعلانية جديدة للرابط النصي من موقع الويب الرئيسي إلى المنتج الإلكتروني.
أدى هذا إلى تغيير مزيج حركة المرور التي تصل إلى عملية عرض الاشتراك من واحدة حيث كانت جميع حركة المرور تقريبًا تأتي من محركات البحث المدفوعة إلى أخرى حيث كانت تأتي الكثير من الزيارات من رابط داخلي إلى موقع الويب الخاص بهم (حركة مرور مؤهلة للغاية مسبقًا).
ارتفع متوسط معدل التحويل بين عشية وضحاها من 0.26٪ إلى أكثر من 2٪. لو لم نراقب عن كثب ، لربما استنتجنا أن العملية الجديدة قد حققت زيادة بنسبة 600٪ في معدل التحويل ".
من المهم مراقبة عملائك ، ولكن من الأهمية بمكان التأكد من أنك تصمم اختبارك بطريقة لا تجعله عرضة لتأثير الاختيار. اعرف من أين تأتي حركة المرور الخاصة بك ، ولا تغير المصادر في منتصف الاختبار. يجب أن تظل عينتك متسقة قدر الإمكان طوال الوقت.
متى يمكنك إنهاء اختبار A / B بأمان؟
إذا كنت لا تستطيع الوثوق بالدلالة الإحصائية وكل هذه التهديدات على الصحة يمكن أن تؤدي إلى تسمم بياناتك ، إذن ... متى يمكنك إنهاء الاختبار بأمان والاعتماد على النتائج بثقة؟
الإجابة المؤسفة هي أنه لا يمكنك أبدًا التأكد حقًا من أن نتائجك موثوقة بنسبة 100٪. ومع ذلك ، يمكنك اتخاذ الاحتياطات للتأكد من الاقتراب قدر الإمكان. يرى Peep Laja ، مُحسِّن معدل التحويل ، أن اتباع هذه المعايير الأربعة يؤدي عادة إلى الحيلة:
- يجب أن تكون مدة الاختبار 3 أسابيع كحد أدنى ، 4 أسابيع إن أمكن.
- يجب حساب حجم العينة مسبقًا باستخدام أدوات متعددة.
- يجب أن تصل التحويلات إلى ما بين 250 و 400 لكل شكل تختبره.
- يجب أن تكون الدلالة الإحصائية 95٪ كحد أدنى.
ويضيف أنه إذا لم تصل إلى 250-400 تحويل في غضون 3 أسابيع ، فعليك الاستمرار في إجراء الاختبار حتى تنتهي. وإذا احتجت إلى ذلك ، فتأكد من إجراء الاختبار في دورات مدتها أسبوع كامل. إذا بدأت الاختبار يوم الاثنين ، وحصلت على 400 تحويل بعد 5 أسابيع من يوم الأربعاء ، فاستمر في الاختبار حتى يوم الاثنين التالي (وإلا ، فقد تجد نفسك ضحية لتأثير السجل).
لا تنسَ الانتباه إلى تهديدات الصلاحية المذكورة أعلاه ، ودع كل فرد في فريقك (وفريق عميلك) يعرفون أنك تختبر. كلما أبلغت مؤسستك أكثر ، قل احتمال قيام شخص ما بتغيير جانب من جوانب الاختبار (تأثير الاختيار) ، وكلما زاد احتمال أن يلاحظ شخص ما تأثير تهديد الصلاحية مثل تأثير الأجهزة أو تأثير السجل.
كيف قمت بتحسين موقع الويب الخاص بك من خلال اختبار A / B؟
استخدم اختبار A / B لتحسين موقع الويب الخاص بك واكتشاف أي تهديدات للصلاحية. ابدأ بإنشاء صفحات ما بعد النقر ، واطلب عرض Instapage Enterprise اليوم.
