9 أخطاء في اختبار A / B تحتاج إلى التوقف عن ارتكابها
نشرت: 2016-08-17الأخطاء جزء لا مفر منه من عملية التعلم ، ولكن عندما يكلف جعلها أموال عملك ، فإنها تميل إلى اللسع أكثر من ذلك بقليل.
بينما يتفق المسوقون من جميع مستويات الخبرة - لا توجد طريقة أكثر موثوقية لتحسين صفحات الويب ورسائل البريد الإلكتروني والإعلانات من اختبار A / B - لكي تكون فعالة ، يجب إجراء اختبارات A / B بالطريقة الصحيحة. الحقيقة المؤسفة قليلة على الإطلاق.
أخطاء اختبار A / B التي من المحتمل أن ترتكبها
من المحتمل جدًا أنك في مرحلة ما قد أهدرت الموارد عن طريق اختبار A / B بشكل غير صحيح. ربما اختبرت شيئًا غير مهم ، أو اتخذت قرارات تجارية دون قصد بناءً على نتائج خاطئة. مهما كان الأمر ، فأنت لست وحدك.
لا يزال كل من المبتدئين في مجال التسويق والمحاربين القدامى يرتكبون أخطاء اختبار A / B التسعة التالية. إذا تعرفت على بعضها ، فهذا عظيم. لديك فكرة عما يجب تجنبه. إذا لم تفعل ، فهذا أفضل. بنهاية هذا المنشور ، قد تجد أننا قد حفظنا حملتك التالية.
1. اختبار دون سبب
إذا كنت جالسًا في مكتبك وتسأل نفسك "ما الذي يجب أن أختبره بعد ذلك؟" ، فأنت بالفعل محكوم عليك بالفشل. يجب أن يكون لديك سبب لإجراء كل اختبار ، مدعومًا بالبيانات. بدلاً من ذلك ، يجب أن تسأل نفسك ، "لماذا أقوم باختبار X؟"
على سبيل المثال ، لا تختبر A / B حجم الزر فقط من أجل التحقق منه. إذا اكتشفت ، باستخدام برنامج رسم الخرائط الحرارية ، أن العملاء المحتملين لا يهتمون بها ، فعندئذٍ قم باختبار A / B لمعرفة ما إذا كان أحد أبرزها ينتج المصعد. بعد ذلك ، قم بتكوين فرضية متعلمة تبدو كالتالي:
"باستخدام برنامج heatmap ، لاحظت أن زر الحث على اتخاذ إجراء لم يكن يحظى بالاهتمام المطلوب. ولهذا السبب ، أعتقد أن زيادة حجم الزر بشكل أكبر يجعله أكثر وضوحًا ".
بعد ذلك ، قرر كيف ستقيس النتيجة. في مثل هذا الاختبار ، قد تُظهر بيانات الخرائط الحرارية الجديدة ما إذا كان الزائرون يولون اهتمامًا أكبر لها أم لا. قد يشير المزيد من النقرات إلى جذب أكبر لها.
كرر هذه العملية حتى تجد حلاً لأي مشكلة حفزت الاختبار في المقام الأول. بعد ذلك ، استخدم العملية لتحسين عمليات التسويق الأخرى لعملك.
2. اختبار أكثر من عنصر
قد تشير البيانات إلى أن صفحتك يمكن أن تستخدم عنوانًا جديدًا وحقل نموذج واحدًا أقل معه ، ولكن اختبار كلاهما في نفس الوقت سيؤدي إلى مجموعة كاملة من البيانات التي سيكون من الصعب تفسيرها. هذا ليس اختبار A / B ، ولكنه "اختبار متعدد المتغيرات" ، وهو أكثر صعوبة في القيام به بشكل صحيح. إليكم السبب ...
في اختبار A / B ، أنت تحدد فعالية عنصر مقابل عنصر آخر - على سبيل المثال ، زر أحمر مقابل زر أسود:

هنا ، أي صفحة تعمل بشكل أفضل بناءً على مقياس النجاح الخاص بك هو الفائز. إذا كان مقياس نجاحك هو التحويلات وكانت الصفحة التي تحتوي على الزر الأحمر تنتج المزيد ، فإن الزر الأحمر يعمل بشكل أفضل. مع اختبار متعدد المتغيرات ، تصبح الأمور أكثر تعقيدًا بعض الشيء.
لنلقِ نظرة على هذا المثال الثاني من Optimizely لاختبار نظري متعدد المتغيرات يتم فيه تقييم عنصرين ، الصورة والعنوان:

كما ترى أعلاه ، يؤدي اختبار عنصر واحد فقط مقابل شكل واحد إلى مضاعفة النتائج. نتائج هذا الاختبار ليست واضحة تمامًا.
إذا كنت تقوم بتوجيه الزيارات إلى الصفحات الأربع المختلفة أعلاه وكان مقياس نجاحك هو التحويلات ، فإن أكثر ما ينتج عنه هو الفائز. على عكس اختبار A / B ، فإن تحديد سبب فوز هذه الصفحة ليس بالأمر السهل.
على سبيل المثال ، إذا كان عنوان الشكل ينتج تحويلات أكثر من عنوان عنصر تحكم في اختبار A / B ، بافتراض أن هذا الاختبار قد تم إجراؤه بشكل صحيح ، يكون عنوان التباين أفضل. نظرًا لأن هذا هو الاختلاف الوحيد بين الصفحتين ، فأنت تعلم بشكل قاطع أن العنوان هو سبب الارتفاع في الأداء.
ومع ذلك ، في اختبار متعدد المتغيرات ، سيتعين عليك تحديد ليس فقط مجموعة العناصر التي تنتج معظم التحويلات ، ولكن أيضًا العلاقة بين هذه العناصر. بغض النظر عن المجموعة التي تربح في مثال العنوان / الصورة من Optimizely ، سيحتاج المختبر إلى طرح السؤال "كيف تتفاعل هذه العناصر مع بعضها البعض لإنتاج أقصى تحويلات؟"
هل كانت كلتا الصفحتين اللتين تحملان العنوان "The One And Only Acme Widgets" أفضل من الأخريات؟ من المحتمل أن يكون العنوان الرئيسي هو المسؤول الأكبر عن المصعد. من بين هذين ، لماذا أنتجت صورة العتاد المزيد من التحويلات؟
هذه أسئلة يجب أن تجد إجابات لها من خلال البحث العميق في بياناتك. بالإضافة إلى ذلك ، ستحتاج إلى المزيد من حركة المرور فقط للحصول على تلك البيانات.
قاعدة جيدة من التجربة؟ يوصي Alex Birkett من CXL بالالتزام باختبار A / B إذا لم يكن لديك الكثير من حركة المرور.
3. قضاء كل وقتك في اختبار أ / ب
من السهل الحصول على اختبار أ / ب معمي - للوقوع في فخ البحث عن مزيج مثالي من العناصر على صفحتك المقصودة بعد النقر (أو الإعلان أو البريد الإلكتروني) لدرجة أنك تهمل كل جزء آخر من حملتك. لا تدع هذا يحصل لك.
لا يكون سبب عدم قيام الأشخاص بالتحويل دائمًا لأن صفحتك المقصودة بعد النقر ليست مُجمعة جيدًا. قد يكون السبب هو ضعف حركة المرور الخاصة بك أو أن حملتك الترويجية الرائدة ليست قوية.
لا تضيع كل وقتك في اختبار A / B لصور الصفحة المقصودة بعد النقر ونسخة الإعلان. تذكر أن تفكر في صورة كبيرة ، وقم بتحسين أكبر الثغرات في مسار التحويل الخاص بك أولاً. هذا هو المكان الذي ستشاهد فيه أكبر المكاسب. ثم ابدأ في إتقان العملية من خلال اختبار أ / ب.
4. اتباع أفضل ممارسات اختبار A / B بشكل أعمى
كما اتضح ، فإن أفضل الممارسات ليست دائمًا الأفضل للجميع. ما نجح بشكل جيد لنشاط تجاري واحد قد لا يعمل بشكل جيد بالنسبة لك. مثال على ذلك:
قبل بضع سنوات ، شرع مجمع البيانات Device Magic في معرفة ما إذا كان شريط تمرير الصورة أو مقطع الفيديو سيحول المزيد من الاحتمالات على صفحتهم الرئيسية. لذلك أجروا اختبار أ / ب.
لكن لماذا يفعلون ذلك؟
لقد أظهرت العديد من الدراسات بالفعل أن أشرطة تمرير الصور تسبب عمى الشعارات ، وفي بعض الأحيان يصعب رؤيتها ، ونادرًا ما يتم النقر عليها. بالإضافة إلى ذلك ، أثبتت الكثير من الأبحاث قوة الفيديو في التحويل. شهدت بعض الشركات زيادات في معدل التحويل تصل إلى 80٪. يجب أن يكون هذا بلا تفكير. فيديو للفوز ، أليس كذلك؟
قالت نتائج اختبار Device Magic's A / B ليس الأمر كذلك. هذه هي الصفحة الرئيسية لفيديو التحكم الخاص بهم:

وإليك الصفحة الرئيسية لشريط تمرير التنويعات:

أدى الاختلاف الكامل مع شريط التمرير إلى زيادة التحويلات بنسبة 35٪.
تعلم فريق Device Magic شيئين قيّمين من هذا الاختبار. أولاً: لا تثق في أفضل الممارسات بصدق ، وثانيًا: لا ترتكب الخطأ التالي ...

5. إنهاء الاختبار في وقت مبكر جدًا
إليك كيفية عملها عادةً: يصل المُختبِر إلى ما يعتبره عددًا كبيرًا من الزائرين لإثبات أن أحد أشكال الصفحة أفضل من عنصر تحكم ، أو العكس. يتوقفون عند 100 أو 1000 ثم يعلنون الفائز.
هذا ما فعله فريق Device Magic ، كتب Paras Chopra في منشور مدونة لـ VWO:
في البداية كانت سيطرتهم (بالفيديو) تتفوق على التباين (باستخدام شريط تمرير الصورة) ولم يتمكنوا من فهم السبب. ولكن بعد ذلك سمحوا للاختبار بالعمل لفترة أطول حتى حصلوا على الكثير من البيانات - لدهشتهم كثيرًا ، انعكست النتيجة إلى التباين الذي يتفوق على التحكم ، وهو ما توقعوه. وكانت هذه النتيجة ذات دلالة إحصائية.
يعد استخدام حجم عينة صغير جدًا مجرد خطأ واحد يمكن أن يؤدي إلى ما يسمى "إيجابية زائفة" - نتيجة اختبار غير حاسمة متخفية في صورة ذات مغزى. في اختبار Device Magic ، كانت النتيجة الإيجابية الزائفة أن صفحتهم الرئيسية كانت أكثر فعالية مع الفيديو من شريط التمرير ، على الرغم من أن هذا لم يكن هو الحال على المدى الطويل. إنه يثبت أنه بدون عدد كافٍ من الزائرين للصفحات التي تختبرها A / B ، لن يكون لديك بيانات كافية لإجراء أي استنتاجات بثقة من نتائجك.
إليك مثال أبسط بكثير من Benny Blum لما قد تبدو عليه النتيجة الإيجابية الزائفة من استخدام حجم عينة صغير:
ضع في اعتبارك الفرضية الصفرية: الكلاب أكبر من القطط. إذا استخدمت عينة من كلب واحد وقطة واحدة - على سبيل المثال ، هافانيز وأسد - سأستنتج أن فرضيتي غير صحيحة وأن القطط أكبر من الكلاب. ولكن ، إذا استخدمت حجمًا أكبر للعينة مع مجموعة متنوعة من القطط والكلاب ، فسيتم توزيع الأحجام بشكل طبيعي ، وأستنتج أن الكلاب ، في المتوسط ، أكبر من القطط.
لذا ، كيف تتغلب على الإيجابيات الزائفة التي تأتي مع استخدام حجم عينة صغير جدًا؟ تجد واحدة كبيرة بما يكفي من خلال بعض العمليات الحسابية الجادة ، أو يمكنك استخدام الآلات الحاسبة الأنيقة مثل هذه من Optimizely.
الشيء المهم الذي يجب تذكره هنا هو أنه لا يوجد وقت محدد أو عدد الزائرين الذي يمكنك إنشاؤه لتتأكد تمامًا من نتائج اختبار A / B. يصف Peep Laja معلم CRO الوقت الذي أعلن فيه برنامجه أن تنوعه خاسر:
كان التباين الذي أنشأته يخسر بشكل سيئ - بأكثر من 89٪ (ولا يوجد تداخل في هامش الخطأ). قد تسميها بعض الأدوات بالفعل وتقول إن الأهمية الإحصائية كانت 100٪. قال البرنامج الذي استخدمته أن Variation 1 لديه فرصة 0٪ للتغلب على Control. كان عميلي جاهزًا للاتصال به. ومع ذلك ، نظرًا لأن حجم العينة هنا كان صغيرًا جدًا (فقط ما يزيد قليلاً عن 100 زيارة لكل شكل مختلف) فقد أصررت على ذلك وهذا ما بدا بعد 10 أيام.

التباين الذي كان لديه فرصة بنسبة 0٪ للتغلب على السيطرة هو الفوز الآن بثقة 95٪ ".
كلما طالت مدة تشغيل اختبارك وزاد عدد الزوار الذين تحصل عليهم ، كلما اقتربت من "التأكد" من نتيجة ، حتى لو لم تتمكن أبدًا من الوصول إلى هناك تمامًا.
6. اختبار العناصر في أوقات مختلفة
يمكن أن يحدث إنهاء الاختبار في وقت مبكر جدًا حتى بعد وصولك إلى الأهمية الإحصائية. لنفترض أن موقعك يولد عددًا كافيًا من الزوار للوصول إلى أهمية إحصائية مع 15000 زائر لكل صفحة خلال عطلة نهاية الأسبوع. لم يحن الوقت بعد لاستدعاء تجربتك.
ليس من المستغرب أن يكون لأيام الأسبوع تأثير خطير على حركة المرور والتحويلات. إذا بدأت اختبارك يوم السبت ، فيجب أن تنهيه يوم السبت التالي لتقليل احتمالية تشويه النتائج بيوم أو يومين ، حتى لو كنت قد وصلت بالفعل إلى دلالة إحصائية. قد يكون الجمهور الذي يزور موقع الويب الخاص بك في عطلة نهاية الأسبوع مختلفًا تمامًا عن الجمهور الذي يزوره خلال الأسبوع ، وقد يؤثر ذلك على نتائج الاختبار الخاصة بك.
7. عدم القضاء على المتغيرات المربكة
المتغيرات المربكة هي بالضبط ما تبدو عليه - المتغيرات داخل اختبار A / B الخاص بك والتي من شأنها العبث بالنتائج. الفشل في التعرف عليها يعني المخاطرة بصحة بياناتك. فيما يلي مثال من Optimize Smart لما قد تبدو عليه المتغيرات المربكة في اختباراتك:

على سبيل المثال ، إذا قمت بتغيير استهداف إعلانك لتوليد حركة مرور مختلفة عن الشكل الخاص بك في منتصف الاختبار ، فأنت تقوم بتغيير النتيجة عن طريق تغيير الأشخاص الذين يصلون إلى صفحتك. نظرًا لكونهم مجموعة ديموغرافية مختلفة تمامًا ، فقد يكون هؤلاء الأشخاص أكثر تقبلاً لعنوانك أو صورتك المتنوعة.
تذكر أن كل الأشياء بخلاف العنصر الذي تقيمه يجب أن تكون متساوية وأن تظل متساوية طوال اختبارات A / B بأكملها . بهذه الطريقة ، يمكنك أن تكون واثقًا من أن الاختلاف في الأداء ناتج عن العنصر الذي تختبره.
8. اختبار العناصر التي لن تجلب المصعد
نعم ، اللون مهم في التسويق الخاص بك ، ولكن هل تحتاج حقًا إلى اختبار جميع درجات اللون الأزرق البالغ عددها 41 كما فعلت Google قبل بضع سنوات لتحديد أيها له أكبر تأثير على الأداء؟
بالطبع لا.
لا تضيع وقتك في اختبارات A / B التافهة مثل هذه. تمتلك Google الموارد اللازمة للقيام بذلك (لا نعتقد أنه كان ينبغي استخدامها بهذه الطريقة) ، فأنت لا تفعل ذلك. لا تضيع وقتك في اختبار الأشياء التي ستؤدي إلى الحد الأدنى من رفع الأداء ، إن وجدت.
9. الاستسلام بعد اختبار واحد
لنفترض أنك قمت باختبار A / B للصورة المميزة لصفحتك ، وبذلك أنتجت تحسينًا مستدامًا للتحويل بنسبة 10٪. تهانينا! هذا رائع - لكن هل يعني ذلك أن لديك أفضل صورة؟ لا. هذا يعني أن لديك صورة أفضل من ذي قبل.
إذا تخلينا عن اختبار الصفحة المقصودة بعد النقر على الندوة عبر الويب ، راضين عن زيادة بنسبة 45٪ في معدل التحويل من الشكل "ب" ، فلن نشهد أبدًا التعزيز المذهل الذي حصلنا عليه من الصيغة "ج".
ها هي النسخة الأصلية:

في ما يلي الشكل "ب" الذي أدى إلى زيادة بنسبة 45٪ في التحويلات:

وأخيرًا ، إليك الصيغة "C" ، والتي عززت التحويلات بنسبة صادمة بلغت 129٪!

إذا لم تنجح اختباراتك في البداية ، فحاول ، وحاول مرة أخرى. وحتى إذا نجحوا ، فحاولوا ، وحاولوا مرة أخرى للحصول على نتائج أفضل. ولكن ابدأ أولاً في إنشاء صفحات مخصصة لما بعد النقر باستخدام Instpage ، واطلب عرض Instapage Enterprise اليوم.
