6 мифов об A / B-тестировании: как эти мифы портят ваши результаты
Опубликовано: 2016-10-13A / B-тестирование - это весело. Это популярно. Делать становится легче.
Однако, если вы неправильно проводите A / B-тестирование, вы все равно можете зря тратить массу времени и ресурсов.
Даже несмотря на то, что A / B-тестирование становится все более распространенным, вокруг этой темы по-прежнему существует множество мифов, некоторые из которых довольно распространены. Чтобы действительно извлечь пользу из любой техники, важно понимать, что это такое, включая ее ограничения и понимание того, где она сильна.
Нажмите, чтобы твитнуть
В этой статье будут описаны основные мифы, которые я видел снова и снова в блогах и консультантами.
1. A / B-тестирование и оптимизация - это одно и то же.
Это может показаться немного привередливым, но само A / B-тестирование не увеличивает конверсию. Во многих статьях говорится что-то вроде «проведите A / B-тестирование для увеличения конверсии», но это семантически неточно.
A / B-тестирование, также известное как «управляемый онлайн-эксперимент», представляет собой обобщающий метод исследования, который на основе достоверных данных сообщает вам, как изменения, которые вы вносите в интерфейс, влияют на ключевые показатели.
Что это означает в неакадемических терминах? A / B-тестирование - это часть оптимизации, но оптимизация включает в себя более широкий спектр методов, чем просто эксперимент.
Как сказал Джастин Рондо, директор по оптимизации Digital Marketer, «Оптимизация коэффициента конверсии - это процесс, который использует анализ данных и исследования для улучшения качества обслуживания клиентов и уменьшения количества конверсий с вашего веб-сайта».
Оптимизация - это действительно подтвержденное обучение. Вы уравновешиваете проблему разведки / эксплуатации (исследуете, чтобы найти, что работает, и используете это для получения прибыли, когда вы это делаете), ища оптимальный путь к росту прибыли.
2. Вы должны все протестировать
Я читал форум по CRO, где кто-то спрашивал об определенном выборе слова в заголовке (я думаю, что это было «круто» или что-то в этом роде), и им было интересно, не злоупотребляли ли этим словом.
«Эксперт» вмешался с советом (перефразируя здесь), который вы никогда не сможете узнать наверняка, пока не проверите каждое другое подобное слово («увлекательный», «невероятный», «чудесный» и т. Д.)
Это глупый совет для 99,95% людей.
Все слышали историю о том, как Google протестировал 41 оттенок синего. Точно так же совершенно очевидно, что у такого сайта, как Facebook или Amazon, теоретически есть трафик для проведения подобных тестов.
Но если вы запускаете небольшой или средний сайт электронной коммерции (или SaaS, или что-то еще), даже если вы являетесь частью очень большой компании, запуск таких тестов почти всегда пустая трата времени, ресурсов и трафика.
Почему, спросите вы? Потому что расстановка приоритетов является ключевым моментом.
Каждый может посмотреть на сайт и увидеть десятки случайных вещей, которые они могут изменить, если захотят (независимо от того, на основе данных или нет). Но где в этом эффективность?
В лучшем случае вы тратите трафик на вещи, которые не имеют значения, и вы всегда будете получать неубедительные результаты, если сделаете это (удачи в получении постоянной поддержки от заинтересованных сторон, если это так).
Как бы то ни было, вы столкнетесь с огромными альтернативными издержками: поскольку вы тратите время и ресурсы на вещи, которые не имеют значения, вы исключены из возможности вносить изменения, которые коренным образом меняют и улучшают взаимодействие с пользователем. То, что действительно имеет значение (и приносит реальные деньги).
3. Все должны тестировать A / B
A / B-тестирование невероятно мощно и полезно. Никто не будет (разумно) возражать против этого.
Но это не значит, что все должны это делать.
Грубо говоря, если у вас меньше 1000 транзакций (покупок, подписок, потенциальных клиентов и т. Д.) В месяц, вам будет лучше сосредоточить свои усилия на других вещах. Возможно, вам удастся провести тесты около 500 транзакций в течение нескольких месяцев, но вам потребуются большие усилия, чтобы увидеть эффект.
Многие микропредприятия, стартапы и малые предприятия просто не имеют такого объема транзакций (пока).
Вы также должны учитывать расходы. Все они, а не только стоимость программного обеспечения для оптимизации, такого как Optimizely. Вещи как:
- Конверсионные исследования. Вы должны выяснить, что тестировать (как упоминалось выше).
- Проектирование лечения (каркасное моделирование, прототипирование и т. Д.).
- Кодирование теста.
- QAing the test.
Теперь предположим, что вы получили рост на 8%, и это действительный победитель. У вас было 125 лидов в неделю, а теперь у вас 135 в неделю. Есть ли рентабельность инвестиций? Может быть - это зависит от вашей стоимости лида. Но вы должны учитывать время, ресурсы и, самое главное, альтернативные издержки своих действий.
Итак, когда вы рассчитываете необходимый размер выборки перед запуском теста, также просчитайте рентабельность инвестиций. Какова была бы стоимость подъема на X% в реальных долларах?

Время - ценный ресурс. Возможно, лучше потратить его на что-то другое, чем на A / B-тестирование, когда вы еще маленький - из-за математики.
4. Заменяйте только один элемент за A / B-тест.
Это, вероятно, самый распространенный миф. Намерения хороши, но это ошибочная предпосылка.
Вот совет: вносите только одно изменение за тест, чтобы вы знали, что на самом деле имеет значение.
Например, если вы измените заголовок, добавите социальное доказательство, измените текст и цвет призыва к действию, и вы получите 25% -ный рост, как вы можете определить, что вызвало изменение?
Это правда; ты действительно не можешь. Но позвольте мне также спросить (и это особенно важно для тех, у кого нет роскоши, связанной с сайтами с высокой посещаемостью), вас действительно волнует?
В идеальном мире, особенно в мире, состоящем из итеративных изменений, которые основываются друг на друге, да, тестирование одного элемента за раз ограничивает шум в тесте и позволяет понять, что именно вызвало изменение.
Кроме того, вы должны определить свою наименьшую значимую единицу (SMU), и здесь все становится немного придирчивым. Мэтт Гершофф, генеральный директор Conductrics, хорошо сказал мне:
«Если довести логику до крайности, вы можете возразить, что изменение заголовка приводит к нескольким изменениям, поскольку вы меняете более одного слова за раз.
Так что это зависит от того, что вы хотите делать. Вам важна формулировка вашего призыва к действию и действительно ли вы хотите знать, вызвало ли оно изменение или нет? Вы кардинально меняете свою страницу? Твой сайт?
SMU зависит от ваших целей, и поверьте мне, в реальном мире ни один аналитик или специалист по оптимизации не кричит: «Только одно изменение за тест!»
Как указал г-н Рондо в этом посте, что бы вы изменили на этом сайте (на картинке ниже - это, кстати, старая версия сайта)?

Давайте даже предположим, что у этого сайта тонна трафика, и вы можете запускать восемь действительных тестов в месяц. Если вы делаете по одному элементу за раз, с чего начать? Вам потребовалась бы вечность, чтобы протестировать фоновое изображение, цвет шрифта, размер шрифта, логотип вверху, эскизы навигации, расположение, размер, порядок, копию, основной текст, движущихся продавцов и т. Д. И т. Д.
Я хочу сказать следующее: не бойтесь объединить несколько изменений в одном тесте.
5. A / B тесты лучше (или хуже), чем бандиты / MVT / и т. Д.
Вы видите, что время от времени появляются статьи, в которых говорится, что вам следует «избегать многовариантных (MVT)», потому что они сложны и не приносят результатов, или что бандиты неэффективны по сравнению с A / B-тестами - или что они более эффективны. эффективный - или что-то в этом роде.
Хорошее практическое правило в жизни заключается в том, что если вы имеете дело с дихотомией, ситуация против этого , вас, вероятно, подставляют. Вероятно, это ложная дихотомия.
По правде говоря, A / B-тестирование лучше в одних ситуациях, тогда как MVT - лучший выбор в других. То же самое с бандитами и адаптивными алгоритмами.
6. Остановите A / B-тест, когда он достигнет значимости.
Хотя я не буду вдаваться в подробности статистики (вы можете прочитать все, что вам нужно знать в этом посте), высказывание «остановитесь на статистической значимости» неверно, в основном из-за характера онлайн-среды.
Жаль, что этот миф широко распространен, а статистические знания в мире маркетинга на удивление ограничены.
Также часто бывает, что ваш инструмент тестирования скажет вам, что вы достигли значимости слишком рано. Так что не верьте в 95% значимости.
Во-первых, предварительно рассчитайте размер выборки и продолжительность теста. Затем запустите тест так долго. Кроме того, протестируйте полные недели (начало в понедельник? Окончание в понедельник). И рекомендуется провести тест через несколько бизнес-циклов, чтобы учесть нестационарные данные (данные, которые не остаются неизменными с течением времени). Например, крупная распродажа за неделю или всплеск PR могут значительно снизить ваши данные. Даже в разные дни конверсия многократно различается. Может быть, у вас коэффициент конверсии 3% по вторникам, но коэффициент конверсии 1,5% по субботам, и, возможно, эта разница скроет ваш пост-тестовый анализ.
Так что проверяйте целые недели, чтобы учесть эти приливы и отливы. В CXL мы рекомендуем пройти тест в течение 3-4 недель.
Затем рассмотрите статистическую значимость не менее 95%.
Заключение
A / B-тестирование невероятно мощно. Это мощный сдерживающий фактор для принятия решений на основе интуиции и показывает, какие данные говорят, что вы должны делать вместо этого.
A / B-тестирование позволяет определить, какая страница после клика приносит больше всего конверсий. Узнайте, как обеспечить персонализацию рекламы 1: 1 для каждой вашей аудитории, с помощью демоверсии персонализации Instapage сегодня.
