9 ошибок при A / B-тестировании, от которых стоит отказаться
Опубликовано: 2016-08-17Ошибки - неизбежная часть процесса обучения, но когда их совершение стоит денег вашему бизнесу, они, как правило, причиняют больше вреда.
Хотя маркетологи с любым уровнем опыта согласны с тем, что нет более надежного способа улучшить веб-страницы, электронную почту и рекламу, чем A / B-тестирование, чтобы быть эффективными, эти A / B-тесты должны проводиться правильно. К сожалению, так мало когда-либо.
Ошибки при A / B-тестировании, которые вы, вероятно, совершите
Очень вероятно, что в какой-то момент вы неправильно потратили ресурсы на A / B-тестирование. Возможно, вы проверили что-то неважное или по незнанию приняли бизнес-решения, основанные на ложных результатах. Как бы то ни было, вы не одиноки.
И новички в маркетинге, и ветераны все еще совершают следующие 9 ошибок A / B-тестирования. Если вы узнаете некоторых из них - отлично. У вас есть представление о том, чего следует избегать. Если нет, то даже лучше. К концу этого поста вы можете обнаружить, что мы сохранили вашу следующую кампанию.
1. Тестирование без причины
Если вы сидите в офисе и спрашиваете себя: «Что мне тестировать дальше?», Вы уже обречены на провал. У вас должна быть причина запускать каждый тест, подкрепленный данными. Вместо этого вы должны спросить себя: «Почему я тестирую X?»
Например, не проводите A / B-тестирование размера кнопки просто так. Если с помощью программного обеспечения для тепловых карт вы обнаружите, что потенциальные клиенты не обращают на это внимания, то проведите A / B-тест, чтобы увидеть, дает ли более заметный результат рост. После этого сформулируйте обоснованную гипотезу, которая выглядит примерно так:
«Используя программу для создания тепловой карты, я заметил, что моя кнопка с призывом к действию не привлекает должного внимания. Из-за этого, я считаю, что увеличение размера кнопки сделает ее более заметной ».
Затем решите, как вы будете оценивать результат. Для такого теста новые данные тепловой карты могут показать, уделяют ли посетители больше внимания или нет. Больше переходов по ссылкам также может указывать на их большую привлекательность.
Повторяйте этот процесс, пока не найдете решение той проблемы, которая изначально подтолкнула вас к тесту. Затем используйте этот процесс для оптимизации других маркетинговых операций для вашего бизнеса.
2. Тестирование более чем одного элемента
Данные могут предполагать, что ваша страница может использовать вместе с ним новый заголовок и на одно поле формы меньше, но тестирование обоих одновременно приведет к получению целой кучи данных, которые будет сложно интерпретировать. Это не A / B-тест, а «многовариантный тест», и сделать его правильно гораздо сложнее. Вот почему ...
В A / B-тесте вы определяете эффективность одного элемента по сравнению с другим - например, красной кнопкой и черной кнопкой:

Здесь выигрывает та страница, которая работает лучше с учетом вашего показателя успеха. Если вашим показателем успеха являются конверсии, а страница с красной кнопкой производит больше, красная кнопка работает лучше. С многовариантным тестом все становится немного сложнее.
Давайте посмотрим на второй пример теоретического многомерного теста от Optimizely, в котором оцениваются два элемента, изображение и заголовок:

Как вы можете видеть выше, проверка еще одного элемента по сравнению с одним вариантом приводит к удвоению результатов. Результаты этого теста не столь однозначны.
Если вы направляете трафик на четыре разные страницы, указанные выше, и ваша метрика успеха - это конверсии, победителем будет та, которая приносит больше всего. Однако, в отличие от A / B-теста, определить, почему эта страница выиграла, не так просто.
Например, если вариант заголовка дает больше конверсий, чем контрольный заголовок в тесте A / B, при условии, что тест был проведен правильно, заголовок варианта лучше. Поскольку это единственное различие между двумя страницами, вы точно знаете, что заголовок является причиной повышения производительности.
Однако в многовариантном тесте вам нужно будет определить не только то, какая комбинация элементов дает больше всего конверсий, но и взаимосвязь между этими элементами. Независимо от того, какая комбинация в примере заголовка / изображения от Optimizely выигрывает, тестировщику нужно будет спросить: «Как эти элементы взаимодействуют друг с другом для получения максимальной конверсии?»
Обе страницы с заголовком «Единственные виджеты Acme» работали лучше, чем другие? Возможно, заголовок больше всего повлиял на подъем. Почему среди этих двух фото шестеренки привело к большему количеству конверсий?
Это вопросы, на которые вам нужно будет найти ответы путем глубокого исследования ваших данных. Кроме того, вам понадобится гораздо больше трафика, чтобы получить эти данные.
Хорошее практическое правило? Алекс Биркетт из CXL рекомендует придерживаться A / B-тестирования, если у вас мало трафика.
3. Тратить все свое время на A / B-тестирование.
Легко пройти A / B-тест вслепую - увязнуть в поисках идеального сочетания элементов на целевой странице после клика (или объявлении, электронном письме) до такой степени, что вы пренебрегаете всеми остальными частями своей кампании. Не позволяйте этому случиться с вами.
Причина, по которой люди не конвертируются, не всегда в том, что ваша целевая страница после клика плохо скомпонована. Возможно, у вас низкий трафик или ваша кампания по привлечению потенциальных клиентов неэффективна.
Не тратьте все свое время на A / B-тестирование изображений целевой страницы и рекламного текста после клика. Не забывайте мыслить масштабно и в первую очередь оптимизировать самые большие дыры в своей воронке. Вот где вы увидите самые большие выгоды. Затем начните совершенствовать процесс с помощью A / B-тестирования.
4. Слепое следование передовым методам A / B-тестирования.
Оказывается, не всегда лучшие практики подходят для всех. То, что хорошо сработало для одного бизнеса, может не подойти для вашего. Дело в точке:
Несколько лет назад агрегатор данных Device Magic задался целью выяснить, сможет ли слайдер с изображением или видео привлечь больше потенциальных клиентов на их домашней странице. Поэтому они провели A / B-тест.
Но зачем им это?
Многочисленные исследования уже показали, что слайдеры изображений вызывают слепоту баннеров, иногда их трудно увидеть и на них редко нажимают. Кроме того, масса исследований доказала способность видео конвертировать. У некоторых предприятий коэффициент конверсии вырос до 80%. Это должно быть понятно. Видео на победу, правда?
Это не так, говорят результаты A / B-теста Device Magic. Вот их домашняя страница контрольного видео:

А вот домашняя страница слайдера вариантов:

Вариант со слайдером привел к увеличению конверсии на 35%.
Команда Device Magic извлекла из этого теста два ценных урока. Первый: не доверять всем лучшим практикам, и второй: не совершать следующую ошибку ...
5. Слишком раннее завершение теста
Вот как это обычно работает: тестировщик достигает значительного числа посетителей, чтобы доказать, что вариант страницы лучше контроля, или наоборот. Они останавливаются на 100 или 1000, а затем объявляют победителя.

Это то, что сделала команда Device Magic, пишет Парас Чопра в блоге для VWO:
Первоначально их контроль (с видео) был лучше вариаций (с помощью слайдера изображений), и они не могли понять, почему. Но затем они позволили тесту поработать немного дольше, пока у них не было намного больше данных - к их большому удивлению, результат был инвертирован так, что вариация превзошла контроль, что они и ожидали. И этот результат был статистически значимым.
Использование слишком малого размера выборки - это всего лишь одна ошибка, которая может привести к так называемому «ложноположительному» - неубедительному результату теста, замаскированному под значимый результат. В тесте Device Magic ложным срабатыванием было то, что их домашняя страница была более эффективной с видео, чем с слайдером, хотя в долгосрочной перспективе это было не так. Это доказывает, что без достаточного количества посетителей страниц, которые вы тестируете A / B, у вас не будет достаточно данных, чтобы с уверенностью делать какие-либо выводы из ваших результатов.
Вот гораздо более простой пример от Бенни Блюма того, как может выглядеть ложноположительный результат при использовании небольшого размера выборки:
Рассмотрим нулевую гипотезу: собаки больше кошек. Если я использую выборку из одной собаки и одной кошки - например, гаванского и льва - я бы пришел к выводу, что моя гипотеза неверна и что кошки крупнее собак. Но если бы я использовал больший размер выборки с большим разнообразием кошек и собак, распределение размеров нормализовалось бы, и я бы пришел к выводу, что в среднем собаки крупнее кошек.
Итак, как бороться с ложными срабатываниями, возникающими при использовании слишком маленького размера выборки? Вы найдете достаточно большой с помощью серьезной математики или можете использовать изящные калькуляторы, подобные этому, от Optimizely.
Здесь важно помнить, что у вас нет определенного времени или количества посетителей, которые вы могли бы привлечь, чтобы когда-либо быть полностью уверенными в результатах A / B-теста. Гуру CRO Пип Ладжа описывает время, когда его программное обеспечение объявило его вариант неудачным:
Вариант, который я построил, был плохим - более чем на 89% (и без перекрытия в пределах погрешности). Некоторые инструменты уже называют это и говорят, что статистическая значимость составляет 100%. Программное обеспечение, которое я использовал, сообщило, что Вариант 1 имеет 0% шанс превзойти Контроль. Мой клиент был готов объявить, что все уходит. Однако, поскольку размер выборки здесь был слишком мал (чуть более 100 посещений на вариант), я настаивал, и 10 дней спустя это выглядело так.

Вариант, который имел 0% шансов превзойти контроль, теперь побеждал с уверенностью 95% ».
Чем дольше длится ваш тест и чем больше у вас будет посетителей, тем ближе вы будете к «уверенности» в результате, даже если вы никогда не сможете до конца добраться до него.
6. Тестирование элементов в разное время
Слишком раннее завершение теста может произойти даже после достижения статистической значимости. Допустим, ваш сайт генерирует достаточно посетителей для достижения статистической значимости с 15 000 посетителей на каждую страницу за выходные. Еще не время называть свой эксперимент.
Неудивительно, что дни недели серьезно влияют на трафик и конверсию. Если вы начнете тест в субботу, вам следует завершить его в следующую субботу, чтобы снизить вероятность искажения результатов за один или два дня, даже если вы уже достигли статистической значимости. Аудитория, которая посещает ваш сайт в выходные, может сильно отличаться от той, которая посещает его в течение недели, и это может повлиять на результаты ваших тестов.
7. Не исключать мешающие переменные.
Смешивающие переменные - это именно то, на что они похожи - переменные в вашем A / B-тесте, которые могут испортить результаты. Неспособность идентифицировать их означает рисковать достоверностью ваших данных. Вот пример из Optimize Smart того, как могут выглядеть мешающие переменные в ваших тестах:

Например, если вы измените таргетинг рекламы, чтобы генерировать другой трафик в соответствии с вашим вариантом в середине теста, вы измените результат, изменив людей, которые попадают на вашу страницу. Эти люди, принадлежащие к совершенно другой демографической группе, могут быть более восприимчивы к вашему варианту заголовка или изображения.
Помните, что все, кроме оцениваемого вами элемента, должно быть одинаковым и оставаться равным на протяжении всего вашего A / B-тестирования . Таким образом, вы можете быть уверены, что разница в производительности является результатом тестируемого элемента.
8. Тестирование элементов, которые не поднимут настроение.
Да, цвет имеет значение в вашем маркетинге, но действительно ли вам нужно протестировать все 41 оттенок синего, как это сделал Google несколько лет назад, чтобы определить, какой из них больше всего влияет на производительность?
Точно нет.
Не тратьте время на такие легкомысленные A / B-тесты. У Google есть для этого ресурсы (не то чтобы мы думали, что им следовало использовать их вот так), а у вас нет. Не тратьте время на тестирование вещей, которые принесут минимальный прирост производительности, если таковой имеется.
9. Сдача после одного теста
Допустим, вы провели A / B-тестирование избранного изображения своей страницы и тем самым обеспечили устойчивый рост конверсии на 10%. Поздравляю! Это круто, но означает ли это, что у вас лучший имидж? Неа. Это означает, что у вас лучший имидж, чем раньше.
Если бы мы отказались от тестирования этой целевой страницы вебинара после клика, довольные повышением коэффициента конверсии на 45% по сравнению с вариантом «B», мы бы никогда не увидели того поразительного прироста, который мы получили от варианта «C».
Вот оригинал:

Вот вариант B, который привел к увеличению конверсий на 45%:

И, наконец, вариант «C», который увеличил конверсию на шокирующие 129%!

Если сначала ваши тесты не увенчались успехом, попробуйте, попробуйте еще раз. И даже если им это удастся, попробуйте, попробуйте еще раз, чтобы добиться еще лучших результатов. Но сначала начните создавать персонализированные страницы после щелчка с помощью Instpage, запросите демонстрацию Instapage Enterprise сегодня.
