6 个 A/B 测试误区:这些误区如何影响您的结果

已发表: 2016-10-13

A/B 测试很有趣。 它很受欢迎。 做起来越来越容易了。

然而,如果你做的 A/B 测试是错误的,你仍然可能会浪费大量的时间和资源。

即使 A/B 测试越来越普遍,围绕这个主题仍然存在许多神话,其中一些非常普遍。 要真正从任何给定的技术中获得价值,重要的是要了解它的本质——包括它的局限性和了解它的强大之处。

今天你应该停止相信的 6 个 A/B 测试神话。

点击推文

这篇文章将概述我在博客和顾问中一次又一次地提出的最重要的神话。

1. A/B 测试和优化是一回事

这似乎有点挑剔,但 A/B 测试本身并不会增加转化率。 许多文章都说“做 A/B 测试以增加转化率”,但这在语义上是不准确的。

A/B 测试,也称为“在线控制实验”,是一种总结性研究方法,它通过硬数据告诉您您对界面所做的更改如何影响关键指标。

这在非学术方面意味着什么? A/B 测试是优化的一部分,但优化包含的技术范围更广,而不仅仅是实验方面。

正如 Digital Marketer 优化总监 Justin Rondeau 所说:“转化率优化是一个使用数据分析和研究来改善客户体验并从您的网站中获得最多转化的过程。”

优化实际上是关于经过验证的学习。 当您寻求利润增长的最佳途径时,您正在平衡探索/利用问题(探索找到有效的方法,并在您这样做时利用它获取利润)。

2. 你应该测试一切

我正在阅读 CRO 上的一个论坛,有人询问标题中的特定单词选择(我认为它“很棒”或其他什么),他们想知道它是否被过度使用。

一位“专家”提出了一些建议(在此释义),除非您测试所有其他类似的词(“迷人”、“难以置信”、“了不起”等),否则您永远无法确定。

对于 99.95% 的人来说,这是愚蠢的建议。

每个人都听说过 Google 如何测试 41 种蓝色色调的故事。 同样,很明显,像 Facebook 或亚马逊这样的网站理论上有流量来运行这样的测试。

但是,如果您经营一个中小型电子商务网站(或 SaaS 或其他),即使您隶属于一家非常大的公司,运行这样的测试几乎总是在浪费时间、资源和流量。

为什么,你可能会问? 因为优先级是关键。

每个人都可以看一个网站,看到几十个随机的东西,如果他们想(无论是通过数据了解或没有),他们可能会改变。 但那效率在哪里呢?

充其量,您将流量浪费在无关紧要的事情上,如果您这样做,您将始终获得不确定的结果(如果是这种情况,祝您获得利益相关者的持续支持,祝您好运)。

但是,无论如何,您都面临着巨大的机会成本:因为您将时间和资源浪费在无关紧要的事情上,所以您无法实施从根本上改变和改善用户体验的更改。 真正改变的事情(并赚到真正的钱)。

3. 每个人都应该进行 A/B 测试

A/B 测试非常强大和有用。 没有人会(聪明地)反对这一点。

但这并不意味着每个人都应该这样做。

粗略地说,如果您每月的交易(购买、注册、潜在客户等)少于 1,000 笔,那么您最好将精力放在其他事情上。 也许您可以在几个月内运行大约 500 笔交易的测试,但您需要一些大的提升才能看到效果。

许多微型企业、初创企业和小型企业(目前)还没有那样的交易量。

您还必须牢记成本。 所有这些,不仅仅是像Optimizely这样的优化软件的成本。 像:

  • 转化研究。 您必须弄清楚要测试什么(如上所述)。
  • 设计处理(线框图、原型设计等)。
  • 编写测试。
  • QAing 测试。

现在,假设您获得了 8% 的提升,这是一个有效的赢家。 你每周有 125 个潜在客户,现在你每周有 135 个。 投资回报率在那里? 也许 - 这取决于您的潜在客户价值。 但是你必须考虑时间、资源,最重要的是,你的行动的机会成本。

因此,当您在运行测试之前计算所需的样本量时,也要对 ROI 进行数学计算。 以实际美元计算,X% 提升的价值是多少?

时间是宝贵的资源。 当你还很小的时候,它可能比 A/B 测试更好地花在其他地方——因为数学。

4. 每次 A/B 测试只更改一个元素

这可能是最普遍流传的神话。 意图是好的,但这是一个有缺陷的前提。

建议如下:每次测试只进行一项更改,这样您就知道什么真正产生了影响。

例如,如果您更改标题,添加一些社交证明,并更改号召性用语文本和颜色,并获得 25% 的提升,您怎么知道是什么导致了变化?

这是真的; 你真的不能。 但是让我也问一下(尤其是针对那些没有高流量网站的奢侈品),您真的在乎吗?

在理想的世界中,特别是,一个由相互建立的迭代更改组成,是的,一次测试一件事可以限制测试中的噪音,并让您了解究竟是什么导致了更改。

此外,您必须定义您的最小有意义单元 (SMU),这就是事情变得有点挑剔的地方。 Conductrics 的首席执行官马特·格肖夫 (Matt Gershoff) 说得很好,他告诉我:

“把这个逻辑推向极端,你可能会争辩说,改变一个标题就是做出多项改变,因为你一次改变了不止一个词。

所以这取决于你想做什么。 您是否关心 CTA 的措辞,并且真的想知道它是否引起了变化? 您是否正在彻底改变您的页面? 你的网站?

SMU 取决于您的目标,相信我,在现实世界中,没有分析师或优化专家会大喊“每个测试只有一个更改!”

正如 Rondeau 先生在这篇文章中指出的那样,您会在此站点上更改哪一件事(如下图所示 - 顺便说一下,这是该站点的旧版本)?

这张图显示了对设计有很多元素且没有明确转换目标的网页进行 A/B 测试是多么困难。

我们甚至假设这个网站有大量的流量,你每个月可以运行八次有效的测试。 如果你一次只做一个元素,你从哪里开始? 测试背景图片、字体颜色、字体大小、顶部徽标、导航缩略图、位置、大小、订单、文案、正文、移动销售员等,将花费您永远的时间。

我的观点是:不要害怕在同一个测试中捆绑多个更改。

5. A/B 测试比强盗/MVT/等更好(或更差)

你会看到不时出现的文章主张你应该“避免多变量 (MVT)”,因为它们很复杂并且不会产生胜利,或者与 A/B 测试相比,bandits 效率低下——或者他们更高效——或者其他什么。

生活中的一个很好的经验法则是,如果您正在处理二分法,即这种情况与那种情况,那么您可能已经准备好了。 这可能是一种错误的二分法。

事实是,A/B 测试在某些情况下更好,而 MVT 在其他情况下是最佳选择。 与强盗和自适应算法相同。

6. 达到显着性时停止 A/B 测试

虽然我不会详细介绍统计数据(你可以在这篇文章中阅读你需要知道的一切),但说“停止在统计显着性上”是错误的,主要是由于在线环境的性质。

令人遗憾的是,这个神话广为流传,而营销界的统计知识却出人意料地包含在内。

同样,您的测试工具会告诉您已经过早地达到显着性,这也是很常见的情况。 所以不要把你所有的信心都放在 95% 的重要性上。

首先,预先计算您的样本量和测试持续时间。 然后运行测试那么长时间。 此外,测试整周(从星期一开始?在星期一结束)。 并且建议通过多个业务周期运行测试以考虑非平稳数据(随着时间的推移不会保持不变的数据)。 例如,一周的大甩卖或公关高峰可能会使您的数据大幅下降。 即使不同的日子也有多次不同的转化率。 也许你周二的转化率为 3%,而周六的转化率为 1.5%,也许这种差异会影响你的测试后分析。

所以测试整整几周来解释这些潮起潮落。 在 CXL,我们建议进行 3-4 周的测试。

然后考虑至少 95% 的统计显着性。

结论

A/B 测试非常强大。 它对基于直觉的决策具有强大的威慑力,并向您展示了数据表明您应该做的事情。

A/B 测试可让您确定哪个点击后页面带来了最多的转化。 了解如何通过今天的 Instapage 个性化演示为您拥有的每个受众提供 1:1 的广告个性化。