什么是 A/A 测试,营销人员为什么要关心?

已发表: 2017-05-18

你经历过这样的场景吗? 您设置了 A/B 测试,以发现您的新按钮和标题组合是否会产生更多转化……

您为您的点击后登录页面(控制和变体)带来了相同的流量,并在一个月后停止,当您的软件以 99% 的信心宣布您的变体成为赢家时……

您推出了新的“获胜”设计,但在几个商业周期之后,转化率提高 50% 对您的底线没有影响。 你很困惑。 你生气了……

您可能是假阳性测试结果的受害者。

什么是假阳性测试结果?

为什么 50% 的转化率提升没有转化为更多的销售额? Copyhackers 的 Lance Jones 说,原因是它可能不存在。

完全有可能(甚至可能)您没有看到测试带来的销售或收入提升,因为它从一开始就不存在。 您可能在不知情的情况下在测试中收到了“误报”——称为 I 型统计错误,也称为对真实零假设的错误拒绝。 那是一口,所以我只记得它是误报。

无论是否满口,这些 1 类统计错误比您想象的更常见。 据估计,大约 80% 的 AB 测试结果是虚构的。

据估计,大约 80% 的 AB 测试结果是虚构的。

点击推文

如果您根据误报做出关键决策,充其量就是将优化留给机会。 最糟糕的是,您实际上是在降低点击后登录页面的转化率。

幸运的是,有一些方法可以对抗有毒数据。 其中之一类似于您可能已经熟悉的测试方法......

什么是 A/A 测试?

A/B 测试涉及将流量吸引到两个不同的页面——一个原始页面(你的控制)和另一个版本(你的变体)——看看哪个表现更好。

类似地,A/A 测试涉及将流量驱动到两个页面以查看哪个页面表现更好。 但与 A/B 测试不同的是,A/A 测试将两个相同的页面相互竞争——而不是发现提升,他们的目标是找到你的控制和变化之间没有区别。

为什么要进行 A/A 测试?

我们不会责怪您挠头,想知道“测试两个相同的页面到底能实现什么?”

这听起来可能很傻,但这是一些专业测试人员在测试之前用来测试 A/B 测试的技术。 (嗯?)

准确的测试结果需要的不仅仅是统计显着性

任何人都可以运行 A/B 测试,但很少有人可以运行有效的A/B 测试(请记住:只有大约 20% 的测试结果实际上是合法的)。

生成准确的测试数据涉及的不仅仅是通过具有代表性的大样本量达到统计显着性。 为了对您的结果充满信心,您必须确保样本不会受到许多有效性威胁的影响。

这些威胁之一,仪器效应,是 A/A 测试最有助于对抗的。

什么是乐器效应?

在您开始 A/B 测试之前,就开始防范有效性威胁。 CXL 的 Peep Laja 说,仪器效应是最毒害测试结果的原因:

这是最常见的问题。 当测试工具(或仪器)发生某些事情时,会导致测试中的数据存在缺陷。 这通常是由于网站上错误的代码实现,并且会歪曲所有结果。

这就是为什么在设置测试时,确保您的工具配置正确并按应有的方式工作很重要。 如果不是,则可能会出现以下常见问题:

  • 关键绩效指标的误报。 一个工具中的一个错误可能会混淆您的数据,这就是为什么您永远不应该依赖单一平台来跟踪所有测试信息。 至少,与 Google Analytics 集成以仔细检查您在测试软件和网站跟踪中看到的指标是否准确。 为了获得更好的结果,请使用其他工具进行三重检查。 怀疑任何不匹配的报告。
  • 点击后登陆页面显示问题。 在 A/B 测试期间,小的编码错误可能会导致严重的有效性威胁,例如显示问题。 这就是为什么确保您的点击后登录页面在所有设备和浏览器上的显示方式都非常重要,并且您的访问者不会受到所谓的“闪烁效应”的影响。 其中,缓慢的网站可能会导致此问题,当您的控件在变化之前暂时显示给您的访问者时,就会发生这种问题。
  • 过早停止测试。 一些测试软件会过早地宣布获胜页面 - 当样本量不够大或代表您的目标客户时。 请记住:达到统计显着性并不意味着是时候停止测试了。 运行时间越长,结果就越准确。

这些问题中的任何一个(以及更多)都可能导致测试结束时出现误报,这就是 Peep 警告测试人员要保持警惕的原因:

当您设置测试时,像鹰一样观察它。观察您跟踪的每个目标和指标都被记录下来。 如果某些指标未发送数据(例如添加到购物车点击数据),请停止测试,查找并修复问题,然后通过重置数据重新开始。

但并不是每个人都能立即用双脚进行 A/B 测试——尤其是在使用新软件时。 因此,作为额外的预防措施,一些从业者在开始 A/B 测试之前进行 A/A 测试以评估他们的工具。

如果您的实验设置正确,则在 A/A 测试结束时,两个页面的转化率应该相似。 但是,正如以下测试人员所示,这并不总是发生。

A/A 测试示例

误报真的那么普遍吗? 一页真的能胜过它的克隆吗? 这些人使用 A/A 测试找出并在以下博客文章中揭示了他们的发现……

一、首页拆分测试揭示流行测试工具的主要缺点

2012 年 11 月 11 日,Copyhackers 团队开始在他们的主页上进行 A/A 拆分测试,如下图:
A/A 测试主页示例
6 天后的 18 日,他们的测试工具以 95% 的置信度宣布获胜。 不过,为了准确起见,该团队决定让测试再运行一天——此时他们的软件以 99.6% 的置信度宣布获胜:
A/A 测试首页结果
根据该软件,他们的主页的性能比完全相同的页面高出近 24%,结果为误报的可能性只有 0.4%。 尽管如此,该团队还是让测试再运行了大约三天,最终差异趋于平缓:
A/A 测试结果参与
但这不是重点。 关键是:测试工具过早宣布获胜者。 如果 Copyhackers 团队没有让它继续运行,他们就会错误地认为他们的实验存在问题。 在此处阅读有关测试的更多信息。

2. A/A 测试:我如何通过什么都不做而将转化率提高 300%

这个讽刺的标题来自作者和自称为“正在恢复的企业家”大卫卡达维,他在 8 个月的时间里对 750,000 名电子邮件订阅者进行了多次 A/A 测试。 在那段时间里,他产生了具有统计意义的结果,如下所示:
A/A 测试提高转化率
这些结果包括:

  • 打开的电子邮件增加了 9%
  • 点击次数增加 300%
  • 退订率降低 51%

他说:

对于许多想要创业者(包括我以前的自己)来说,这看起来像是“哦,哇,你的打开次数增加了 10%!” 他们甚至可能将其输入到 Visual Website Optimizer 的重要性计算器中,并看到 p=.048。 “这是有统计意义的!” 他们(或我)可能会惊呼。

然而,事实是,这些都是 A/A 测试。 相互测试的内容是相同的。 在此处查看更多他的结果。

你应该运行 A/A 测试吗?

这个问题的答案取决于你问的是谁。

Neil Patel 一直看到大量转化提升并不等同于更多收入,他说:“首先运行 A/A 测试非常重要,因为这将有助于确保您不会在不准确的软件上浪费时间。”

另一方面,CXL 的 Peep Laja 说 A/A 测试本身就是在浪费时间。 那么谁是对的?

A/A测试的两大问题

从理论的角度来看,A/A 测试很有意义。 最重要的是,在运行 A/B 测试时,准确性是最重要的,而测试您的测试只是确保它的众多方法之一。

然而,在现实世界的测试环境中,A/A 测试有可能弊大于利。 克雷格沙利文解释说:

对我来说,问题总是在消耗实际流量和测试时间,因为必须用一段时间的 A/A 测试来预加载测试运行时间。 如果我试图一个月运行 40 次测试,这将削弱我让东西上线的能力。 我宁愿对实验进行半天的 QA 测试,也不愿运行 2-4 周的 A/A 测试来检查它是否一致。

那是问题一。 A/A 测试会消耗实时时间和流量,您可以使用这些来通过 A/B 测试了解有关网站访问者的更多信息。

问题二在 Copyhackers 的案例研究中得到了例证。 与 A/B 测试一样,A/A 测试也需要仔细设计和监控,因为它们也容易出现误报。

换句话说,您的 A/A 测试可能会告诉您一个页面的性能比另一个好,但实际上并非如此(这种可能性比您想象的要高得多——大约 50%)

如果 Copyhackers 的团队听取了他们的测试工具并在仅仅 6 天后宣布获胜,他们就会花更多的时间来弄清楚为什么他们的主页比同一个双胞胎表现得更好(实际上不是) .

A/A 测试的主要好处

尽管存在这些问题,A/A 测试仍有可能帮助您在实际测试中发现更大的问题。 当这些测试的结果是您做出重要业务决策的基础时,这是一个值得考虑的巨大好处。

如果您决定进行 A/A 测试,则有一种可能浪费更少的方法,称为 A/A/B 测试。

A/A/B 测试与 A/A 测试

传统的 A/A 测试方法会浪费流量,因为它在结束时不会告诉您有关访问者的任何信息。 但是,如果您在该测试中添加“B”变体,则可以。 这是两者之间的区别:

  • A/A 测试= 2 个相同的页面相互测试
  • A/A/B 测试= 2 个相同的页面和一个变体相互测试

A/A/B 测试将您的流量分成三个部分,这意味着需要更长的时间才能达到统计显着性。 但好处是,一旦你这样做了,你就会有关于你的测试工具和访问者的数据。

比较 A 与 A 的结果,以确定您是否可以信任您的测试。 如果它们在统计上相似,请比较 A 与 B 的结果。如果不是,则您将不得不丢弃整个测试的结果(这比运行传统的 A/A 测试花费的时间更长)因为您的流量分为三种方式)。

A/A 测试的好处是否大于坏处?

一些专家说“是”,而另一些专家说“不”。 Leadplum 的 Andrew First 似乎认为答案介于两者之间:

A/A 测试可能不应该是每月一次的事情,但是当您设置新工具时,花时间测试您的数据是值得的。 如果您现在截获不良数据,那么几个月后您将对测试结果更有信心。

最终,这取决于你。 如果您使用的是新工具,那么听取安德鲁的建议可能是明智之举。 但是,如果您不是,那么最好遵循 Craig Sullivan 的指导,而是建立一个严格的预测试 QA 流程。 节省 A/B 测试的时间、资源和流量。

充分利用您的测试工作和数字广告活动,立即注册 Instapage Enterprise 演示。