A/B 测试有效性的 5 个常见威胁
已发表: 2016-11-17坏消息:你最新的 A/B 测试产生了 30% 的转化提升? 它可能没有你想象的那么高。
事实上,它有可能根本不存在。
“至少 80% 的获胜测试完全没有价值,”Qubit 研究主管 Martin Goodson 在公司白皮书中写道。 那些通常不会带来小型的、可持续的电梯,而不是你在网络上看到的巨大的电梯。
那么为什么您的 A/B 测试软件会告诉您其他情况呢?
因为它无法检测到可能毒害您的数据的众多不可见的有效性威胁。 新奇效应、均值回归、仪器效应等概念都可以让你看到没有的巨大转化提升。
因此,如果您仅仅因为达到统计显着性而根据 A/B 测试做出业务决策,请立即停止。 在根据结果做出任何推断之前,您需要达到统计显着性,但这并不是您所需要的全部。 您还必须运行有效的测试。
点击推文
统计显着性和有效性的区别
统计显着性和有效性是运行成功的拆分测试的两个非常不同但同样重要的必要条件。
统计显着性表明,在一定程度上,您的测试结果可靠而不是偶然的可能性。 要达到统计显着性,您需要知道:
- 您的控制页面的基准转化率
- 您希望能够检测到的转化率的最小变化
- 您希望自己的结果具有重大意义而非偶然性的信心程度(标准的可接受的置信水平为 95%)
- 您的样本大小,也就是在达到统计显着性之前需要产生多少流量(使用此计算器计算)
另一方面,有效性与样本量之外的其他因素是否对您的数据产生负面影响有关。
那么为什么你需要知道两者呢?
因为即使是 53% 的 A/A 测试(用于评估实验设置的相同页面与相同页面测试)在某个时候也会达到 95% 的显着性。 如果具有两个相同页面的测试可以达到 ½ 次的统计显着性,那么您如何确信您的 A/B 测试结果是可靠的?
你不能,来自 CXL 的 Peep Laja 解释说:
“如果你在看到显着性后立即停止测试,那么它有 50% 的机会完全是侥幸。 抛硬币。 首先完全扼杀了测试的想法。”
您需要收集尽可能多的有效数据,而不是仅仅依靠统计显着性来确定拆分测试的获胜者。 为此,您需要了解阻碍您前进的威胁类型。
A/B 测试有效性的常见威胁
1. 回归均值
“就 A/B 测试而言,样本量是王道,”数字营销人员 Chase Dumont 说。 您测试的人越多,您的结果就越准确。
A/B 测试人员经常提前结束他们的实验。 当他们看到巨大的升力并自信地宣布获胜者时,他们会感到兴奋。 但是,案例研究表明,即使测试达到 95% 的统计显着性或更高——即使它运行了整整一个月——结果也可能具有欺骗性。
以蔡斯为例,他为他的一项业务拆分测试了两个长格式的销售页面。 用他的话来说:
起初,原始版本的表现优于变量。 我对此感到惊讶,因为我认为该变量更好,编写和设计得更紧密。
事实上,可变比原来的更好,因为大通的本能曾表示。 但它只是在经过6 个月的测试后才显示出来。 到那时,原始页面的转化率不仅向均值回归,而且超过了它,以至于它被变量超越:

那么,我们所说的“回归均值”是什么意思?
在 A/B 测试术语中,这意味着随着收集更多样本,高转换变体(在这种情况下,图中蓝线表示的原始页面)开始表现得更接近预期平均值。 用更简单的术语来说,这是“随着时间的推移,事情变得平复”的另一种说法。
考虑一个来自现实世界的例子。 在 1971 年的马提尼国际锦标赛上,英国高尔夫球手约翰·安东尼·哈德森成为唯一一个在职业比赛中连续打出两个一杆进洞的人。
在两个洞,一个 4 杆和一个 3 杆,他总共打出 2 到 5 杆,比大多数专业人士的平均 7 杆要好。
如果我们只看那两个洞来比较他与其他锦标赛参赛者的表现,我们会说“哇,哈德森比锦标赛中的任何其他高尔夫球手都要好得多。 他肯定会赢。”
如果他们仅仅根据那两个洞就举办比赛,他就会这么做。
但是,一杆进洞很少见,而且锦标赛会持续很多洞。 因此,哈德森打得越多,他的得分就越回归均值。 到了比赛结束的时候,他获得了并列第9位,远不及获奖。
同样,即使在达到统计显着性后,您收集的数据越多,您的结果就越准确。
您能否通过转换您的点击后登录页面变体的前两个访问者来获得两分球? 绝对地。 但这是否意味着您的新页面将以 100% 的速度转化? 没门。 在某些时候,100% 的转化率将回归均值。
请记住,像一杆进洞这样的巨型转换升降机是罕见的。 大多数成功的测试将改为生产更小的、可持续的升降机。
2. 新奇效应
假设您正在测试具有更大的橙色按钮的点击后着陆页变体,而到目前为止您的所有点击后着陆页都以绿色小按钮为特色。 最初,您可能会发现较大的橙色按钮会产生更多转化——但原因可能不是更改的结果,而是一种称为“新颖性效应”的东西。
当您进行典型访问者不习惯看到的更改时,新奇效应就会发挥作用。 转化率的变化是按钮颜色改变的结果吗? 还是因为他们被变化的新颖性所吸引? 一种解决方法是细分您的流量。
回访者习惯于看到绿色的小按钮,所以橙色的大按钮可能会吸引更多的注意力,因为它与他们习惯的不同。 但是新访问者从未见过您的绿色小按钮,所以如果它引起了他们的注意,那不会是因为他们习惯了不同的东西。 在这种情况下,更大的橙色按钮更有可能在整体上更引人注目。
当您测试的内容与您的受众习惯看到的内容大不相同时,请考虑为它带来新的流量,以确保新奇效应不会影响您的结果。

3.仪表效果
有效性的最常见威胁,称为“仪器(或仪器)效应”,与您的测试工具有关。 它是否按应有的方式工作? 你所有的代码都正确实现了吗?
除了警惕之外,没有任何技巧可以打败这个。 通过查看不同浏览器和设备上的点击后登录页面和广告,在您的广告系列上线之前对其进行测试。 输入测试线索数据以确保您的转化像素被触发并且您的 CRM 与您的表单同步。
当它们上线时,密切关注每个指标并留意可疑报告。 您的工具可能使您失败,您可能正在驾驶糟糕的交通,或者您可能成为下一个有效性威胁的受害者......。
4. 历史效应
您的 A/B 测试不是在实验室中进行的。 它在现实世界中运行,因此,它会受到您无法控制的现实世界事件的影响。 这些可能是假期、天气、服务器崩溃,甚至日期和时间。
如果您正在测试来自 Twitter 的流量并且该站点离线,会发生什么情况? 如果您在圣诞节前测试零售点击后登录页面,然后在 2 月份运行后续测试会怎样?
您的数据将出现偏差。
以 MarketingExperiments 的测试为例,该测试旨在优化搜索引擎结果页面上广告的点击率。 目标是一个性犯罪者登记网站,允许访问者查找他们所在地区的掠夺者。
其中,四个具有相同正文但标题不同的广告相互进行了测试。

测试在 7 天和 55,000 次展示后被调用,乍一看,获胜者似乎很明显。 但是,经过仔细检查,测试人员注意到某些东西毒害了他们的数据。 Flint McGlaughlin 博士详细说明:
“问题就在这里。 在测试期间,Dateline 播出了一个名为“To Catch a Predator”的特别节目。 它被1000万人观看。 捕食者这个词成为与性犯罪者相关的关键术语。 现在,让我们倒退。
你看你的孩子是否安全。 您会看到查找儿童捕食者、您所在地区的捕食者以及儿童捕食者登记处。 然后,查看副本。 识别性犯罪者,识别性犯罪者。 除了标题之外都一样,但我们有三个这样的标题,其中包含“掠夺者”一词。 结果如何?”

带有“捕食者”这个词的标题的点击率比没有它的标题高 133%——这一切都是因为电视特辑。
要对抗历史效应,请使用媒体监控工具并确保公司中的每个人都知道您正在测试。 您接触外部世界的团队成员越多,你们中的一个人就越有可能发现可能影响测试结果的事情。
5.选择效果
当实验者测试不代表目标受众的受试者样本时,就会发生选择效应。
例如,假设我们想弄清楚哪个职业足球队在美国最受欢迎,但我们只询问了新英格兰地区的人。 我们可能会听到对爱国者队的压倒性支持,这不能代表整个国家。
在 A/B 测试术语中,当您从不同来源生成流量时,选择效果可能会对您的测试产生影响。 这是 MarketingExperiments 的 Nick Usborne 在与一家主要新闻出版商合作时遇到的问题:
“我们从根本上重新设计了他们的电子版订阅报价流程,当他们推出从主网站到电子产品的新文本链接广告活动时,我们正处于测试阶段。
这改变了到达订阅报价流程的流量组合,从几乎所有流量都来自付费搜索引擎的流量,变成了大量流量来自其网站内部链接的流量(高度合格的流量)。
平均转化率在一夜之间从 0.26% 增加到 2% 以上。 如果我们没有密切监测,我们可能会得出结论,新工艺的转化率提高了 600% 以上。”
密切关注您的客户很重要,但同样重要的是确保您设计的测试不会受到选择效应的影响。 了解您的流量来自何处,并且不要在测试过程中更改来源。 您的样本应在整个过程中尽可能保持一致。
你什么时候可以安全地结束 A/B 测试?
如果您不能相信统计显着性,并且所有这些对有效性的威胁都可能毒害您的数据,那么……您什么时候才能安全地结束测试并自信地依赖结果?
不幸的答案是,您永远无法真正确定您的结果是 100% 可靠的。 但是,您可以采取预防措施以确保尽可能靠近。 转化率优化工具 Peep Laja 发现遵循以下 4 个标准通常可以解决问题:
- 测试持续时间应至少为 3 周,如果可能,为 4 周。
- 应使用多种工具预先计算样本大小。
- 对于您正在测试的每个变体,转化次数应该达到 250 到 400 之间。
- 统计显着性应至少为 95%。
他继续补充说,如果您在 3 周内没有达到 250-400 次转化,那么您应该继续运行测试,直到达到为止。 如果需要,请确保以整周为周期进行测试。 如果您在星期一开始测试,并且在 5 周后的星期三达到 400 次转换,请继续测试直到下周一(否则,您可能会发现自己受到历史影响的影响)。
不要忘记注意上述有效性威胁,并让您团队(和您客户的团队)中的每个人都知道您正在测试。 您告知的组织越多,某人更改测试的某个方面(选择效应)的可能性就越小,并且当仪器效应或历史效应等有效性威胁开始发挥作用时,人们就越有可能注意到。
您如何通过 A/B 测试改进您的网站?
使用 A/B 测试来优化您的网站并捕获对有效性的任何威胁。 从创建点击后页面开始,立即请求 Instapage Enterprise 演示。
