你需要停止犯的 9 个 A/B 测试错误
已发表: 2016-08-17错误是学习过程中不可避免的一部分,但是当使它们花费您的业务资金时,它们往往会刺痛一点。
虽然所有经验水平的营销人员都同意——没有比 A/B 测试更可靠的改进网页、电子邮件和广告的方法——但要有效,这些 A/B 测试需要以正确的方式进行。 不幸的事实是很少有。
您可能会犯的 A/B 测试错误
很可能在某个时候,您通过错误的 A/B 测试浪费了资源。 也许你测试了一些不重要的东西,或者在不知不觉中根据错误的结果做出了商业决策。 不管是什么,你并不孤单。
营销新手和老手仍然会犯以下 9 个 A/B 测试错误。 如果您认出其中一些,那就太好了。 你知道要避免什么。 如果没有,那就更好了。 在本文结束时,您可能会发现我们已经保存了您的下一个广告系列。
1. 无故测试
如果你坐在办公室里问自己“接下来我应该测试什么?”,你已经注定要失败。 您应该有理由运行每个测试,并有数据支持。 相反,你应该问自己,“我为什么要测试 X?”
例如,不要仅仅为了按钮的大小而进行 A/B 测试。 如果,通过使用热图软件,您发现潜在客户没有关注它,那么A/B 测试看看一个更突出的人是否会产生提升。 之后,形成一个看起来像这样的有根据的假设:
“使用热图软件时,我注意到我的号召性用语按钮没有获得应有的关注。 正因为如此,我相信增加按钮的尺寸会使其更加引人注目。”
接下来,决定如何衡量结果。 对于这样的测试,新的热图数据可能会显示访问者是否更加关注它。 更多的点击量也可能表明对它的吸引力更大。
重复此过程,直到您找到解决方案来解决最初激发您的测试的任何问题。 然后,使用该流程为您的企业优化其他营销操作。
2. 测试多个元素
数据可能表明您的页面可以使用一个新的标题和一个更少的表单字段,但同时测试这两者将导致难以解释的一大堆数据。 这不是 A/B 测试,而是“多变量测试”,而且要做到正确要困难得多。 这就是为什么……
在 A/B 测试中,您要确定一个元素与另一个元素的有效性——例如,红色按钮与黑色按钮:

在这里,根据您的成功指标,哪个页面表现更好就是赢家。 如果您的成功指标是转化次数并且带有红色按钮的页面产生更多,则红色按钮效果更好。 通过多变量测试,事情变得有点复杂。
让我们看一下 Optimizely 中的第二个例子,它是一个理论多元测试,其中正在评估图像和标题这两个元素:

正如您在上面看到的,针对一种变化仅测试一个元素会导致结果翻倍。 这个测试的结果并不那么明确。
如果您将流量输送到上述四个不同的页面,并且您的成功指标是转化次数,那么产生最多的就是赢家。 然而,与 A/B 测试不同的是,确定为什么该页面不会那么容易。
例如,如果在 A/B 测试中变体标题比控制标题产生更多转化,假设测试执行正确,变体标题更好。 由于这是两个页面之间的唯一区别,因此您肯定知道标题是性能提升的原因。
但是,在多变量测试中,您不仅要确定哪种元素组合产生最多的转换,还要确定这些元素之间的关系。 无论 Optimizely 的标题/图片示例中的哪种组合获胜,测试人员都需要问“这些元素如何相互作用以产生最大转化率?”
标题为“The One And Only Acme Widgets”的两个页面是否都比其他页面表现更好? 标题可能对提升负有最大的责任。 在这两者中,为什么齿轮的照片产生了更多的转换?
这些是您必须通过对数据的深入研究来找到答案的问题。 此外,您将需要更多流量才能获取该数据。
一个好的经验法则? CXL 的 Alex Birkett 建议您在没有大量流量的情况下坚持使用 A/B 测试。
3. 花所有时间进行 A/B 测试
很容易被 A/B 测试蒙蔽——陷入寻找点击后登录页面(或广告、电子邮件)上元素的完美组合,以至于你忽略了广告系列的所有其他部分。 不要让这发生在你身上。
人们不转换的原因并不总是因为您的点击后登录页面没有很好地组合在一起。 可能是您的流量不佳或您的潜在客户培养活动不强。
不要将所有时间都浪费在 A/B 测试点击后着陆页图片和广告文案上。 记住要从大局出发,首先优化漏斗中最大的漏洞。 这就是您将看到最大收益的地方。 然后,开始通过 A/B 测试完善流程。
4. 盲目遵循 A/B 测试最佳实践
事实证明,最佳实践并不总是适合所有人。 对一个企业有效的方法可能对你的企业无效。 案例:
几年前,数据聚合器 Device Magic 开始研究图像滑块或视频是否会在其主页上转换更多潜在客户。 所以他们进行了 A/B 测试。
但他们为什么要这样做?
许多研究已经表明,图像滑块会导致横幅失明,有时很难看到,而且很少被点击。 此外,大量研究已经证明了视频转换的能力。 一些企业的转化率提高了 80%。 这应该是不费吹灰之力的。 获胜的视频,对吧?
并非如此,Device Magic 的 A/B 测试结果说。 这是他们的控制视频主页:

这是变体滑块主页:

带有滑块的变体使转化率提高了 35%。
Device Magic 团队从那次测试中学到了两个有价值的东西。 一:不要全心全意相信最佳实践,二:不要犯以下错误……
5. 过早结束测试
它通常是这样工作的:测试人员达到他们认为的大量访问者,以证明页面变体比控件更好,反之亦然。 他们停在 100 或 1,000,然后宣布获胜者。
这就是 Device Magic 团队所做的,Paras Chopra 在 VWO 的博客文章中写道:

最初他们的控制(使用视频)是跳动变化(使用图像滑块),他们不明白为什么。 但随后他们让测试运行了更长时间,直到获得更多数据——令他们惊讶的是,结果反转为变异优于控制,这正是他们的预期。 这个结果在统计上是显着的。
使用太小的样本量只是一个错误,它可能导致所谓的“假阳性”——一种伪装成有意义结果的不确定测试结果。 在 Device Magic 的测试中,误报是他们的主页使用视频比使用滑块更有效,尽管从长远来看并非如此。 它证明,如果没有足够的访问者访问您进行 A/B 测试的页面,您将没有足够的数据来自信地从结果中做出任何推断。
这是 Benny Blum 的一个更简单的例子,说明使用小样本量的误报可能是什么样的:
考虑零假设:狗比猫大。 如果我使用一只狗和一只猫的样本——例如,一只哈瓦那人和一只狮子——我会得出结论,我的假设是不正确的,猫比狗大。 但是,如果我对各种各样的猫和狗使用更大的样本量,那么大小的分布就会正常化,我会得出结论,平均而言,狗比猫大。
那么,您如何应对因样本量太小而导致的误报? 您可以通过一些严肃的数学计算找到一个足够大的计算器,或者您可以使用 Optimizely 的这种漂亮的计算器。
这里要记住的重要一点是,没有固定的时间或访问者数量可以完全确定 A/B 测试的结果。 CRO 大师 Peep Laja 描述了他的软件宣布他的变体失败的时候:
我构建的变体损失惨重 - 超过 89%(并且误差幅度没有重叠)。 有些工具已经称它为统计显着性为 100%。 我用的软件说变体 1 有 0% 的机会击败控制。 我的客户准备退出。 然而,由于这里的样本量太小(每个变体只有 100 多次访问),我坚持了下来,这就是 10 天后的样子。

有 0% 机会击败控制的变异现在以 95% 的信心获胜。”
您的测试运行时间越长,访问者越多,您就越接近“确定”结果,即使您永远无法完全达到目标。
6. 不同时间的测试元素
即使您达到统计显着性,也可能会过早结束测试。 假设您的网站产生了足够的访问者以达到统计显着性,周末每个页面有 15,000 名访问者。 现在还不是调用您的实验的时候。
不出所料,一周中的几天会对流量和转化率产生严重影响。 如果您在周六开始测试,您应该在下周六结束测试,以减少一两天对结果产生偏差的可能性,即使您已经达到了统计显着性。 周末访问您网站的观众可能与一周内访问您网站的观众大不相同,这可能会影响您的测试结果。
7. 不消除混杂变量
混淆变量正是它们听起来的样子——A/B 测试中会干扰结果的变量。 未能识别它们意味着冒着数据有效性的风险。 以下是 Optimize Smart 的一个示例,说明了您的测试中可能出现的混淆变量:

例如,如果您更改广告定位以在测试过程中为您的变体产生不同的流量,那么您就是通过更改登陆您网页的人来改变结果。 作为完全不同的人群,这些人可能更容易接受您的变体标题或图片。
请记住,除了您正在评估的元素之外,所有其他内容都应该相同,并且在整个 A/B 测试中保持相同。 这样,您就可以确信性能差异是由您测试的元素造成的。
8. 测试不会带来提升的元素
是的,颜色在您的营销中很重要,但是您真的需要像谷歌几年前那样测试所有 41 种蓝色色调,以确定哪种对性能的影响最大吗?
绝对不。
不要在像这样无聊的 A/B 测试上浪费时间。 谷歌有资源来做这件事(不是我们认为他们应该像这样使用它们),你没有。 不要浪费时间测试那些只会带来最小性能提升的事情。
9. 一试就放弃
假设您已经对页面的特色图片进行了 A/B 测试,并通过这样做产生了 10% 的持续转化提升。 恭喜! 这太棒了——但这是否意味着你拥有最好的形象? 不。 这意味着您拥有比以前更好的形象。
如果我们放弃测试此网络研讨会点击后登录页面,并对变体“B”的转化率提高 45% 感到满意,我们将永远不会看到变体“C”带来的惊人提升。
这是原文:

这是变体“B”,它产生了 45% 的转化提升:

最后,这里的变体“C”将转化率提高了 129%,令人震惊!

如果一开始您的测试没有成功,请尝试,再试一次。 即使他们确实成功了,也要尝试,再尝试,以获得更好的结果。 但首先开始使用 Instpage 创建个性化的点击后页面,立即请求 Instapage Enterprise 演示。
