贝叶斯 A/B 测试:强大的推理模型
已发表: 2021-12-14A/B 测试与每个营销人员的 CRO 策略密切相关。 作为营销人员或 CRO 从业者,您不能低估在组织中接受实验文化的价值。 然而,寻找最佳变体以实现更高的转化率一直是在线业务面临的一个持续挑战。
在其经典形式中,A/B 测试作为二元模型运行——一个需要被拒绝才能接受替代假设的零假设。 由于从实验中获得洞察力并根据它们做出关键业务决策的复杂过程,CRO 从业者一直在采用比经典频率论模型更可信和直观的模型。 这是贝叶斯模型。
贝叶斯模型证明了您运行的实验背后的推理证据。 在这篇博文中,我们详细探索了贝叶斯模型,将其与经典的频率论方法进行了比较,并讨论了它的用例。
什么是贝叶斯方法?
贝叶斯推理本质上是一种基于信念的方法,其基础是贝叶斯定理。 该定理提供了一个数学框架,可以随着新信息的涌入来更新您现有的信念。

这是一个给你的例子。 医生可以按照其中一种方法诊断患者的医疗问题。 作为一名常客,他将针对患者的特定症状建立一个固定模型,以进行诊断。 他可能会为他们探查患者,并根据他已有的固定模型确定原因。
相反,作为贝叶斯主义者,医生仍然会有一个模型。 他会探查病人以评估他的病情和识别症状,此外,他想知道病人过去的任何疼痛的历史。 因此,他的诊断将包括当前症状和历史症状,以确定实际原因。 这种方法将用新信息更新他现有的模型,这可以导致更快的创新,而无需在诊断过程中花费额外的成本、时间或精力。
StackExchange 的一个示例使这个概念更加简单。
假设您放错了手机,并且由于这种情况一直在发生,因此您拥有了一个手机定位器。 您的手机在其底座上安装了一个仪器,当您按下手机定位器上的按钮时,该仪器会发出提示音。 问题是,你应该从哪里开始搜索房子?
如果您是常客,您的内置模型将根据哔哔声的方向识别该区域。 因此,您将在哔声之后运行以查找设备在房屋中的位置。
然而,作为贝叶斯主义者,您会回想起上次丢失它时找到它的位置。 你是在厨房地板上找到它还是在洗衣房下面找到它? 您将有理由将手机放在这些地方。 除了哔声之外,回忆这些信息将作为先验,可以帮助您做出基于证据的决定。 在这种情况下,它将找出从哪里开始搜索。
贝叶斯思维的关键方面是它使您能够在研究期间探索预先存在的信念(先验),并且这些信念会随着证据数据而更新,从而产生新的信念(后验)。
在 A/B 测试的背景下,为什么贝叶斯方法比Frequentist 方法更有益?
你可以听到一位不喜欢谈论一次性事件的常客,喃喃地说:“我是否正确地理解了真相?”。 相反,一个更关心基于数据更新观点而不是寻找最终真相的贝叶斯主义者可以大声宣称——“我不知道真相是什么,但我相信我最初的观点现在会改变,因为我有一条新情报!” 很自信? 嗯,是!
我们使用 VWO 进行了 A/B 测试,以检查出现在访问者退出意图上的横幅是否可以增加我们博客上的潜在客户生成。 通过贝叶斯镜头观察,我们看到图形表示中所有可能的转换率都有不同程度的信心。 我们得出的结论是,控制(无横幅)是赢家,而且转换率在 0.25% 和 0.6% 之间存在重叠。


另一方面,Frequentist 方法返回p = 0.042,也得出结论,控制是赢家。
频率论者方法在吸引大量访问者以返回p值方面是坚定不移的,这很难放在商业环境中。 在这里p = 0.042 你能看出什么? 这可能会让你感到困惑。
作为营销人员或增长领导者,您会希望您的工具能够在统计数据方面进行繁重的工作,并为您提供帮助您做出良好业务决策的结果。
贝叶斯提供了一种更明智、更直观的方式来优化您的 CRO 工作。 当您推断出您的预测并通过知识更新诱导实验周期中的学习时,它会更新您有证据支持的观点,如下图所示。


VWO SmartStats——贝叶斯方法
VWO 使用 SmartStats 采用贝叶斯方法,SmartStats 是一种用于 A/B 测试的贝叶斯统计引擎。 该引擎为您提供智能结果,以做出更明智的业务决策并减少您的测试时间。
贝叶斯方法使您能够将知识迭代地整合到您的实验中。 SmartStats 使用非信息性先验来催化这种方法,其中所有转化率的可能性都相同。 此外,它可以确保您保持控制,并且可以在测试进行时监控测试,并在测试结束之前的一段时间内达到其重要性。

让我们回到博客中讨论的退出意图横幅示例。 对于测试,我们观察到最初的分布范围更广。 但是,如下图所示,您可以发现随着数据的增加,它们开始缩小。
在测试开始时击败基线的概率接近 50%,但随着测试的进行,在达到 1000 名访问者后达到 95% 的置信度,宣布控制为获胜者。
如果你看一下这个实验在时间和流量方面的进展,它看起来像这样,访问者数量最少,显示变化领先(不显着):

而且,这有大约 1000 名访问者,变化急剧下降并且控制扩大:

宣布控制权为获胜者的最终图表:

贝叶斯 A/B 测试如何实现更快的创新?
与频率论方法相比,贝叶斯方法能够将信念作为实验的一部分,使您能够以更低的实验成本做出更快的决策。
通常使用贝叶斯方法进行实验的成本更高,并且您没有足够的数据来做出决定,无论是医学诊断测试来辨别患癌症的可能性还是电子邮件是垃圾邮件。
此外,贝叶斯方法允许您在另一个实验之前提供一个实验的后验。 因此,基于此模型的 A/B 测试工具可让您始终如一地快速优化转化实验。 您不必每次都从实验中学习新数据,而是将后验(读取:更新)迭代地提供给先验,以显着确定使用较少数据的改进。
通过在博客中广泛讨论的退出意图横幅实验,我们在测试达到其意义时立即决定查看测试的进度。 我们这样做是为了减轻在这种情况下作为 MQL 的机会指标的损失。 测试结束时观察到退出意图横幅在我们的博客上不起作用。 这种观察可以作为数据支持的证据(后验),作为我们随后围绕博客进行的实验之前提供的证据。
所以不要等待。 通过迭代 A/B 测试大胆尝试、快速失败、有效学习并成倍增长,这为您的业务创新提供了机会,见证了天文数字的转换。

