貝葉斯 A/B 測試:強大的推理模型

已發表: 2021-12-14

A/B 測試與每個營銷人員的 CRO 策略密切相關。 作為營銷人員或 CRO 從業者,您不能低估在組織中接受實驗文化的價值。 然而,尋找最佳變體以實現更高的轉化率一直是在線業務面臨的一個持續挑戰。

在其經典形式中,A/B 測試作為二元模型運行——一個需要被拒絕才能接受替代假設的零假設。 由於從實驗中獲得洞察力並根據它們做出關鍵業務決策的複雜過程,CRO 從業者一直在採用比經典頻率論模型更可信和直觀的模型。 這是貝葉斯模型。

貝葉斯模型證明了您運行的實驗背後的推理證據。 在這篇博文中,我們詳細探索了貝葉斯模型,將其與經典的頻率論方法進行了比較,並討論了它的用例。

什麼是貝葉斯方法?

貝葉斯推理本質上是一種基於信念的方法,其基礎是貝葉斯定理。 該定理提供了一個數學框架,可以隨著新信息的湧入來更新您現有的信念。

貝葉斯抗體測試完整指南

這是一個給你的例子。 醫生可以按照其中一種方法診斷患者的醫療問題。 作為一名常客,他將針對患者的特定症狀建立一個固定模型,以進行診斷。 他可能會為他們探查患者,並根據他已有的固定模型確定原因。

相反,作為貝葉斯主義者,醫生仍然會有一個模型。 他會探查病人以評估他的病情和識別症狀,此外,他想知道病人過去的任何疼痛的歷史。 因此,他的診斷將包括當前症狀和歷史症狀,以確定實際原因。 這種方法將用新信息更新他現有的模型,這可以導致更快的創新,而無需在診斷過程中花費額外的成本、時間或精力。

StackExchange 的一個示例使這個概念更加簡單。

假設您放錯了手機,並且由於這種情況一直在發生,因此您擁有了一個手機定位器。 您的手機在其底座上安裝了一個儀器,當您按下手機定位器上的按鈕時,該儀器會發出提示音。 問題是,你應該從哪裡開始搜索房子?

如果您是常客,您的內置模型將根據嗶嗶聲的方向識別該區域。 因此,您將在嗶聲之後運行以查找設備在房屋中的位置。

然而,作為貝葉斯主義者,您會回想起上次丟失它時找到它的位置。 你是在廚房地板上找到它還是在洗衣房下面找到它? 您將有理由將手機放在這些地方。 除了嗶聲之外,回憶這些信息將作為先驗,可以幫助您做出基於證據的決定。 在這種情況下,它將找出從哪裡開始搜索。

貝葉斯思維的關鍵方面是它使您能夠在研究期間探索預先存在的信念(先驗),並且這些信念會隨著證據數據而更新,從而產生新的信念(後驗)。

在 A/B 測試的背景下,為什麼貝葉斯方法比Frequentist 方法更有益?

你可以聽到一位不喜歡談論一次性事件的常客,喃喃地說:“我是否正確地理解了真相?”。 相反,一個更關心基於數據更新觀點而不是尋找最終真相的貝葉斯主義者可以大聲宣稱——“我不知道真相是什麼,但我相信我最初的觀點現在會改變,因為我有一條新情報!” 很自信? 嗯,是!

我們使用 VWO 進行了 A/B 測試,以檢查出現在訪問者退出意圖上的橫幅是否可以增加我們博客上的潛在客戶生成。 通過貝葉斯鏡頭觀察,我們看到圖形表示中所有可能的轉換率都有不同程度的信心。 我們得出的結論是,控制(無橫幅)是贏家,而且轉換率在 0.25% 和 0.6% 之間存在重疊。

貝葉斯 a/b 測試
貝葉斯 a/b 測試

另一方面,Frequentist 方法返回p = 0.042,也得出結論,控制是贏家。

頻率論者方法在吸引大量訪問者以返回p值方面是堅定不移的,這很難放在商業環境中。 在這裡p = 0.042 你能看出什麼? 這可能會讓你感到困惑。

作為營銷人員或增長領導者,您會希望您的工具能夠在統計數據方面進行繁重的工作,並為您提供幫助您做出良好業務決策的結果。

貝葉斯提供了一種更明智、更直觀的方式來優化您的 CRO 工作。 當您推斷出您的預測並通過知識更新誘導實驗週期中的學習時,它會更新您有證據支持的觀點,如下圖所示。

貝葉斯學習週期
圖片來源:Instagram

VWO SmartStats——貝葉斯方法

VWO 使用 SmartStats 採用貝葉斯方法,SmartStats 是一種用於 A/B 測試的貝葉斯統計引擎。 該引擎為您提供智能結果,以做出更明智的業務決策並減少您的測試時間。

貝葉斯方法使您能夠將知識迭代地整合到您的實驗中。 SmartStats 使用非信息性先驗來催化這種方法,其中所有轉化率的可能性都相同。 此外,它可以確保您保持控制,並且可以在測試進行時監控測試,並在測試結束之前的一段時間內達到其重要性。

博客橫幅貝葉斯抗體測試

讓我們回到博客中討論的退出意圖橫幅示例。 對於測試,我們觀察到最初的分佈範圍更廣。 但是,如下圖所示,您可以發現隨著數據的增加,它們開始縮小。
在測試開始時超過基線的概率接近 50%,但隨著測試的進行,在達到 1000 名訪問者後達到 95% 的置信度,宣布控制為獲勝者。

如果你看一下這個實驗在時間和流量方面的進展,它看起來像這樣,訪問者數量最少,顯示變化領先(不顯著):

貝葉斯 a/b 測試

而且,這有大約 1000 名訪問者,變化急劇下降並且控制擴大:

貝葉斯 a/b 測試

宣布控制權為獲勝者的最終圖表:

貝葉斯 a/b 測試

貝葉斯 A/B 測試如何實現更快的創新?

與頻率論方法相比,貝葉斯方法能夠將信念作為實驗的一部分,使您能夠以更低的實驗成本做出更快的決策。

通常使用貝葉斯方法進行實驗的成本更高,並且您沒有足夠的數據來做出決定,無論是醫學診斷測試來辨別患癌症的可能性還是電子郵件是垃圾郵件。

此外,貝葉斯方法允許您在另一個實驗之前提供一個實驗的後驗。 因此,基於此模型的 A/B 測試工具可讓您始終如一地快速優化轉化實驗。 您不必每次都從實驗中學習新數據,而是將後驗(讀取:更新)迭代地饋送到先驗,以顯著確定使用較少數據的改進。

通過在博客中廣泛討論的退出意圖橫幅實驗,我們在測試達到其意義時立即決定查看測試的進度。 我們這樣做是為了減輕在這種情況下作為 MQL 的機會指標的損失。 測試結束時觀察到退出意圖橫幅在我們的博客上不起作用。 這種觀察可以作為數據支持的證據(後驗),作為我們隨後圍繞博客進行的實驗之前提供的證據。

所以不要等待。 通過迭代 A/B 測試大膽嘗試、快速失敗、有效學習並成倍增長,這為您的業務創新提供了機會,見證了天文數字的轉換。

End Banner 貝葉斯抗體測試完整指南