A/B 測試有效性的 5 個常見威脅

已發表: 2016-11-17

壞消息:你最新的 A/B 測試產生了 30% 的轉化提升? 它可能沒有你想像的那麼高。

事實上,它有可能根本不存在。

“至少 80% 的獲勝測試完全沒有價值,”Qubit 研究主管 Martin Goodson 在公司白皮書中寫道。 那些通常不會帶來小型的、可持續的電梯,而不是你在網絡上看到的巨大的電梯。

那麼為什麼您的 A/B 測試軟件會告訴您其他情況呢?

因為它無法檢測到可能毒害您的數據的眾多不可見的有效性威脅。 新奇效應、均值回歸、儀器效應等概念都可以讓你看到沒有的巨大轉化提升。

因此,如果您僅僅因為達到統計顯著性而根據 A/B 測試做出業務決策,請立即停止。 在根據結果做出任何推斷之前,您需要達到統計顯著性,但這並不是您所需要的全部。 您還必須運行有效的測試。

至少 80% 的獲勝測試完全沒有價值。

點擊推文

統計顯著性和有效性的區別

統計顯著性和有效性是運行成功的拆分測試的兩個非常不同但同樣重要的必要條件。

統計顯著性表明,在一定程度上,您的測試結果可靠而不是偶然的可能性。 要達到統計顯著性,您需要知道:

  • 您的控制頁面的基準轉化率
  • 您希望能夠檢測到的轉化率的最小變化
  • 您希望自己的結果具有重大意義而非偶然性的信心程度(標準的可接受的置信水平為 95%)
  • 您的樣本大小,也就是在達到統計顯著性之前需要產生多少流量(使用此計算器計算)

另一方面,有效性與樣本量之外的其他因素是否對您的數據產生負面影響有關。

那麼為什麼你需要知道兩者呢?

因為即使是 53% 的 A/A 測試(用於評估實驗設置的相同頁面與相同頁面測試)在某個時候也會達到 95% 的顯著性。 如果具有兩個相同頁面的測試可以達到 ½ 次的統計顯著性,那麼您如何確信您的 A/B 測試結果是可靠的?

你不能,來自 CXL 的 Peep Laja 解釋說:

“如果你在看到顯著性後立即停止測試,那麼它有 50% 的機會完全是僥倖。 拋硬幣。 首先完全扼殺了測試的想法。”

您需要收集盡可能多的有效數據,而不是僅僅依靠統計顯著性來確定拆分測試的獲勝者。 為此,您需要了解阻礙您前進的威脅類型。

A/B 測試有效性的常見威脅

1. 回歸均值

“就 A/B 測試而言,樣本量是王道,”數字營銷人員 Chase Dumont 說。 您測試的人越多,您的結果就越準確。

A/B 測試人員經常提前結束他們的實驗。 當他們看到巨大的升力並自信地宣布獲勝者時,他們會感到興奮。 但是,案例研究表明,即使測試達到 95% 的統計顯著性或更高——即使它運行了整整一個月——結果也可能具有欺騙性。

以蔡斯為例,他為他的一項業務拆分測試了兩個長格式的銷售頁面。 用他的話來說:

起初,原始版本的表現優於變量。 我對此感到驚訝,因為我認為該變量更好,編寫和設計得更緊密。

事實上,可變原來的更好,因為大通的本能曾表示。 但它僅在經過6 個月的測試後才顯示出來。 到那時,原始頁面的轉化率不僅向均值回歸,而且超過了它,以至於它被變量超越:

此圖表向營銷人員展示了為什麼擁有足夠大的樣本量來確定 A/B 測試實驗的有效性很重要。

那麼,我們所說的“回歸均值”是什麼意思?

在 A/B 測試術語中,這意味著隨著收集更多樣本,高轉換變體(在這種情況下,圖中藍線表示的原始頁面)開始表現得更接近預期平均值。 用更簡單的術語來說,這是“隨著時間的推移,事情變得平復”的另一種說法。

考慮一個來自現實世界的例子。 在 1971 年的馬提尼國際錦標賽上,英國高爾夫球手約翰·安東尼·哈德森成為唯一一個在職業比賽中連續打出兩個一桿進洞的人。

在兩個洞,一個 4 桿和一個 3 桿,他總共打出 2 到 5 桿,比大多數專業人士的平均 7 桿要好。

如果我們只看那兩個洞來比較他與其他錦標賽參賽者的表現,我們會說“哇,哈德森比錦標賽中的任何其他高爾夫球手都要好得多。 他肯定會贏。”

如果他們僅僅根據那兩個洞就舉辦比賽,他就會這麼做。

但是,一桿進洞很少見,而且錦標賽會持續很多洞。 因此,哈德森打得越多,他的得分就越回歸均值。 到了比賽結束的時候,他獲得了並列第9位,遠不獲獎。

同樣,即使在達到統計顯著性後,您收集的數據越多,您的結果就越準確。

您能否通過轉換您的點擊後登錄頁面變體的前兩個訪問者來獲得兩分球? 絕對地。 但這是否意味著您的新頁面將以 100% 的速度轉化? 沒門。 在某些時候,100% 的轉化率將回歸均值。

請記住,像一桿進洞這樣的巨型轉換升降機是罕見的。 大多數成功的測試將改為生產更小的、可持續的升降機。

2. 新奇效應

假設您正在測試具有更大的橙色按鈕的點擊後著陸頁變體,而到目前為止您的所有點擊後著陸頁都以綠色小按鈕為特色。 最初,您可能會發現較大的橙色按鈕會產生更多轉化——但原因可能不是更改的結果,而是一種稱為“新穎性效應”的東西。

當您進行典型訪問者不習慣看到的更改時,新奇效應就會發揮作用。 轉化率的變化是按鈕顏色改變的結果嗎? 還是因為他們被變化的新穎性所吸引? 一種解決方法是細分您的流量。

回訪者習慣於看到綠色的小按鈕,所以橙色的大按鈕可能會吸引更多的注意力,因為它與他們習慣的不同。 但是新訪問者從未見過您的綠色小按鈕,所以如果它引起了他們的注意,那不會是因為他們習慣了不同的東西。 在這種情況下,更大的橙色按鈕更有可能在整體上更引人注目。

當您測試的內容與您的受眾習慣看到的內容大不相同時,請考慮為它帶來新的流量,以確保新奇效應不會影響您的結果。

3.儀表效果

有效性的最常見威脅,稱為“儀器(或儀器)效應”,與您的測試工具有關。 它是否按應有的方式工作? 你所有的代碼都正確實現了嗎?

除了警惕之外,沒有任何技巧可以打敗這個。 通過查看不同瀏覽器和設備上的點擊後登錄頁面和廣告,在您的廣告系列上線之前對其進行測試。 輸入測試線索數據以確保您的轉化像素被觸發並且您的 CRM 與您的表單同步。

當它們上線時,密切關注每個指標並留意可疑報告。 您的工具可能使您失敗,您可能正在駕駛糟糕的交通,或者您可能成為下一個有效性威脅的受害者......。

4. 歷史效應

您的 A/B 測試不是在實驗室中進行的。 它在現實世界中運行,因此,它會受到您無法控制的現實世界事件的影響。 這些可能是假期、天氣、服務器崩潰,甚至日期和時間。

如果您正在測試來自 Twitter 的流量並且該站點離線,會發生什麼情況? 如果您在聖誕節前測試零售點擊後登錄頁面,然後在 2 月份運行後續測試會怎樣?

您的數據將出現偏差。

以 MarketingExperiments 的測試為例,該測試旨在優化搜索引擎結果頁面上廣告的點擊率。 目標是一個性犯罪者登記網站,允許訪問者查找他們所在地區的掠奪者。

其中,四個具有相同正文但標題不同的廣告相互進行了測試。

這張圖片向營銷人員展示了廣告標題如何成為 A/B 測試驗證過程中的一個重要因素。

測試在 7 天和 55,000 次展示後被調用,乍一看,獲勝者似乎很明顯。 但是,經過仔細檢查,測試人員注意到某些東西毒害了他們的數據。 Flint McGlaughlin 博士詳細說明:

“問題就在這裡。 在測試期間,Dateline 播出了一個名為“To Catch a Predator”的特別節目。 它被1000萬人觀看。 捕食者這個詞成為與性犯罪者相關的關鍵術語。 現在,讓我們倒退。

你看你的孩子是否安全。 您會看到查找兒童捕食者、您所在地區的捕食者以及兒童捕食者登記處。 然後,查看副本。 識別性犯罪者,識別性犯罪者。 除了標題之外都一樣,但我們有三個這樣的標題,其中包含“掠奪者”一詞。 結果如何?”

這張圖片向營銷人員展示了廣告標題中的關鍵字如何成為決定 A/B 測試有效性的重要因素。

帶有“捕食者”這個詞的標題的點擊率比沒有它的標題高 133%——這一切都是因為電視特輯。

要對抗歷史效應,請使用媒體監控工具並確保公司中的每個人都知道您正在測試。 您接觸外部世界的團隊成員越多,你們中的一個人就越有可能發現可能影響測試結果的事情。

5.選擇效果

當實驗者測試不代表目標受眾的受試者樣本時,就會發生選擇效應。

例如,假設我們想弄清楚哪個職業足球隊在美國最受歡迎,但我們只詢問了新英格蘭地區的人。 我們可能會聽到對愛國者隊的壓倒性支持,這不能代表整個國家。

在 A/B 測試術語中,當您從不同來源生成流量時,選擇效果可能會對您的測試產生影響。 這是 MarketingExperiments 的 Nick Usborne 在與一家主要新聞出版商合作時遇到的問題:

“我們從根本上重新設計了他們的電子版訂閱報價流程,當他們推出從主網站到電子產品的新文本鏈接廣告活動時,我們正處於測試階段。

這改變了到達訂閱報價流程的流量組合,從幾乎所有流量都來自付費搜索引擎的流量,變成了大量流量來自其網站內部鏈接的流量(高度合格的流量)。

平均轉化率在一夜之間從 0.26% 增加到 2% 以上。 如果我們沒有密切監測,我們可能會得出結論,新工藝的轉化率提高了 600% 以上。”

密切關注您的客戶很重要,但同樣重要的是確保您設計的測試不會受到選擇效應的影響。 了解您的流量來自何處,並且不要在測試過程中更改來源。 您的樣本應在整個過程中盡可能保持一致。

你什麼時候可以安全地結束 A/B 測試?

如果您不能相信統計顯著性,並且所有這些對有效​​性的威脅都可能毒害您的數據,那麼……您什麼時候可以安全地結束測試並自信地依賴結果?

不幸的答案是,您永遠無法真正確定您的結果是 100% 可靠的。 但是,您可以採取預防措施以確保盡可能靠近。 轉化率優化工具 Peep Laja 發現遵循以下 4 個標准通常可以解決問題:

  1. 測試持續時間應至少為 3 週,如果可能,為 4 週。
  2. 應使用多種工具預先計算樣本大小。
  3. 對於您正在測試的每個變體,轉化次數應該達到 250 到 400 之間。
  4. 統計顯著性應至少為 95%。

他繼續補充說,如果您在 3 週內沒有達到 250-400 次轉化,那麼您應該繼續運行測試,直到達到為止。 如果需要,請確保以整週為周期進行測試。 如果您在星期一開始測試,並且在 5 週後的星期三達到 400 次轉換,請繼續測試直到下週一(否則,您可能會發現自己受到歷史影響的影響)。

不要忘記註意上述有效性威脅,並讓您團隊(和您客戶的團隊)中的每個人都知道您正在測試。 您通知的組織越多,某人更改測試的某個方面(選擇效應)的可能性就越小,並且當儀器效應或歷史效應等有效性威脅開始發揮作用時,人們就越有可能注意到。

您如何通過 A/B 測試改進您的網站?

使用 A/B 測試來優化您的網站並捕獲對有效性的任何威脅。 從創建點擊後頁面開始,立即請求 Instapage Enterprise 演示。