你需要停止犯的 9 個 A/B 測試錯誤

已發表: 2016-08-17

錯誤是學習過程中不可避免的一部分,但是當使它們花費您的業務資金時,它們往往會刺痛一點。

儘管所有經驗水平的營銷人員都同意——沒有比 A/B 測試更可靠的改進網頁、電子郵件和廣告的方法——但要有效,這些 A/B 測試需要以正確的方式進行。 不幸的事實是很少有。

您可能會犯的 A/B 測試錯誤

很可能在某個時候,您通過錯誤的 A/B 測試浪費了資源。 也許你測試了一些不重要的東西,或者在不知不覺中根據錯誤的結果做出了商業決策。 不管是什麼,你並不孤單。

營銷新手和老手仍然會犯以下 9 個 A/B 測試錯誤。 如果您認出其中一些,那就太好了。 你知道要避免什麼。 如果沒有,那就更好了。 在本文結束時,您可能會發現我們已經保存了您的下一個廣告系列。

1. 無故測試

如果你坐在辦公室裡問自己“接下來我應該測試什麼?”,你已經註定要失敗。 您應該有理由運行每個測試,並有數據支持。 相反,你應該問自己,“我為什麼要測試 X?”

例如,不要僅僅為了按鈕的大小而進行 A/B 測試。 如果,通過使用熱圖軟件,您發現潛在客戶沒有關注它,那麼A/B 測試看看一個更突出的人是否會產生提升。 之後,形成一個看起來像這樣的有根據的假設:

“使用熱圖軟件時,我注意到我的號召性用語按鈕沒有獲得應有的關注。 正因為如此,我相信增加按鈕的尺寸會使其更加引人注目。”

接下來,決定如何衡量結果。 對於這樣的測試,新的熱圖數據可能會顯示訪問者是否更加關注它。 更多的點擊率也可能表明對它的吸引力更大。

重複此過程,直到您找到解決方案來解決最初激發您的測試的任何問題。 然後,使用該流程為您的企業優化其他營銷操作。

2. 測試多個元素

數據可能表明您的頁面可以使用一個新的標題和一個更少的表單字段,但同時測試這兩者將導致難以解釋的一大堆數據。 這不是 A/B 測試,而是“多變量測試”,而且要做到正確要困難得多。 這就是為什麼……

在 A/B 測試中,您要確定一個元素與另一個元素的有效性——例如,紅色按鈕與黑色按鈕:

此圖顯示了 A/B 測試的工作原理。該圖像表示測試更多元素是 A/B 測試錯誤

在這裡,根據您的成功指標,哪個頁面表現更好就是贏家。 如果您的成功指標是轉化次數並且帶有紅色按鈕的頁面產生更多,則紅色按鈕效果更好。 通過多變量測試,事情變得有點複雜。

讓我們看一下 Optimizely 中的第二個例子,它是一個理論多元測試,其中正在評估圖像和標題這兩個元素:

此圖顯示測試多個變體是好的,但是,一次測試多個變體是 A/B 測試錯誤。

正如您在上面看到的,針對一種變化僅測試一個元素會導致結果翻倍。 這個測試的​​結果並不那麼明確。

如果您將流量輸送到上述四個不同的頁面,並且您的成功指標是轉化次數,那麼產生最多的就是贏家。 然而,與 A/B 測試不同的是,確定為什麼該頁面不會那麼容易。

例如,如果在 A/B 測試中變體標題比控制標題產生更多轉化,假設測試執行正確,變體標題更好。 由於這是兩個頁面之間的唯一區別,因此您肯定知道標題是性能提升的原因。

但是,在多變量測試中,您不僅要確定哪種元素組合產生最多的轉換,還要確定這些元素之間的關係。 無論 Optimizely 的標題/圖片示例中的哪種組合獲勝,測試人員都需要問“這些元素如何相互作用以產生最大轉化率?”

標題為“The One And Only Acme Widgets”的兩個頁面是否都比其他頁面表現更好? 標題可能對提升負有最大的責任。 在這兩者中,為什麼齒輪的照片產生了更多的轉換?

這些是您必須通過對數據的深入研究來找到答案的問題。 此外,您將需要更多流量才能獲取該數據。

一個好的經驗法則? CXL 的 Alex Birkett 建議您在沒有大量流量的情況下堅持使用 A/B 測試。

3. 花所有時間進行 A/B 測試

很容易被 A/B 測試蒙蔽 – 陷入尋找點擊後登錄頁面(或廣告、電子郵件)上元素的完美組合,以至於您忽略了廣告系列的所有其他部分。 不要讓這發生在你身上。

人們不轉換的原因並不總是因為您的點擊後登錄頁面沒有很好地組合在一起。 可能是您的流量不佳或您的潛在客戶培養活動不強。

不要將所有時間都浪費在 A/B 測試點擊後著陸頁圖片和廣告文案上。 記住要從大局出發,首先優化漏斗中最大的漏洞。 這就是您將看到最大收益的地方。 然後,開始通過 A/B 測試完善流程。

4. 盲目遵循 A/B 測試最佳實踐

事實證明,最佳實踐並不總是適合所有人。 對一個企業有效的方法可能對你的企業無效。 案例:

幾年前,數據聚合器 Device Magic 開始研究圖像滑塊或視頻是否會在其主頁上轉換更多潛在客戶。 所以他們進行了 A/B 測試。

但他們為什麼要這樣做?

許多研究已經表明,圖像滑塊會導致橫幅失明,有時很難看到,而且很少被點擊。 此外,大量研究已經證明了視頻轉換的能力。 一些企業的轉化率提高了 80%。 這應該是不費吹灰之力的。 獲勝的視頻,對吧?

並非如此,Device Magic 的 A/B 測試結果說。 這是他們的控制視頻主頁:

此圖顯示了 Device Magic 的 A/B 測試的控制頁面。為了避免出現任何 A/B 測試錯誤,Device Magic 測試了視頻在頁面上的表現是否良好,而不是盲目遵循最佳實踐

這是變體滑塊主頁:

此圖顯示了 Device Magic 為其 A/B 測試創建的變體頁面。通過測試頁面上的滑塊,該公司能夠避免盲目遵循最佳實踐而犯下 A/B 測試錯誤

帶有滑塊的變體使轉化率提高了 35%。

Device Magic 團隊從那次測試中學到了兩個有價值的東西。 一:不要全心全意相信最佳實踐,二:不要犯以下錯誤……

5. 過早結束測試

它通常是這樣工作的:測試人員達到他們認為的大量訪問者,以證明頁面變體比控件更好,反之亦然。 他們停在 100 或 1,000,然後宣布獲勝者。

這就是 Device Magic 團隊所做的,Paras Chopra 在 VWO 的博客文章中寫道:

最初他們的控制(使用視頻)是跳動變化(使用圖像滑塊),他們不明白為什麼。 但隨後他們讓測試運行了更長時間,直到獲得更多數據——令他們驚訝的是,結果反轉為變異優於控制,這正是他們的預期。 這個結果在統計上是顯著的。

帕拉斯喬普拉

使用太小的樣本量只是一個錯誤,可能會導致所謂的“假陽性”——一種偽裝成有意義結果的不確定測試結果。 在 Device Magic 的測試中,誤報是他們的主頁使用視頻比使用滑塊更有效,儘管從長遠來看並非如此。 它證明,如果沒有足夠的訪問者訪問您進行 A/B 測試的頁面,您將沒有足夠的數據來自信地從結果中做出任何推斷。

這是 Benny Blum 的一個更簡單的例子,說明使用小樣本量的誤報可能是什麼樣的:

考慮零假設:狗比貓大。 如果我使用一隻狗和一隻貓的樣本——例如,一隻哈瓦那人和一隻獅子——我會得出結論,我的假設是錯誤的,貓比狗大。 但是,如果我對各種各樣的貓和狗使用更大的樣本量,那麼大小的分佈就會正常化,我會得出結論,平均而言,狗比貓大。

本尼·布魯姆

那麼,您如何應對因樣本量太小而導致的誤報? 您可以通過一些嚴肅的數學計算找到一個足夠大的計算器,或者您可以使用 Optimizely 的這種漂亮的計算器。

這裡要記住的重要一點是,沒有固定的時間或訪問者數量可以完全確定 A/B 測試的結果。 CRO 大師 Peep Laja 描述了他的軟件宣布他的變體失敗的時候:

我構建的變體損失慘重 - 超過 89%(並且誤差幅度沒有重疊)。 有些工具已經稱它為統計顯著性為 100%。 我用的軟件說變體 1 有 0% 的機會擊敗控制。 我的客戶準備退出。 然而,由於這裡的樣本量太小(每個變體只有 100 多次訪問),我堅持了下來,這就是 10 天后的樣子。

Peep Laja

此圖顯示了 A/B 測試轉換錶。

有 0% 機會擊敗控制的變異現在以 95% 的信心獲勝。”

測試運行的時間越長,獲得的訪問者越多,您就越接近“確定”結果,即使您永遠無法完全達到目標。

6. 不同時間的測試元素

即使您達到統計顯著性,也可能會過早結束測試。 假設您的網站產生了足夠的訪問者以達到統計顯著性,週末每個頁面有 15,000 名訪問者。 現在還不是調用您的實驗的時候。

不出所料,一周中的幾天會對流量和轉化率產生嚴重影響。 如果您在周六開始測試,您應該在下週六結束測試,以減少一兩天對結果產生偏差的可能性,即使您已經達到了統計顯著性。 週末訪問您網站的觀眾可能與一周內訪問您網站的觀眾大不相同,這可能會影響您的測試結果。

7. 不消除混雜變量

混淆變量正是它們聽起來的樣子——A/B 測試中會干擾結果的變量。 未能識別它們意味著冒著數據有效性的風險。 以下是 Optimize Smart 的一個示例,說明了您的測試中可能出現的混淆變量:

這張圖表明,不消除混淆變量是 A/B 測試的錯誤

例如,如果您更改廣告定位以在測試過程中為您的變體產生不同的流量,那麼您就是通過更改登陸您網頁的人來改變結果。 作為完全不同的人群,這些人可能更容易接受您的變體標題或圖片。

請記住,除了您正在評估的元素之外,所有其他內容都應該相同,並且在整個 A/B 測試中保持相同。 這樣,您就可以確信性能差異是由您測試的元素造成的。

8. 測試不會帶來提升的元素

是的,顏色在您的營銷中很重要,但是您真的需要像谷歌幾年前那樣測試所有 41 種藍色色調,以確定哪種對性能的影響最大嗎?

絕對不。

不要在像這樣無聊的 A/B 測試上浪費時間。 谷歌有資源來做這件事(不是我們認為他們應該像這樣使用它們),你沒有。 不要浪費時間測試那些只會帶來最小性能提升的事情。

9. 一試就放棄

假設您已經對頁面的特色圖片進行了 A/B 測試,並通過這樣做產生了 10% 的持續轉化提升。 恭喜! 這太棒了——但這是否意味著你擁有最好的形象? 不。 這意味著您擁有比以前更好的形象。

如果我們放棄測試此網絡研討會點擊後登錄頁面,並對變體“B”的轉化率提升 45% 感到滿意,我們將永遠不會看到變體“C”帶來的驚人提升。

這是原文:

此圖顯示了 Instapage 的控制頁面。為頁面創建了另外三個變體,以避免過早放棄的 A/B 測試錯誤。

這是變體“B”,它產生了 45% 的轉化提升:

此圖像顯示了 Instapage 頁面的變體 B。為頁面創建了另外三個變體,以避免過早放棄的 A/B 測試錯誤。

最後,這裡的變體“C”將轉化率提高了 129%,令人震驚!

此圖顯示了 Instapage 頁面的變體 C。為頁面創建了另外三個變體,以避免過早放棄的 A/B 測試錯誤。

如果一開始您的測試不成功,請嘗試,再試一次。 即使他們確實成功了,也要嘗試,再嘗試,以獲得更好的結果。 但首先開始使用 Instpage 創建個性化的點擊後頁面,立即請求 Instapage Enterprise 演示。