A / Bテストの有効性に対する5つの一般的な脅威

公開: 2016-11-17

悪いニュース:その30%のコンバージョンは、作成した最新のA / Bテストを向上させますか? おそらく思ったほど高くはありません。

実際、それがまったく存在しない可能性があります。

「合格したテストの少なくとも80%は完全に無価値です」と、Qubit ResearchLeadのMartinGoodsonは会社のホワイトペーパーに書いています。 あなたがウェブ全体で公表されているのを見る巨大なものの代わりに、通常は小さくて持続可能なリフトをもたらさないもの。

では、なぜあなたのA / Bテストソフトウェアがそうではないと言っているのですか?

データを汚染する可能性のある、有効性に対する多くの目に見えない脅威を検出できないためです。 ノベルティ効果、平均への回帰、インストルメンテーション効果などの概念はすべて、何もないところに大きなコンバージョンの伸びを見ることができます。

したがって、統計的有意性に達したという理由だけでA / Bテストに基づいてビジネス上の意思決定を行う場合は、ここで停止してください。 あなたは、あなたの結果に基づいて、任意の推論を行うことができます前に、統計的有意性に到達する必要があるが、それはあなたが必要とするすべてではありません。 また、有効なテストを実行する必要があります。

勝ったテストの少なくとも80%は完全に無価値です。

クリックしてツイート

統計的有意性と妥当性の違い

統計的有意性と妥当性は2つの非常に異なりますが、分割テストを成功させるために等しく重要な必需品です。

統計的有意性は、ある程度の信頼度で、テスト結果が信頼できる可能性を示しており、偶然によるものではありません。 統計的有意性に到達するには、次のことを知っておく必要があります。

  • コントロールページのベースラインコンバージョン率
  • 検出できるようにしたいコンバージョン率の最小変化
  • 結果が有意であり、偶然によるものではないことをどの程度確信したいか(標準で受け入れられる信頼レベルは95%)
  • サンプルサイズ、別名、統計的有意性に到達する前に生成する必要のあるトラフィックの量(この計算機を使用して把握してください)

一方、妥当性は、サンプルサイズ以外の他の要因がデータに悪影響を及ぼしているかどうかに関係しています。

では、なぜ両方を知る必要があるのでしょうか。

A / Aテストの53%(実験のセットアップを評価するために使用される同じページと同じページのテスト)でさえ、ある時点で95%の有意性に達するためです。 2つの同一ページを特徴とするテストが1/2時間で統計的有意性に達する可能性がある場合、A / Bテストの結果が信頼できるとどのように確信できますか?

できません、CXLのPeepLajaは説明します。

「重要性がわかったらすぐにテストを停止すると、50%の確率で完全なまぐれになります。 コイントス。 そもそもテストのアイデアを完全に殺してしまいます。」

分割テストの勝者を決定するために統計的有意性のみに依存するのではなく、できるだけ多くの有効なデータを収集する必要があります。 そのためには、どのような脅威が邪魔をしているのかを理解する必要があります。

A / Bテストの妥当性に対する一般的な脅威

1.平均への回帰

「A / Bテストに関しては、サンプルサイズが最も重要です」とデジタルマーケティング担当者のChaseDumont氏は言います。 テストする人が多ければ多いほど、結果はより正確になります。

多くの場合、A / Bテスターは実験を早期に終了します。 彼らは大きなリフトを見て興奮し、自信を持って勝者を宣言します。 ただし、ケーススタディでは、テストが95%以上の統計的有意性に達した場合でも、1か月間実行している場合でも、結果が誤解を招く可能性があることが示されています。

たとえば、Chaseは、自分のビジネスの1つで2つの長い形式の販売ページを分割テストしました。 彼の言葉で:

最初は、元のバージョンが変数を上回りました。 変数の方が優れていて、より厳密に記述および設計されていると思ったので、これに驚きました。

確かに、チェイスの本能が示したように、変数元の変数よりも優れていました。 しかし、それが示されたの6か月のテストの後でのみでした。 その時までに、元のページのコンバージョン率は平均に向かって回帰しただけでなく、それを超えて、変数によってパフォーマンスが上回っていたところまで来ていました。

このグラフは、A / Bテスト実験の有効性を判断するのに十分なサンプルサイズを用意することが重要である理由をマーケターに示しています。

では、「平均への回帰」とはどういう意味ですか?

A / Bテストの用語では、より多くのサンプルが収集されるにつれて、高変換の変動(この場合はグラフの青い線で表される元のページ)が期待される平均に近づき始めたことを意味します。 もっと簡単に言えば、それは「時間の経過とともに物事が均等になる」という別の言い方です。

実世界の例を考えてみましょう。 1971年のマティーニ国際トーナメントで、英国のゴルファー、ジョン・アンソニー・ハドソンは、プロのトーナメントで2つの連続したホールインワンを打った唯一の人物になりました。

パー4とパー3の2つのホールで、彼は2〜5打を合わせて、ほとんどのプロが取る平均7打よりも優れた打撃をしました。

彼のパフォーマンスを他のトーナメント参加者と比較するためにこれらの2つのホールだけを見ると、「うわー、ハドソンはトーナメントの他のどのゴルファーよりもはるかに優れています。 彼はきっと勝つだろう。」

そして、もし彼らがそれらの2つのホールだけに基づいてトーナメントを呼んだとしたら、彼はそうするでしょう。

しかし、ホールインワンはまれであり、トーナメントは多くのホールを持続します。 したがって、ハドソンがプレイすればするほど、彼のスコアは平均に回帰します。 競争の終わりまでに、彼はどこにも優勝の近くに、第九位タイました。

同様に、統計的有意性に達した後でも収集するデータが多いほど、結果はより正確になります。

クリック後のランディングページバリエーションの最初の2人の訪問者を変換して、2つのホールインワンを獲得できますか? 絶対。 しかし、それはあなたの新しいページが100%で変換されることを意味しますか? とんでもない。 ある時点で、その100%のコンバージョン率は平均に向かって回帰します。

ホールインワンのような巨大なコンバージョンリフトはまれであることを忘れないでください。 成功したテストの大部分は、代わりに、より小さく、持続可能なリフトを生成します。

2.ノベルティ効果

これまでのすべてのクリック後のランディングページに小さな緑色のボタンが表示されているときに、クリック後のランディングページのバリエーションを大きなオレンジ色のボタンでテストしているとします。 最初は、オレンジ色のボタンが大きいほどコンバージョン数が多いことに気付くかもしれませんが、その理由は変更の結果ではなく、「ノベルティ効果」と呼ばれるものである可能性があります。

ノベルティ効果は、通常の訪問者が見慣れない変更を加えると効果を発揮します。 コンバージョン率の変化は、ボタンの色を変えた結果ですか? それとも、彼らが変化の目新しさに惹かれているからですか? 把握する方法は、トラフィックをセグメント化することです。

戻ってきた訪問者は小さな緑色のボタンを見るのに慣れているので、大きなオレンジ色のボタンは、慣れているものとは異なるという理由だけで、より注目を集める可能性があります。 しかし、新しい訪問者はあなたの小さな緑色のボタンを見たことがないので、それが彼らの注意を引くのであれば、彼らが何か違うことに慣れているからではありません。 この場合、オレンジ色のボタンが大きいほど、全体的に注目を集めている可能性が高くなります。

視聴者が見慣れているものとは大きく異なるものをテストする場合は、新しいトラフィックをそのトラフィックに誘導して、目新しさの効果が結果に影響を与えないようにすることを検討してください。

3.計装効果

「インストルメンテーション(またはインストルメント)効果」と呼ばれる、有効性に対する最も一般的な脅威は、テストツールに関係しています。 正常に機能していますか? すべてのコードが正しく実装されていますか?

警戒の外でこれを打ち負かすトリックはありません。 さまざまなブラウザやデバイスでクリック後のランディングページと広告を確認して、キャンペーンを公開する前にテストします。 テストリードデータを入力して、コンバージョンピクセルが起動し、CRMがフォームと同期されていることを確認します。

それらが稼働するときは、すべてのメトリックを注意深く監視し、疑わしいレポートに注意してください。 あなたのツールはあなたを失敗させているかもしれません、あなたは悪いトラフィックを運転しているかもしれません、あるいはあなたは次の妥当性の脅威の犠牲になっているかもしれません…。

4.履歴効果

A / Bテストはラボで実施されていません。 それは現実の世界で実行されており、その結果、あなたの制御の及ばない現実の出来事の影響を受けます。 これらは、休日、天気、サーバーの崩壊、さらには日付と時刻などです。

Twitterからのトラフィックをテストしていて、サイトがオフラインになった場合はどうなりますか? クリスマスまでの小売りのクリック後のランディングページをテストし、2月にフォローアップテストを実行するとどうなりますか?

あなたのデータは歪められるでしょう。

たとえば、検索エンジンの結果ページでの広告のクリックスルーを最適化することを目的としたMarketingExperimentsからこのテストを受けてください。 目的地は、訪問者が自分の地域の捕食者を調べることができる性犯罪者登録ウェブサイトでした。

その中で、本文のコピーは同じであるが見出しが異なる4つの広告が互いにテストされました。

この写真は、A / Bテストの検証プロセスで広告の見出しが大きな要因になる可能性があることをマーケティング担当者に示しています。

テストは7日と55,000インプレッションの後に呼び出され、一見したところ、勝者は明確であるように見えました。 しかし、詳しく調べてみると、テスターはデータを汚染する何かに気づきました。 フリント・マクグラウリン博士は次のように詳しく述べています。

「ここに問題があります。 テスト中、デイトラインは「捕食者を捕まえるために」と呼ばれる特別番組を放送しました。 1000万人が視聴しました。 捕食者という言葉は、性犯罪者に関連する重要な用語になりました。 さて、さかのぼってみましょう。

あなたはあなたの子供が安全であることがわかります。 子捕食者、お住まいの地域の捕食者、および子捕食者レジストリが表示されます。 そして、コピーを見てください。 性犯罪者を特定し、性犯罪者を特定します。 見出しを除いてすべて同じですが、捕食者という言葉が含まれているこれらの見出しが3つあります。 結果はどうでしたか?」

この写真は、広告見出しのキーワードがA / Bテストの有効性を決定する大きな要因になる可能性があることをマーケティング担当者に示しています。

「プレデター」という言葉のある見出しは、それがない見出しよりもクリック率が133%高くなりました。これは、すべてテレビの特別番組によるものです。

履歴の影響と戦うには、メディア監視ツールを使用して、テストしていることを社内の全員が知っていることを確認します。 外の世界を利用したチームメンバーが多ければ多いほど、テストの結果に影響を与える可能性のある何かを見つけた可能性が高くなります。

5.選択効果

選択効果は、実験者が対象者を代表していない被験者のサンプルをテストするときに発生します。

たとえば、米国で最も人気のあるプロのサッカーチームを特定したいとしますが、ニューイングランド地域の人々にのみ質問したとします。 国全体を代表するものではないペイトリオッツへの圧倒的な支持を聞くでしょう。

A / Bテストの用語では、さまざまなソースからトラフィックを生成するときに、選択効果がテストに影響を与える可能性があります。 これは、MarketingExperimentsのNick Usborneが、主要なニュースパブリッシャーと仕事をしているときに遭遇したものです。

「私たちは、電子版のサブスクリプションオファープロセスを根本的に再設計し、メインのWebサイトから電子製品への新しいテキストリンク広告キャンペーンを開始したとき、テストの途中でした。

これにより、サブスクリプションオファープロセスに到着するトラフィックの構成が、実質的にすべてのトラフィックが有料検索エンジンから送信されるトラフィックから、Webサイト内部のリンクから大量のトラフィックが到着するトラフィック(高度に事前認定されたトラフィック)に変更されました。

平均コンバージョン率は一晩で0.26%から2%以上に増加しました。 綿密に監視していなかったとしたら、新しいプロセスで600%以上のコンバージョン率の向上が達成されたと結論付けたかもしれません。」

クライアントを監視することは重要ですが、選択効果に対して脆弱にならない方法でテストを設計していることを確認することも同様に重要です。 トラフィックがどこから来ているかを把握し、テストの途中でソースを変更しないでください。 サンプルは、全体を通して可能な限り一貫性を保つ必要があります。

A / Bテストを安全に終了できるのはいつですか?

統計的有意性を信頼できず、妥当性に対するこれらすべての脅威がデータを汚染する可能性がある場合、…いつテストを安全に終了し、自信を持って結果に頼ることができますか?

残念な答えは、結果が100%信頼できることを本当に確信することはできないということです。 ただし、できる限り近づくように予防策を講じることはできます。 コンバージョン率オプティマイザーのPeepLajaは、次の4つの基準に従うと通常はうまくいくことを発見しました。

  1. テスト期間は最低3週間、可能であれば4週間にする必要があります。
  2. サンプルサイズは、複数のツールを使用して事前に計算する必要があります。
  3. テストするバリエーションごとに、コンバージョンは250〜400に達する必要があります。
  4. 統計的有意性は95%以上である必要があります。

彼はさらに、3週間で250〜400回のコンバージョンに達しない場合は、そうするまでテストを実行し続ける必要があると付け加えています。 また、必要に応じて、1週間のサイクルでテストしていることを確認してください。 月曜日にテストを開始し、5週間後の水曜日に400回のコンバージョンに達した場合は、次の月曜日までテストを続けます(そうしないと、履歴効果の犠牲になる可能性があります)。

上記の有効性の脅威に注意することを忘れないでください。また、チーム(およびクライアントのチーム)の全員に、テストしていることを知らせてください。 通知する組織が多ければ多いほど、誰かがテストの側面(選択効果)を変更する可能性が低くなり、インストルメンテーション効果や履歴効果などの有効性の脅威が発生したときに誰かが気付く可能性が高くなります。

A / Bテストでウェブサイトをどのように改善しましたか?

A / Bテストを使用して、Webサイトを最適化し、有効性に対する脅威をキャッチします。 クリック後のページを作成することから始めて、今すぐInstapageEnterpriseデモをリクエストしてください。