A/BテストでのタイプIおよびタイプIIのエラーとそれらを回避する方法

公開: 2020-12-04

A / Bテストでは、特定のWebページの複数のバリエーション間でWebサイトの着信トラフィックをランダムに分割して、重要なメトリックにプラスの影響を与えるものを測定します。かなり簡単ですよね？まあ、それほど多くはありません。 A / Bテストは単純に聞こえるかもしれませんが、その操作と結果の計算の背後にある科学と数学は非常に難しい場合があります。

統計はA/Bテストの基礎であり、確率の計算は統計の基礎です。したがって、受け取った結果の正確性を100％確信したり、リスクを0％に減らしたりすることはできません。代わりに、テスト結果が真である可能性を高めることしかできません。ただし、テストの所有者は、ツールがこれを処理する必要があるため、これについて気にする必要はありません。

すべての重要な手順を実行した後でも、テスト結果レポートは、無意識のうちにプロセスに忍び寄るエラーによって歪められる可能性があります。一般にタイプIおよびタイプIIのエラーとして知られているこれらは、本質的に、テストの誤った結論および/または勝者と敗者の誤った宣言につながります。これにより、テスト結果レポートの誤解が生じ、最終的に最適化プログラム全体が誤解され、コンバージョンや収益さえも犠牲になる可能性があります。

タイプIおよびタイプIIのエラーが正確に何を意味するのか、それらの結果、およびそれらを回避する方法を詳しく見てみましょう。

A / Bテストの結果に忍び寄るエラーにはどのようなものがありますか？

タイプIエラー

アルファ（α）エラーまたは誤検知とも呼ばれます。タイプIのエラーの場合、テストは成功しているように見え、バリエーションはテストに定義された目標に（良くも悪くも）影響を与えるようです。ただし、実際には、上昇または下降は一時的なものであり、勝者のバージョンを普遍的に展開し、その影響をかなりの期間にわたって測定すると、持続することはありません。これは、統計的有意性または事前に決定された基準に達する前にテストを終了し、帰無仮説を棄却して勝ちの変動を受け入れることに急いでいるときに発生します。帰無仮説は、前述の変更が特定のメトリック/目標に影響を与えないことを示しています。また、タイプIエラーの場合、帰無仮説は真ですが、テストのタイムリーでない結論または結論の基準の誤算のために棄却されます。

タイプIのエラーが発生する確率は、「α」で示され、信頼水準と相関関係があります。信頼水準では、テストを終了することにします。これは、95％の信頼水準でテストを終了した場合、間違った結果が得られる可能性が5％あることを認めることを意味します。同様に、その信頼水準が99％の場合、テスト結果が間違っている確率は1％です。まったくの不運と言えますが、95％の信頼水準でテストを終了した後でもαエラーが発生した場合は、5％の確率でイベントが発生したことを意味します。

ランディングページのCTAをスクロールしなければ見えない位置に移動すると、登録数が増えるという仮説を立てるとします。ここでの帰無仮説は、CTAの配置を変更しても受信したサインアップの数に影響がないというものです。テストが開始されると、結果を覗き見したくなり、1週間以内に変動によって生成されたサインアップが45％も大幅に増加していることに気付くでしょう。コントラストがかなり良くなり、帰無仮説を棄却し、バリエーションを普遍的に展開することになります。これは、同様の影響がなくなり、代わりにまったく影響がないことに気付くだけです。唯一の説明は、テスト結果レポートがタイプIエラーによって歪められているということです。

タイプIエラーを回避する方法

タイプIエラーが発生する可能性を完全になくすことはできませんが、確実に減らすことができます。そのためには、十分に高い信頼水準に達したときにのみテストを終了するようにしてください。 95％の信頼水準は理想的であると考えられており、それを達成することを目指す必要があります。 95％の信頼水準に達した後でも、テスト結果はタイプIエラーによって変更される可能性があります（前述のとおり）。したがって、適切なサンプルサイズがテストされたことを保証するのに十分な時間テストを実行することも保証する必要があります。これにより、テスト結果の信頼性が高まります。

VWOのA/Bテスト期間計算ツールを使用して、特定のテストを実行する必要がある理想的な期間を決定できます。同様に、A / Bテストのサンプルサイズを計算して、結果が悪化する可能性が最も低い場合にのみテストを終了できるようにすることもできます。

VWOのベイジアンモデルを利用した統計エンジンであるSmartStatsは、タイプ1エラーが発生する可能性を減らすのに役立ちます。

タイプIIエラー

ベータ（β）エラーまたはフォールスネガティブとも呼ばれ、タイプIIエラーの場合、特定のテストは決定的ではないか失敗しているように見え、帰無仮説は真であるように見えます。実際には、変動は目的の目標に影響を与えますが、結果は示されず、証拠は帰無仮説を支持します。したがって、帰無仮説を（誤って）受け入れ、仮説とバリエーションを拒否することになります。

タイプIIのエラーは通常、テストの放棄と落胆につながりますが、最悪の場合、影響がないと仮定すると、努力を無視する傾向があるため、CROロードマップを追求する意欲が失われます。

「β」は、タイプIIエラーが発生する確率を示します。タイプIIエラーに遭遇しない確率は、テストの統計的検出力に応じて1 –βで表されます。テストの統計的検出力が高いほど、タイプIIエラーが発生する可能性は低くなります。 90％の統計的検出力でテストを実行している場合、偽陰性になる可能性は10％にすぎません。

テストの統計的検出力は、統計的有意性のしきい値、サンプルサイズ、対象となる最小効果サイズ、さらにはテストのバリエーションの数に依存します。

それらがどのように関連しているかは次のとおりです。

支払いページにセキュリティバッジを追加すると、その段階でのドロップオフの割合を減らすのに役立つと仮定します。セキュリティバッジを使用して支払いページのバリエーションを作成し、テストを実行して、開始から10日後に結果を確認します。変換またはドロップオフの数に変化がないことに気付いたら、テストを終了し、帰無仮説が真であると宣言することにします。テスト結果に納得がいかない場合は、テストを再実行することにします。今回のみ、テストをより長く実行します。その結果、今回はコンバージョン目標が大幅に改善されていることに気づきました。最初に起こったことは、必要な時間の前にテストを終了することによってタイプIIエラーに遭遇したことでした。

タイプIIエラーを回避する方法

テストの統計的検出力を向上させることにより、タイプIIエラーを回避できます。これを行うには、サンプルサイズを増やし、バリアントの数を減らします。興味深いことに、タイプIIエラーの確率を減らすために統計的検出力を改善することは、統計的有意性のしきい値を下げることによっても達成できますが、タイプIエラーの確率が高くなります。ただし、通常、タイプIエラーの確率を減らすことは、タイプIIエラーを回避することよりも優先されるため（結果はより深刻になる可能性があるため）、パワーを向上させるために統計的有意性のしきい値に干渉しないことをお勧めします。

VWO SmartStats –ビジネスの意思決定へのよりスマートなベイズの方法

理想的には、テストの所有者として、統計はあなたが焦点を当てるべきものではありません。あなたの探求はあなたの実験で真実を見つけることではないからです。あなたの動機はあなたのためにより高い収入を生み出すより良いビジネス上の決定をすることです。したがって、重要なことは、統計の詳細に立ち入ることなく、より適切で賢明な選択を行うのに役立つツールを使用することです。

推論統計の頻度論的モデルによると、テストの結論は統計的有意性に到達することに完全に依存しています。統計的有意性に達する前にテストを終了すると、誤検知（タイプIエラー）が発生する可能性があります。

VWOのベイジアンモデルを利用した統計エンジンであるSmartStatsは、この変動がコントロールを打ち負かす確率と、それを展開するときに発生する可能性のある潜在的な損失を計算します。 VWOは、情報に基づいた選択ができるように、バリエーションの展開に関連して発生する可能性のある損失を示します。

この潜在的な損失は、特定のテストをいつ終了するかを決定するのにも役立ちます。テストの終了後、バリエーションの潜在的な損失が特定のしきい値を下回った場合にのみ、バリエーションが勝者として宣言されます。このしきい値は、コントロールバージョンのコンバージョン率、テストに参加した訪問者の数、および一定の値を考慮して決定されます。

VWO SmartStatsは、テストを完了するために設定された時間とサンプルサイズに到達することに依存しないため、テスト時間を50％短縮するだけでなく、実験をより細かく制御できます。実行しているテストのタイプに基づいて決定を下すのに役立つ明確な確率が得られます。たとえば、ボタンの色の変更など、影響の少ない変更をテストしている場合、バリエーションを勝者と呼ぶには、おそらく90％の確率で十分です。または、目標到達プロセスの最後のステップで何かをテストしている場合は、99％の確率まで待つことをお勧めします。これで、影響の少ないテストをより迅速に終了し、ロードマップで影響の大きいテストを優先することで、テストの速度を上げることができます。

頻度主義ベースの統計モデルは、それがA / Aテストであると想定することによって、変動の違いを確認する確率のみを提供します。ただし、このアプローチでは、十分なサンプルサイズを取得した後でのみ、テスト計算を実行していることを前提としています。 VWO SmartStatsは想定を行わず、代わりに、タイプIおよびタイプIIのエラーが発生する可能性を減らすことで、よりスマートなビジネス上の意思決定を可能にします。これは、変動がコントロールを上回る確率を、関連する潜在的な損失とともに推定し、テストの実行中にこれらのメトリックを継続的に監視できるようにするためです。

統計では絶対確実性を目指すことは非常に難しいため、エラーによってテスト結果が歪まない可能性を排除することはできません。ただし、VWOのような堅牢なツールを選択することで、エラーが発生する可能性を低くしたり、これらのエラーに関連するリスクを許容可能なレベルまで減らすことができます。 VWOがこのようなエラーの餌食になるのをどのように正確に防ぐことができるかについて詳しく理解するには、VWOの無料トライアルを試すか、最適化の専門家の1人にデモをリクエストしてください。