6 A / Bテストの神話：これらの神話が結果にどのように影響するか

公開: 2016-10-13

A / Bテストは楽しいです。人気です。やりやすくなっています。

ただし、A / Bテストを間違って行っている場合でも、大量の時間とリソースを浪費している可能性があります。

A / Bテストの普及が進んでいるにもかかわらず、この主題に関する多くの神話があり、そのいくつかは非常に一般的です。与えられた技術から実際に価値を引き出すためには、それが何であるかを理解することが重要です—その限界とそれがどこで強力であるかを理解することを含みます。

6 A / Bテストの神話は、今日は信じないでください。

クリックしてツイート

この記事では、ブログやコンサルタントによって何度も何度も噴出された神話の概要を説明します。

1. A / Bテストと最適化は同じものです

これは少し厄介に思えるかもしれませんが、A / Bテスト自体はコンバージョンを増加させません。多くの記事は、「コンバージョンを増やすためにA / Bテストを行う」という効果について何かを述べていますが、これは意味的に不正確です。

「オンライン制御実験」とも呼ばれるA / Bテストは、ハードデータを使用して、インターフェイスに加えた変更が主要な指標にどのように影響しているかを示す総合的な調査方法です。

それは非学術的な用語で何を意味しますか？ A / Bテストは最適化の一部ですが、最適化には、実験の側面だけでなく、幅広い手法が含まれます。

DigitalMarketerの最適化ディレクターであるJustinRondeau氏は、次のように述べています。「コンバージョン率の最適化は、データ分析と調査を使用してカスタマーエクスペリエンスを向上させ、ウェブサイトから最も多くのコンバージョンを引き出すプロセスです。」

最適化とは、実際には検証済みの学習に関するものです。利益成長への最適な道を模索するとき、探索/搾取の問題のバランスを取ります（何が機能するかを探求し、それを利益のために活用します）。

2.すべてをテストする必要があります

私はCROのフォーラムを読んでいて、誰かが見出しの特定の単語の選択について尋ねました（私はそれが「素晴らしい」か何かだったと思います）、そして彼らはそれが使いすぎであるかどうか疑問に思いました。

「専門家」は、他のすべての類似した単語（「魅力的」、「信じられない」、「素晴らしい」など）をテストするまで、確実に知ることはできないというアドバイス（ここで言い換える）でチャイムを鳴らしました。

これは99.95％の人にとってばかげたアドバイスです。

Googleが41色の青をテストした方法についての話を誰もが聞いたことがある。同様に、FacebookやAmazonのようなサイトには、理論的にはこのようなテストを実行するためのトラフィックがあることは明らかです。

しかし、中小規模のeコマースサイト（またはSaaSなど）を運営している場合、非常に大規模な企業の一員であっても、このようなテストを実行することは、ほとんどの場合、時間、リソース、およびトラフィックの無駄です。

なぜ、あなたは尋ねるかもしれませんか？優先順位付けが重要だからです。

誰もがサイトを見て、必要に応じて変更できるランダムなものを何十も見ることができます（データによって通知されているかどうかは関係ありません）。しかし、その効率はどこにありますか？

せいぜい、関係のないことにトラフィックを浪費しているだけであり、これを行うと一貫して決定的な結果が得られません（その場合は、利害関係者からの継続的なサポートを得ることができます）。

ただし、いずれの場合でも、多大な機会費用に直面します。重要ではないことに時間とリソースを浪費しているため、ユーザーエクスペリエンスを根本的に変更および改善する変更の実装から除外されます。本当の違いを生む（そして本当のお金を稼ぐ）もの。

3.誰もがA / Bテストを行う必要があります

A / Bテストは非常に強力で便利です。誰も（インテリジェントに）それに反対するつもりはありません。

しかし、それは誰もがそれをすべきだという意味ではありません。

大まかに言えば、1か月あたりのトランザクション（購入、サインアップ、リードなど）が1,000未満の場合は、他のことに力を注ぐほうがよいでしょう。 たぶん、数か月間約500トランザクションのテストを実行することで逃げることができますが、効果を確認するには、いくつかの大きなリフトが必要になります。

多くの零細企業、新興企業、および中小企業は、（まだ）そのトランザクション量を持っていません。

コストも覚えておく必要があります。 Optimizelyのような最適化ソフトウェアのコストだけでなく、それらすべて。のようなもの：

コンバージョンリサーチ。（上記のように）何をテストするかを理解する必要があります。
治療法の設計（ワイヤーフレーミング、プロトタイピングなど）。
テストのコーディング。
テストのQA。

さて、あなたが8％のリフトを得て、それが有効な勝者であるとしましょう。あなたは週に125のリードを持っていました、そして今あなたは135 /週を持っています。 ROIはありますか？多分—それはあなたのリード値に依存します。しかし、時間、リソース、そして最も重要なことに、行動の機会費用を考慮する必要があります。

したがって、テストを実行する前に必要なサンプルサイズを計算するときは、ROIについても計算を行ってください。実際のドルでのX％リフトの価値は何でしょうか？

時間は貴重な資源です。数学のせいで、まだ小さいときはA / Bテスト以外の場所で使うほうがよいかもしれません。

4. A / Bテストごとに1つの要素のみを変更します

これはおそらく、世の中で最も一般的に受け継がれている神話です。意図は良いですが、それは欠陥のある前提です。

アドバイスは次のとおりです。テストごとに1つの変更のみを行うため、実際に何が違いを生んでいるかがわかります。

たとえば、見出しを変更し、社会的証明を追加し、召喚状のテキストと色を変更して、25％の伸びが得られた場合、変更の原因をどのように判断できますか？

それは本当です; あなたは本当にできません。しかし、私も尋ねさせてください（そしてこれは特にトラフィックの多いサイトの贅沢がない人に指摘されています）、あなたは本当に気にしますか？

理想的な世界では、特に、相互に構築される反復的な変更で構成されています。そうです、一度に1つのことをテストすると、テストのノイズが制限され、変更の正確な原因を理解できます。

また、最小意味単位（SMU）を定義する必要があります。これは、物事が少し気になるところです。 ConductricsのCEOであるMattGershoffは、次のように述べています。

「論理を極端にするために、一度に複数の単語を変更するため、見出しを変更すると複数の変更が行われると主張することができます。

だからそれはあなたが何をしたいかによります。 CTAの文言に関心があり、それが変更を引き起こしたかどうかを本当に知りたいですか？あなたはあなたのページを根本的に変えていますか？あなたのサイト？

SMUはあなたの目標に依存します。現実の世界では、アナリストや最適化の専門家が「テストごとに1つの変更のみ」と叫んでいることはありません。

ロンドー氏がこの投稿で指摘したように、このサイトで何を変更しますか（下の写真-ちなみにこれは古いバージョンのサイトです）。

このサイトに大量のトラフィックがあり、月に8つの有効なテストのように実行できると仮定しましょう。一度に1つの要素を実行している場合、どこから始めますか？背景画像、フォントの色、フォントサイズ、上部のロゴ、ナビゲーションサムネイル、場所、サイズ、注文、コピー、本文のコピー、移動するセールスマンなどをテストするには、永遠に時間がかかります。

ここでの私のポイントはこれです：同じテストで複数の変更をバンドルすることを恐れないでください。

5. A / Bテストは、盗賊/ MVTなどよりも優れています（または劣っています）。

複雑で勝利を生まない、または盗賊がA / Bテストと比較して非効率的である、またはそれ以上であるため、「多変量（MVT）を回避する」必要があることを主張する記事がときどきポップアップします。効率的—または何でも。

人生の良い経験則は、あなたが二分法、これとその状況を扱っているなら、あなたはおそらく準備されているということです。それはおそらく誤った二分法です。

真実は、A / Bテストは、MVTが他の状況で最良の選択であるいくつかの状況でより良いということです。盗賊や適応アルゴリズムと同じです。

6. A / Bテストが重要になったら停止します

統計についてはあまり詳しく説明しませんが（この投稿で知っておく必要のあることはすべて読むことができます）、「統計的有意性で停止する」と言うのは間違っています。これは主にオンライン環境の性質によるものです。

この神話が広まっているのは残念であり、マーケティングの世界における統計的知識は驚くほど含まれています。

また、テストツールによって、有意性に到達するのが早すぎることが通知されることもよくあります。したがって、その95％の重要性にすべての信頼を置いてはいけません。

まず、サンプルサイズとテスト期間を事前に計算します。次に、その時間テストを実行します。また、丸1週間テストします（月曜日に開始しますか？月曜日に終了します）。また、非定常データ（時間の経過とともに同じ状態を維持しないデータ）を考慮して、複数のビジネスサイクルでテストを実行することをお勧めします。たとえば、1週間の大売り出しや、PRの急上昇により、データが大幅に失われる可能性があります。日が異なれば、コンバージョン率も何度も異なります。火曜日のコンバージョン率は3％ですが、土曜日のコンバージョン率は1.5％である可能性があります。その違いにより、テスト後の分析が失敗する可能性があります。

したがって、これらの増減を説明するために、丸1週間テストしてください。 CXLでは、3〜4週間テストを実行することをお勧めします。

次に、少なくとも95％の統計的有意性を検討します。

結論

A / Bテストは非常に強力です。これは、腸に基づく意思決定に対する強力な抑止力であり、代わりに何をすべきかをデータが示しています。

A / Bテストでは、クリック後のどのページが最も多くのコンバージョンをもたらしているかを確認できます。今日のInstapagePersonalization Demoで、すべてのオーディエンスに1：1の広告パーソナライズを提供する方法を学びましょう。