Apa itu Pengujian A/A, dan Mengapa Pemasar Harus Peduli?
Diterbitkan: 2017-05-18Apakah Anda pernah melalui skenario ini? Anda menyiapkan pengujian A/B untuk mengetahui apakah kombinasi tombol dan judul baru Anda akan menghasilkan lebih banyak konversi…
Anda mengarahkan lalu lintas yang sama ke halaman arahan pasca-klik Anda — kontrol dan variasi — dan berhenti setelah sebulan, ketika perangkat lunak Anda menyatakan variasi Anda sebagai pemenang dengan keyakinan 99%…
Anda meluncurkan desain "pemenang" baru, tetapi beberapa siklus bisnis kemudian, peningkatan 50% dalam tingkat konversi tidak menunjukkan dampak pada laba Anda. Anda bingung. kamu kesal…
Dan Anda mungkin adalah korban dari hasil tes positif palsu.
Apa itu hasil tes positif palsu?
Mengapa peningkatan rasio konversi sebesar 50% tidak menghasilkan lebih banyak penjualan? Alasannya, kata Lance Jones dari Copyhackers, karena mungkin tidak ada.
Sangat mungkin (bahkan mungkin) bahwa Anda tidak melihat peningkatan penjualan atau pendapatan dari pengujian Anda karena hal itu tidak pernah ada sejak awal. Anda mungkin secara tidak sadar menerima "positif palsu" dalam pengujian Anda – yang dikenal sebagai kesalahan statistik Tipe I, atau dikenal sebagai penolakan yang salah terhadap hipotesis nol yang sebenarnya. Itu seteguk, jadi saya hanya mengingatnya sebagai positif palsu.
Disadari atau tidak, kesalahan statistik Tipe 1 ini lebih umum daripada yang Anda kira. Diperkirakan sekitar 80% hasil tes AB adalah imajiner.
Klik Untuk Tweet
Jika Anda membuat keputusan penting berdasarkan positif palsu, paling banter, Anda membiarkan pengoptimalan secara kebetulan. Paling buruk, Anda sebenarnya memperburuk tingkat konversi halaman arahan pasca-klik Anda.
Untungnya, ada beberapa cara untuk memerangi data beracun. Salah satunya mirip dengan metode pengujian yang mungkin sudah Anda kenal…
Apa itu pengujian A/A?
Pengujian A/B melibatkan mengarahkan lalu lintas ke dua halaman berbeda — yang asli (kontrol Anda) dan versi lain (variasi Anda) — untuk melihat mana yang berkinerja lebih baik.
Demikian pula, pengujian A/A melibatkan mengarahkan lalu lintas ke dua halaman untuk melihat mana yang berkinerja lebih baik. Namun tidak seperti dalam pengujian A/B, pengujian A/A mengadu dua halaman yang identik satu sama lain — dan alih-alih menemukan peningkatan, tujuannya adalah untuk tidak menemukan perbedaan antara kontrol dan variasi Anda.
Mengapa Anda melakukan tes A/A?
Kami tidak menyalahkan Anda karena menggaruk-garuk kepala, bertanya-tanya, “Apa yang akan dicapai dengan menguji dua halaman identik satu sama lain?”
Ini mungkin terdengar konyol, tetapi ini adalah teknik yang digunakan beberapa penguji profesional untuk menguji pengujian A/B mereka sebelum mereka menguji. (Hah?)
Hasil tes yang akurat membutuhkan lebih dari sekadar signifikansi statistik
Siapa saja dapat menjalankan pengujian A/B, tetapi hanya sedikit yang dapat menjalankan pengujian A/B yang valid (ingat: Hanya sekitar 20% dari hasil pengujian yang benar-benar sah).
Menghasilkan data uji yang akurat melibatkan lebih dari sekadar mencapai signifikansi statistik dengan ukuran sampel yang besar dan representatif. Untuk yakin dengan hasil Anda, Anda harus memastikan bahwa sampel tidak tercemar oleh sejumlah ancaman validitas.
Salah satu ancaman itu, efek instrumen, adalah tes A/A yang paling membantu untuk memeranginya.
Apa efek instrumennya?
Perlindungan terhadap ancaman validitas dimulai bahkan sebelum Anda memulai pengujian A/B. Efek instrumen, kata Peep Laja dari CXL, adalah yang paling meracuni hasil tes:
Ini adalah masalah yang paling umum. Itu ketika sesuatu terjadi dengan alat pengujian (atau instrumen) yang menyebabkan data cacat dalam pengujian. Ini sering terjadi karena penerapan kode yang salah di situs web, dan akan mengubah semua hasil.
Itulah sebabnya, saat menyiapkan pengujian, penting untuk memastikan alat Anda dikonfigurasi dengan benar dan berfungsi sebagaimana mestinya. Jika tidak, masalah umum berikut dapat muncul:
- Salah melaporkan indikator kinerja utama. Hanya satu kesalahan dalam satu alat dapat mencampuradukkan data Anda, itulah sebabnya Anda tidak boleh mengandalkan platform tunggal untuk melacak semua informasi pengujian Anda. Paling tidak, integrasikan dengan Google Analytics untuk memeriksa ulang apakah metrik yang Anda lihat di perangkat lunak pengujian dan pelacakan situs web sudah akurat. Untuk hasil yang lebih baik lagi, periksa tiga kali dengan alat lain. Berhati-hatilah terhadap laporan yang tidak cocok secara relatif.
- masalah tampilan halaman arahan pasca-klik. Kesalahan pengkodean kecil dapat menyebabkan ancaman validitas yang besar, seperti masalah tampilan, selama pengujian A/B Anda. Itulah mengapa sangat penting untuk memastikan halaman arahan pasca-klik Anda terlihat seperti yang seharusnya di semua perangkat dan browser, dan pengunjung Anda tidak terpengaruh oleh sesuatu yang disebut "efek kedipan". Antara lain, situs web yang lambat dapat menyebabkan masalah ini, yang terjadi ketika kontrol Anda ditampilkan sebentar kepada pengunjung Anda sebelum variasi.
- Menghentikan tes terlalu dini. Beberapa perangkat lunak pengujian akan mendeklarasikan halaman pemenang sebelum waktunya — ketika ukuran sampel tidak cukup besar, atau mewakili pelanggan target Anda. Ingat: Mencapai signifikansi statistik tidak berarti sudah waktunya untuk menghentikan pengujian Anda. Semakin lama Anda menjalankannya, semakin akurat hasilnya.
Salah satu dari masalah ini (dan lebih banyak lagi) dapat menyebabkan hasil positif palsu pada akhir pengujian Anda, itulah sebabnya Peep memperingatkan penguji untuk waspada:
Saat Anda menyiapkan pengujian, perhatikan seperti elang. Amati bahwa setiap sasaran dan metrik yang Anda lacak sedang direkam. Jika beberapa metrik tidak mengirimkan data (misalnya menambahkan data klik ke keranjang), hentikan pengujian, temukan dan perbaiki masalah, dan mulai ulang dengan menyetel ulang data.
Namun tidak semua orang merasa nyaman untuk langsung terjun ke pengujian A/B dengan kedua kaki — terutama saat menggunakan perangkat lunak baru. Jadi, sebagai tindakan pencegahan tambahan, beberapa praktisi melakukan pengujian A/A untuk mengevaluasi alat mereka sebelum memulai pengujian A/B.
Jika eksperimen Anda disiapkan dengan benar, pada akhir pengujian A/A, kedua halaman akan muncul dengan rasio konversi yang serupa. Namun, seperti yang ditunjukkan oleh penguji berikut, itu tidak selalu terjadi.
Contoh pengujian A/A
Apakah positif palsu benar-benar umum? Bisakah satu halaman benar-benar mengungguli tiruannya? Orang-orang ini menggunakan pengujian A/A untuk mengetahui dan mengungkapkan temuan mereka di postingan blog berikut…
1. Home Page Split Test Mengungkapkan Kelemahan Utama Alat Tes Populer
Pada 11 November 2012, tim Copyhackers memulai tes split A/A di beranda mereka, seperti gambar di bawah: 
Pada tanggal 18 — 6 hari kemudian — alat pengujian mereka dinyatakan sebagai pemenang dengan kepercayaan 95%. Namun, demi akurasi, tim memutuskan untuk membiarkan tes berjalan satu hari lagi — di mana perangkat lunak mereka menyatakan pemenang pada tingkat kepercayaan 99,6%: 
Beranda mereka berkinerja hampir 24% lebih baik daripada halaman yang sama persis , dan hanya ada 0,4% kemungkinan hasilnya adalah positif palsu, menurut perangkat lunak. Namun, tim membiarkan tes berjalan selama sekitar tiga hari lagi, dan perbedaan akhirnya menjadi sama: 
Tapi bukan itu intinya. Intinya adalah: Alat pengujian menyatakan pemenang terlalu dini. Jika tim Copyhackers tidak menjalankannya, mereka akan salah berasumsi bahwa ada masalah dengan eksperimen mereka. Baca lebih lanjut tentang tes di sini.

2. Pengujian A/A: Bagaimana Saya Meningkatkan Konversi 300% dengan Tidak Melakukan Apa-apa
Judul sarkastik ini berasal dari penulis dan memproklamirkan diri sebagai "pengusaha yang ingin sembuh," David Kadavy, yang menjalankan sejumlah tes A/A selama 8 bulan pada 750.000 pelanggan email. Selama waktu itu, ia menghasilkan hasil yang signifikan secara statistik, seperti ini: 
Di antara hasil itu adalah:
- Peningkatan 9% dalam pembukaan email
- Peningkatan 300% dalam klik
- Tingkat berhenti berlangganan 51% lebih rendah
Dia berkata:
Bagi banyak wantrepreneurs (termasuk diri saya sebelumnya), ini terlihat seperti "oh wow, Anda meningkatkan pembukaan sebesar 10%!" Mereka bahkan mungkin memasukkannya ke dalam kalkulator signifikansi Visual Website Optimizer dan melihat bahwa p=.048. “Ini signifikan secara statistik!” mereka (atau saya) mungkin berseru.
Sebenarnya, ini semua adalah tes A/A. Konten yang diuji satu sama lain identik. Lihat lebih banyak hasil nya di sini.
Haruskah Anda menjalankan tes A/A?
Jawaban atas pertanyaan ini tergantung pada siapa Anda bertanya.
Neil Patel, yang terus melihat peningkatan konversi besar yang tidak sebanding dengan lebih banyak pendapatan, mengatakan, “Sangat penting bagi Anda untuk menjalankan pengujian A/A terlebih dahulu karena ini akan membantu memastikan bahwa Anda tidak membuang waktu dengan perangkat lunak yang tidak akurat.”
Di sisi lain, Peep Laja dari CXL mengatakan tes A/A itu sendiri hanya membuang-buang waktu. Jadi siapa yang benar?
Dua masalah utama dengan pengujian A/A
Dari sudut pandang teoretis, pengujian A/A sangat masuk akal. Di atas segalanya, akurasi adalah yang paling penting saat menjalankan pengujian A/B, dan pengujian pengujian Anda hanyalah salah satu dari banyak cara untuk memastikannya.
Namun, dalam lingkungan pengujian dunia nyata, pengujian A/A berpotensi lebih banyak merugikan daripada menguntungkan. Craig Sullivan menjelaskan:
Bagi saya, masalahnya selalu memakan lalu lintas dan waktu pengujian yang sebenarnya, dengan harus memuat waktu uji coba terlebih dahulu dengan periode pengujian A/A. Jika saya mencoba menjalankan 40 tes sebulan, ini akan melumpuhkan kemampuan saya untuk menayangkan sesuatu. Saya lebih suka melakukan pengujian QA setengah hari pada eksperimen daripada menjalankan pengujian A/A 2-4 minggu untuk memeriksanya.
Itu masalah satu. Pengujian A/A membutuhkan waktu nyata dan lalu lintas yang dapat Anda gunakan untuk mempelajari lebih lanjut tentang pengunjung situs web Anda dengan pengujian A/B.
Masalah kedua dicontohkan dalam studi kasus dari Copyhackers. Seperti pengujian A/B, pengujian A/A perlu dirancang dan dipantau dengan cermat, karena juga rentan terhadap hasil positif palsu.
Dengan kata lain, pengujian A/A Anda mungkin memberi tahu Anda bahwa satu halaman berperforma lebih baik daripada yang lain, padahal tidak (peluang itu jauh lebih tinggi daripada yang Anda pikirkan — sekitar 50%)
Jika tim di Copyhackers telah mendengarkan alat pengujian mereka dan menyatakan pemenang hanya dalam enam hari, mereka akan menghabiskan lebih banyak waktu untuk mencari tahu mengapa beranda mereka berkinerja lebih baik daripada kembarannya yang identik (ketika sebenarnya tidak) .
Manfaat utama dari pengujian A/A
Terlepas dari masalah ini, pengujian A/A berpotensi membantu Anda menangkap masalah yang lebih besar selama pengujian sebenarnya . Ketika hasil pengujian tersebut adalah yang menjadi dasar pengambilan keputusan bisnis yang penting, itu adalah manfaat yang kuat untuk dipertimbangkan.
Jika Anda memutuskan untuk melakukan pengujian A/A, ada cara yang berpotensi tidak terlalu boros untuk melakukannya, yang disebut pengujian A/A/B.
Pengujian A/A/B vs. Pengujian A/A
Metode tradisional pengujian A/A membuang lalu lintas karena tidak memberi tahu Anda apa pun tentang pengunjung Anda pada kesimpulannya. Tetapi, jika Anda menambahkan variasi "B" ke tes itu, itu bisa. Berikut perbedaan antara keduanya:
- Tes A/A = 2 halaman identik diuji satu sama lain
- Pengujian A/A/B = 2 halaman identik dan satu variasi diuji satu sama lain
Pengujian A/A/B membagi lalu lintas Anda menjadi tiga segmen, yang berarti perlu waktu lebih lama untuk mencapai signifikansi statistik. Tetapi keuntungannya adalah, setelah Anda melakukannya, Anda akan memiliki data tentang alat pengujian dan pengunjung Anda.
Bandingkan hasil A vs. A untuk menentukan apakah Anda dapat memercayai pengujian Anda. Jika secara statistik serupa, bandingkan hasil A vs. B. Jika tidak, Anda harus membuang hasil keseluruhan tes (yang membutuhkan waktu lebih lama daripada tes A/A tradisional untuk dijalankan karena lalu lintas Anda tersegmentasi dalam tiga cara).
Apakah manfaat pengujian A/A lebih besar daripada kerugiannya?
Beberapa ahli mengatakan "ya", sementara yang lain mengatakan "tidak". Andrew First dari Leadplum tampaknya berpikir jawabannya ada di antara:
Pengujian A/A mungkin tidak harus dilakukan setiap bulan, tetapi saat Anda menyiapkan alat baru, ada baiknya meluangkan waktu untuk menguji data Anda. Jika Anda mencegat data yang buruk sekarang, Anda akan lebih percaya diri dengan hasil pengujian Anda beberapa bulan ke depan.
Pada akhirnya, terserah Anda. Jika Anda menggunakan alat baru, mungkin bijaksana untuk mengikuti saran Andrew. Namun, jika tidak, mungkin yang terbaik adalah mengikuti jejak Craig Sullivan dan sebagai gantinya menyiapkan proses QA pra-tes yang ketat. Hemat waktu, sumber daya, dan lalu lintas Anda untuk pengujian A/B.
Dapatkan hasil maksimal dari upaya pengujian dan kampanye iklan digital Anda, daftar untuk demo Instapage Enterprise hari ini.
