Sementara Kami Menyimpulkan 2016, Mari Bicara Tentang Menyelesaikan Tes CRO

Diterbitkan: 2021-10-23

Sementara kami mendekati penutupan satu tahun lagi, dan sementara pertanyaan "Kapan tes ini bisa berakhir?" masih muncul dalam percakapan saya setidaknya sekali seminggu, saya merasa seolah-olah sudah waktunya untuk duduk dan menulis proses kesimpulan pengujian saya dan semua variabel yang menjadi faktor dalam keputusan ini.

Hari ini, saya akan menghangatkan Anda dengan dua tip yang perlu diingat ketika Anda mendekati keputusan kesimpulan dan kemudian saya akan menggulung ke dalam empat variabel yang saya lihat ketika mendekati keputusan ini. Singkirkan debu dari buku teks statistik yang sudah lama Anda kubur dan mari kita mulai.

Tip Kata Pengantar #1: Pastikan Data Anda Cantik dan Kuat

Sebelum Anda mengatur tes Anda, Anda harus sudah tahu apa tujuan Anda. Perhatikan bagaimana saya mengatakan "tujuan" di sana. Ya, kita semua tahu Anda harus memiliki konversi terpusat; satu hal besar yang Anda arahkan kepada pengguna Anda. Tetapi ada banyak interaksi lain dengan situs mana pun yang dapat kami lacak untuk mengamati apakah perubahan kami memengaruhi interaksi tersebut atau tidak. Lihat gambar di bawah untuk beberapa contoh.

tujuan-contoh

Sebelum Anda menganalisis data pengujian apa pun, periksa kembali apakah semua data Anda berada di lapangan bermain yang sama. Pastikan Anda telah mengambil data untuk setiap sasaran untuk rentang tanggal yang sama persis sehingga Anda dapat membandingkan titik data dengan tepat tanpa mencondongkan satu string data. Saat Anda berada di sini, pastikan juga bahwa semua data sasaran Anda terlihat "normal" dan Anda tidak mencurigai adanya sasaran yang salah sasaran atau sasaran mati yang tidak pernah melihat tindakan apa pun.

Tip Kata Pengantar #2: Jangan Pernah Menyimpulkan Variabel Tunggal

Membuat keputusan kesimpulan tidak dapat bergantung pada satu variabel saja. Pertimbangkan masing-masing dari keempat variabel ini dan jika mayoritas variabel saling melengkapi, maka Anda dapat menyimpulkan dengan percaya diri.

Jika semua variabel saling bertentangan, Anda bisa melihat banyak skenario yang beragam. Tetapi pada saat itu, jika Anda menyimpulkan, Anda bisa membuat keputusan yang tidak logis dengan konsekuensi yang mahal.

Masing-masing variabel ini dipengaruhi oleh atau mempengaruhi setidaknya salah satu variabel lainnya. Dengan demikian, data pelengkap mendukung dirinya sendiri sementara data yang kontradiktif memaksa Anda untuk menghubungkan titik-titik dengan jaringan kebohongan. Jangan lakukan itu!

Variabel #1: Ukuran Sampel

Ukuran sampel penting orang-orang. Ukuran sampel memungkinkan kami untuk dengan percaya diri menggeneralisasi perilaku berdasarkan populasi kami (pengguna total) dan margin kesalahan kami yang dapat diterima (signifikansi statistik 100-tujuan).

Ini benar-benar semua tentang proporsi tetapi jika Anda secara konsisten melihat situs yang sama dengan fluktuasi lalu lintas yang sangat sedikit maka Anda dapat menetapkan tujuan garis bawah untuk bekerja.

Seratus pengguna untuk setiap segmen pengujian adalah jumlah minimum yang benar. Bahkan di situs dengan lalu lintas rendah, sangat sulit untuk menggeneralisasi perilaku berdasarkan data beberapa pengguna. Jadi, semakin banyak semakin meriah. Ukuran sampel yang lebih tinggi juga membantu meniadakan kemiringan yang dapat kita lihat dari outlier.

Namun, di situs e-niaga yang agak besar yang menghasilkan setidaknya 1.000 pengguna per hari, tidak mungkin saya mempertimbangkan 100 dan ukuran sampel pengguna yang sesuai. Ini semua tentang proporsi dan apa volume pengguna yang khas untuk situs Anda secara teratur.

Variabel ini mencakup konversi serta pengguna untuk sasaran yang akan Anda perhitungkan. Bahkan jika Anda memiliki situs dengan konversi rendah, jika Anda membandingkan 0 konversi dengan 2 konversi, variasi dengan 2 konversi pasti akan menang murni karena itu adalah satu-satunya variasi yang secara teknis dikonversi.

Pastikan konversi Anda setidaknya dalam dua digit; dan jika itu adalah minimum Anda (dua digit), pastikan Anda memiliki tindakan pujian yang kuat di tiga variabel lainnya.

Atau, jika Anda tidak memiliki banyak pengalaman dengan ukuran sampel dalam pengaturan statistik, Anda dapat menggunakan kalkulator ukuran sampel yang praktis ini untuk menentukan ukuran sampel yang sesuai untuk Anda.

Variabel #2: Durasi Tes

Idealnya, saya menjalankan tes di mana saja dari 2-6 minggu.

Dua minggu adalah minimum yang solid karena Anda meniadakan kemungkinan variabel apa pun yang memiliki minggu "baik" atau "buruk" dan baik mengangkut lalu lintas yang bahagia atau mengusir lalu lintas dengan motivasi rendah. Enam minggu adalah waktu maksimum yang indah karena merupakan jaring temporal yang cukup lebar untuk menangkap fluktuasi yang dapat Anda lihat.

Namun, perhatikan bahwa menjalankan tes selamanya juga dapat merusak tes Anda. Faktor besar dalam hasil tes adalah respons pengguna terhadap rangsangan baru. Jadi, ketika kami pertama kali meluncurkan tes, kami cenderung melihat lompatan besar keluar dari gerbang di mana satu variasi kalah secara dramatis sementara yang lain meluncur dengan kemenangan beruntun. Seiring waktu kesenjangan besar antara variasi ini cenderung menjadi normal dan menutup karena "baru" telah memudar dan pengguna yang kembali tidak terpengaruh oleh perubahan baru seperti dulu. Jadi, semakin lama pengujian berjalan, semakin sedikit perubahan yang didapat dan semakin sedikit pengaruhnya terhadap perilaku bagi pengguna yang kembali tersebut.

hasil lonjakan awal

Variabel #3: Signifikansi Statistik

Sementara signifikansi statistik sangat penting dalam menyatakan "keyakinan" dalam kesimpulan Anda, itu juga bisa sangat menyesatkan.

Signifikansi statistik menentukan apakah perubahan dalam dua tingkat disebabkan oleh varians normal atau karena faktor luar. Jadi, secara teori, ketika kami mencapai signifikansi statistik yang kuat, kami tahu bahwa perubahan kami berdampak pada pengguna.

Idealnya, Anda ingin membidik signifikansi statistik sedekat mungkin dengan 100%. Semakin mendekati 100%, semakin kecil margin kesalahan Anda. Ini berarti bahwa hasil Anda dapat direproduksi secara lebih konsisten. Semakin tinggi signifikansi statistik Anda, semakin tinggi peluang Anda untuk mempertahankan peningkatan rasio konversi tersebut jika Anda menerapkan variasi pemenang. 95% adalah tujuan tinggi yang baik untuk dicapai. 90% adalah tempat yang baik untuk menetap. Lebih rendah dari 90% dan Anda berisiko dengan benar-benar dapat menyimpulkan dengan "percaya diri".

Ancaman di sini adalah bahwa ukuran sampel sangat penting. Anda dapat mencapai signifikansi statistik 98% dalam beberapa hari dan benar-benar hanya melihat total 16 pengguna yang jelas bukan ukuran sampel yang dapat dipercaya.

Signifikansi statistik juga dapat menangkap lonjakan besar dalam kinerja yang saya rujuk sebelumnya saat pengujian pertama kali diluncurkan. Tes memiliki setiap kemampuan flip-flopping dan kami juga tahu bahwa seiring waktu data menjadi normal. Dengan demikian, mengukur signifikansi statistik terlalu dini dapat memberikan gambaran yang sepenuhnya salah tentang bagaimana perubahan itu kemungkinan besar akan memengaruhi pengguna kami dalam jangka waktu yang lebih panjang.

Selain itu, tidak setiap tes akan mendapatkan signifikansi statistik. Beberapa perubahan yang Anda buat mungkin tidak cukup memengaruhi perilaku pengguna untuk dianggap lebih dari sekadar varians normal. Dan itu bagus! Itu berarti Anda perlu menguji perubahan yang lebih besar untuk menarik perhatian pengguna sedikit lebih banyak.

Variabel #4: Konsistensi Data

Yang ini keluar untuk semua tes flip-flopping di luar sana. Ada beberapa tes yang menolak untuk menormalkan dan menolak memberi Anda pemenang yang jelas. Mereka akan menghabiskan setiap hari menyajikan Anda dengan variasi yang berbeda sebagai pemenang dan mereka akan membuat Anda benar-benar gila.

flip-flopping-vs-konsistensi

Tetapi mereka ada dan itulah mengapa mencari arah data yang konsisten sangat penting. Apakah variasi yang Anda nyatakan sebagai pemenang selalu menjadi pemenang? Jika tidak, mengapa tidak selalu menjadi pemenang? Jika Anda tidak dapat dengan yakin menjawab pertanyaan “mengapa?” kemudian menerapkan pemenang bisa melukai keuntungan Anda jika Anda menerapkan variasi parade keliling sebagai pemenang.

Saya juga mengukur perbedaan antara rasio konversi kontrol dan rasio konversi variasi (alias "peningkatan" atau "penurunan"). Saya mencari metrik ini agar konsisten juga sehingga saya dapat memastikan tes keluar dari fase lonjakan awal.

Ini juga bermanfaat untuk menghitung signifikansi statistik secara berkala untuk melihat seberapa konsisten metrik ini disajikan juga.

Pikiran Akhir

Menyimpulkan semua jenis tes bukanlah lelucon dan penuh dengan tekanan. Jika Anda melakukan panggilan yang salah dan menerapkan sesuatu yang Anda "rasakan" adalah pemenangnya sementara data menggambarkan sebaliknya, keuntungan Anda dan pengguna Anda akan menderita.

Dekati kesimpulan dari setiap sudut pandang yang layak sehingga Anda dapat memastikan bahwa Anda memiliki kesimpulan yang benar-benar percaya diri yang didorong oleh data!