5 ภัยคุกคามทั่วไปต่อความถูกต้องของการทดสอบ A/B ของคุณ
เผยแพร่แล้ว: 2016-11-17ข่าวร้าย: การแปลง 30% นั้นทำให้การทดสอบ A/B ล่าสุดของคุณเพิ่มขึ้นใช่หรือไม่ อาจไม่สูงอย่างที่คิด
ในความเป็นจริงมีโอกาสที่จะไม่มีอยู่เลย
“อย่างน้อย 80% ของการทดสอบที่ชนะนั้นไร้ค่าโดยสิ้นเชิง” Martin Goodson หัวหน้าฝ่ายวิจัยของ Qubit เขียนไว้ในสมุดปกขาวของบริษัท ลิฟต์ที่ปกติไม่ได้นำมาซึ่งลิฟต์ขนาดเล็กและยั่งยืน แทนที่จะเป็นลิฟต์ขนาดยักษ์ที่คุณเห็นว่าถูกเผยแพร่ไปทั่วเว็บ
เหตุใดซอฟต์แวร์ทดสอบ A/B ของคุณจึงบอกคุณเป็นอย่างอื่น
เนื่องจากไม่สามารถตรวจจับภัยคุกคามที่มองไม่เห็นจำนวนมากต่อความถูกต้องที่อาจเป็นอันตรายต่อข้อมูลของคุณ แนวคิดต่างๆ เช่น เอฟเฟกต์แปลกใหม่ การถดถอยของค่าเฉลี่ย เอฟเฟกต์เครื่องมือวัด และอื่นๆ ทั้งหมดสามารถทำให้คุณเห็นการเปลี่ยนแปลงครั้งใหญ่ในที่ที่ไม่มีเลย
ดังนั้น หากคุณกำลังตัดสินใจทางธุรกิจโดยพิจารณาจากการทดสอบ A/B เพียงเพราะมีนัยสำคัญทางสถิติ ให้หยุดเดี๋ยวนี้ คุณต้องมีนัยสำคัญทางสถิติก่อนจึงจะสามารถอนุมานตามผลลัพธ์ของคุณได้ แต่นั่นไม่ใช่ ทั้งหมดที่ คุณต้องการ คุณต้องทำการทดสอบที่ถูกต้องด้วย
คลิกเพื่อทวีต
ความแตกต่างระหว่างนัยสำคัญทางสถิติและความถูกต้อง
นัยสำคัญทางสถิติและความถูกต้องเป็นสองความจำเป็นที่แตกต่างกันมากแต่มีความสำคัญเท่าเทียมกันสำหรับการทำการทดสอบแยกที่ประสบความสำเร็จ
นัยสำคัญทางสถิติบ่งชี้ถึงระดับความเชื่อมั่น ความเป็นไปได้ที่ผลการทดสอบของคุณมีความน่าเชื่อถือและไม่ได้เกิดจากความบังเอิญ ในการบรรลุนัยสำคัญทางสถิติ คุณจำเป็นต้องรู้:
- อัตราการแปลงพื้นฐานของหน้าควบคุมของคุณ
- การเปลี่ยนแปลงขั้นต่ำของอัตราการแปลงที่คุณต้องการให้ตรวจจับได้
- มั่นใจแค่ไหนว่าผลลัพธ์ของคุณนั้นสำคัญและไม่ใช่เพราะโอกาส (ระดับความมั่นใจที่ยอมรับได้มาตรฐานคือ 95%)
- ขนาดตัวอย่างของคุณ หรือที่เรียกว่าปริมาณการเข้าชมที่คุณต้องสร้างก่อนที่คุณจะสามารถเข้าถึงนัยสำคัญทางสถิติได้ (ใช้เครื่องคำนวณนี้เพื่อคำนวณ)
ในทางกลับกัน ความถูกต้องนั้นเกี่ยวข้องกับปัจจัยอื่นๆ ที่อยู่นอกขนาดกลุ่มตัวอย่างที่มีผลกระทบต่อข้อมูลของคุณในทางลบหรือไม่
ทำไมคุณต้องรู้ทั้งสองอย่าง?
เพราะแม้แต่ 53% ของการทดสอบ A/A (การทดสอบหน้าเดียวกันเทียบกับการทดสอบหน้าเดียวกันกับที่ใช้ในการประเมินการตั้งค่าการทดสอบของคุณ) ก็จะมีนัยสำคัญถึง 95% ในบางจุด หากการทดสอบที่มีหน้าเหมือนกันสองหน้ามีนัยสำคัญทางสถิติ ½ เวลา คุณจะมั่นใจได้อย่างไรว่าผลการทดสอบ A/B ของคุณเชื่อถือได้
คุณทำไม่ได้ Peep Laja จาก CXL อธิบาย:
“หากคุณหยุดการทดสอบทันทีที่เห็นความสำคัญ มีโอกาส 50% ที่จะเกิดความบังเอิญโดยสมบูรณ์ โยนเหรียญ. ทำลายความคิดของการทดสอบโดยสิ้นเชิงตั้งแต่แรก”
แทนที่จะใช้นัยสำคัญทางสถิติเพียงอย่างเดียวในการตัดสินผู้ชนะการทดสอบแยก คุณต้องรวบรวมข้อมูลที่ถูกต้องให้มากที่สุด และในการทำเช่นนั้น คุณต้องเข้าใจว่าภัยคุกคามประเภทใดที่ขวางทางคุณ
ภัยคุกคามทั่วไปต่อความถูกต้องของการทดสอบ A/B
1. การถดถอยไปทางค่าเฉลี่ย
"ขนาดตัวอย่างเป็นสิ่งสำคัญในการทดสอบ A/B" Chase Dumont นักการตลาดดิจิทัลกล่าว ยิ่งคุณทดสอบคนมากเท่าไร ผลลัพธ์ของคุณก็จะยิ่งแม่นยำมากขึ้นเท่านั้น
บ่อยครั้งที่ผู้ทดสอบ A/B สิ้นสุดการทดสอบก่อนกำหนด พวกเขาตื่นเต้นเมื่อเห็นลิฟต์ขนาดใหญ่และประกาศผู้ชนะอย่างมั่นใจ แต่กรณีศึกษาได้แสดงให้เห็นว่าแม้ว่าการทดสอบจะมีนัยสำคัญทางสถิติถึง 95% หรือสูงกว่านั้น แม้ว่าการทดสอบจะดำเนินไปตลอดทั้งเดือนก็ตาม ผลลัพธ์ก็อาจหลอกลวงได้
ตัวอย่างเช่น Chase ซึ่งแยกการทดสอบหน้าการขายแบบยาวสองหน้าสำหรับหนึ่งในธุรกิจของเขา ในคำพูดของเขา:
ในตอนแรก เวอร์ชันดั้งเดิมมีประสิทธิภาพเหนือกว่าตัวแปร ฉันรู้สึกประหลาดใจกับสิ่งนี้เพราะฉันคิดว่าตัวแปรนั้นดีกว่าและเขียนและออกแบบให้กระชับยิ่งขึ้น
อันที่จริงตัวแปร นั้น ดีกว่าของจริงตามที่สัญชาตญาณของ Chase ระบุไว้ แต่หลังจาก การทดสอบ เพียง 6 เดือน ก็พบว่า เมื่อถึงเวลานั้น อัตราการแปลงของหน้าเดิมไม่เพียงแต่ถดถอยไปยังค่าเฉลี่ยเท่านั้น แต่ยังผ่านไปจนถึงจุดที่ตัวแปรทำได้ดีกว่า:

ดังนั้นเราหมายถึงอะไรโดย "ถดถอยสู่ค่าเฉลี่ย"?
ในเงื่อนไขการทดสอบ A/B หมายความว่ารูปแบบที่มี Conversion สูง (ในกรณีนี้คือหน้าเดิมที่แสดงโดยเส้นสีน้ำเงินบนกราฟ) เริ่มทำงานใกล้กับค่าเฉลี่ยที่คาดหวังมากขึ้นเนื่องจากมีการรวบรวมตัวอย่างมากขึ้น ในแง่ที่เข้าใจง่ายกว่านั้น เป็นอีกวิธีหนึ่งในการพูดว่า "สิ่งต่างๆ เกิดขึ้นได้เมื่อเวลาผ่านไป"
พิจารณาตัวอย่างจากโลกแห่งความเป็นจริง ในการแข่งขัน Martini International Tournament ปี 1971 จอห์น แอนโธนี่ ฮัดสัน นักกอล์ฟชาวอังกฤษกลายเป็นบุคคลเพียงคนเดียวที่ตีสองหลุมติดต่อกันในทัวร์นาเมนต์ระดับมืออาชีพ
ในสองหลุม พาร์ 4 และพาร์ 3 เขาตีรวมกันได้ 2-5 สโตรกดีกว่า 7 เฉลี่ยที่มืออาชีพส่วนใหญ่ใช้
หากเราดูเพียงสองหลุมนั้นเพื่อเปรียบเทียบผลงานของเขากับผู้เข้าร่วมการแข่งขันรายอื่น เราจะบอกว่า “ว้าว ฮัดสันดีกว่านักกอล์ฟคนอื่นๆ ในการแข่งขัน เขาจะต้องชนะอย่างแน่นอน”
และเขาคงจะทำได้ถ้าพวกเขาเรียกทัวร์นาเมนต์โดยพิจารณาจากสองหลุมนั้น
แต่โฮลอินวันนั้นหายาก และทัวร์นาเมนต์ก็อยู่ได้หลายหลุม ยิ่งฮัดสันเล่นมากเท่าไหร่ สกอร์ของเขาก็ยิ่งถดถอยเป็นค่าเฉลี่ย ในตอนท้ายของการแข่งขันเขาก็ผูกสำหรับสถานที่ที่ 9 ไม่มีที่ไหนเลยใกล้ชนะ
ในทำนองเดียวกัน ยิ่งคุณเก็บรวบรวมข้อมูลได้มากแม้หลังจากบรรลุนัยสำคัญทางสถิติแล้ว ผลลัพธ์ของคุณก็จะยิ่งแม่นยำมากขึ้นเท่านั้น
คุณสามารถให้คะแนนสองหลุมในหนึ่งเดียวโดยแปลงผู้เข้าชมสองคนแรกของรูปแบบหน้า Landing Page หลังการคลิกของคุณได้หรือไม่ อย่างแน่นอน. แต่นั่นหมายความว่าหน้าใหม่ของคุณจะแปลงเป็น 100% หรือไม่? ไม่มีทาง. ในบางจุด อัตราการแปลง 100% นั้นจะถอยกลับไปสู่ค่าเฉลี่ย
โปรดจำไว้ว่าลิฟท์แปลงขนาดใหญ่เช่นโฮลอินวันนั้นหายาก การทดสอบที่ประสบความสำเร็จส่วนใหญ่จะผลิตลิฟต์ที่มีขนาดเล็กลงและยั่งยืนแทน
2. เอฟเฟกต์แปลกใหม่
สมมติว่าคุณกำลังทดสอบรูปแบบหน้า Landing Page หลังการคลิกด้วยปุ่มสีส้มที่ใหญ่กว่า เมื่อหน้า Landing Page หลังการคลิกทั้งหมดของคุณมีรูปแบบสีเขียวขนาดเล็ก ในขั้นต้น คุณอาจพบว่าปุ่มสีส้มที่ใหญ่กว่านั้นทำให้เกิด Conversion มากกว่า แต่เหตุผลอาจไม่ได้เกิดจากการเปลี่ยนแปลง แต่สิ่งที่เรียกว่า "เอฟเฟกต์แปลกใหม่" แทน
เอฟเฟกต์แปลกใหม่จะเข้ามามีบทบาทเมื่อคุณทำการเปลี่ยนแปลงที่ผู้เยี่ยมชมทั่วไปของคุณไม่คุ้นเคย การเปลี่ยนแปลงของอัตราการแปลงเป็นผลมาจากการเปลี่ยนสีปุ่มหรือไม่? หรือเป็นเพราะพวกเขาสนใจความแปลกใหม่ของการเปลี่ยนแปลง? วิธีที่จะทราบได้คือการแบ่งกลุ่มการเข้าชมของคุณ
ผู้เข้าชมที่กลับมาจะคุ้นเคยกับการเห็นปุ่มสีเขียวขนาดเล็ก ดังนั้นปุ่มสีส้มขนาดใหญ่อาจดึงดูดความสนใจมากกว่าเพียงเพราะมันแตกต่างจากที่พวกเขาคุ้นเคย แต่ผู้เยี่ยมชมใหม่ไม่เคยเห็นปุ่มสีเขียวเล็กๆ ของคุณ ดังนั้นหากปุ่มนี้ดึงดูดความสนใจ ของพวกเขา ก็ไม่ใช่เพราะพวกเขาคุ้นเคยกับสิ่งที่แตกต่างออกไป ในกรณีนี้ มีแนวโน้มว่าปุ่มสีส้มที่ใหญ่กว่าจะดึงดูดความสนใจโดยรวมมากกว่า

เมื่อคุณทดสอบสิ่งที่แตกต่างไปจากที่ผู้ชมของคุณเคยเห็น ให้ลองเพิ่มการเข้าชมใหม่เข้าไปเพื่อให้แน่ใจว่าเอฟเฟกต์แปลกใหม่จะไม่ส่งผลต่อผลลัพธ์ของคุณ
3. เอฟเฟกต์เครื่องมือ
ภัยคุกคามต่อความถูกต้องที่พบบ่อยที่สุด เรียกว่า “เอฟเฟกต์เครื่องมือ (หรือเครื่องมือ)” เกี่ยวข้องกับเครื่องมือทดสอบของคุณ มันทำงานอย่างที่ควรจะเป็นหรือไม่? รหัสทั้งหมดของคุณมีการติดตั้งอย่างถูกต้องหรือไม่?
ไม่มีกลเม็ดใดที่จะเอาชนะสิ่งนี้ได้นอกจากความระแวดระวัง ทดสอบแคมเปญของคุณก่อนที่จะเผยแพร่โดยดูที่หน้า Landing Page และโฆษณาหลังการคลิกบนเบราว์เซอร์และอุปกรณ์ต่างๆ ป้อนข้อมูลลูกค้าเป้าหมายการทดสอบเพื่อให้แน่ใจว่าพิกเซลการแปลงของคุณเริ่มทำงานและ CRM ของคุณซิงค์กับแบบฟอร์มของคุณ
เมื่อมีการถ่ายทอดสด ให้จับตาดูทุกตัวชี้วัดอย่างใกล้ชิดและจับตาดูรายงานที่น่าสงสัย เครื่องมือของคุณอาจทำให้คุณล้มเหลว คุณอาจขับทราฟฟิกแย่ หรือคุณอาจตกเป็นเหยื่อของการคุกคามความถูกต้องครั้งต่อไป….
4. เอฟเฟกต์ประวัติศาสตร์
การทดสอบ A/B ของคุณไม่ได้ดำเนินการในห้องปฏิบัติการ มันกำลังทำงานอยู่ในโลกแห่งความเป็นจริง และด้วยเหตุนี้ มันจึงได้รับผลกระทบจากเหตุการณ์ในโลกแห่งความเป็นจริงที่อยู่นอกเหนือการควบคุมของคุณ สิ่งเหล่านี้อาจเป็นสิ่งต่างๆ เช่น วันหยุด สภาพอากาศ เซิร์ฟเวอร์ล่ม หรือแม้แต่วันที่และเวลา
จะเกิดอะไรขึ้นหากคุณกำลังทดสอบทราฟฟิกจาก Twitter และไซต์ออฟไลน์ จะเกิดอะไรขึ้นหากคุณทดสอบหน้า Landing Page หลังการคลิกสำหรับการขายปลีกที่นำไปสู่คริสต์มาส แล้วทำการทดสอบติดตามผลในเดือนกุมภาพันธ์
ข้อมูลของคุณจะเบ้
ใช้การทดสอบนี้จาก MarketingExperiments ซึ่งมีวัตถุประสงค์เพื่อเพิ่มประสิทธิภาพการคลิกผ่านของโฆษณาในหน้าผลลัพธ์ของเครื่องมือค้นหา ปลายทางคือเว็บไซต์ทะเบียนผู้กระทำความผิดทางเพศซึ่งอนุญาตให้ผู้เยี่ยมชมค้นหาผู้ล่าในพื้นที่ของตนได้
ในนั้น โฆษณาสี่รายการที่มีเนื้อหาเหมือนกัน แต่มีการทดสอบพาดหัวข่าวที่แตกต่างกัน

การทดสอบถูกเรียกหลังจาก 7 วันและการแสดงผล 55,000 ครั้ง และในแวบแรก ดูเหมือนว่าผู้ชนะจะชัดเจน แต่เมื่อตรวจสอบอย่างละเอียดถี่ถ้วนแล้ว ผู้ทดสอบก็สังเกตเห็นบางสิ่งที่ทำให้ข้อมูลของพวกเขาเสียหาย Dr. Flint McGlaughlin อธิบายเพิ่มเติมว่า:
“นี่คือปัญหา ในระหว่างการทดสอบ Dateline ได้ออกอากาศตอนพิเศษชื่อว่า 'To Catch a Predator' มีผู้ชมถึง 10 ล้านคน คำว่า นักล่า กลายเป็นคำสำคัญที่เกี่ยวข้องกับผู้กระทำความผิดทางเพศ เอาล่ะ กลับกันเถอะ
คุณเห็นว่าลูกของคุณปลอดภัย คุณเห็นผู้ล่าเด็ก ผู้ล่าในพื้นที่ของคุณ และทะเบียนผู้ล่าเด็ก แล้วดูในสำเนา ระบุผู้กระทำความผิดทางเพศ ระบุผู้กระทำความผิดทางเพศ เหมือนกันหมด ยกเว้นพาดหัว แต่เรามีสามพาดหัวข่าวเหล่านี้ที่มีคำว่า นักล่า อยู่ในนั้น ผลเป็นอย่างไร”

พาดหัวข่าวที่มีคำว่า "predator" มีอัตราการคลิกผ่านสูงกว่ารายการที่ไม่มีคำว่า "predator" ถึง 133% ทั้งหมดเป็นเพราะรายการทีวีพิเศษ
ในการต่อสู้กับผลกระทบของประวัติศาสตร์ ให้ใช้เครื่องมือตรวจสอบสื่อและทำให้แน่ใจว่าทุกคนในบริษัทของคุณรู้ว่าคุณกำลังทดสอบ ยิ่งคุณเข้าถึงโลกภายนอกสมาชิกในทีมมากเท่าไร ก็ยิ่งมีโอกาสที่คนคนหนึ่งจะสังเกตเห็นบางสิ่งที่อาจส่งผลต่อผลการทดสอบของคุณ
5. เอฟเฟกต์การเลือก
ผลการคัดเลือกเกิดขึ้นเมื่อผู้ทดลองทดสอบกลุ่มตัวอย่างที่ไม่ได้เป็นตัวแทนของผู้ชมเป้าหมาย
ตัวอย่างเช่น สมมติว่าเราต้องการหาทีมฟุตบอลอาชีพที่ได้รับความนิยมมากที่สุดในสหรัฐอเมริกา แต่เราถามเฉพาะผู้คนจากเขตนิวอิงแลนด์เท่านั้น เราน่าจะได้ยินการสนับสนุนอย่างล้นหลามสำหรับผู้รักชาติ ซึ่งไม่ได้เป็นตัวแทนของคนทั้งประเทศ
ในเงื่อนไขการทดสอบ A/B ผลการเลือกอาจส่งผลต่อการทดสอบของคุณเมื่อคุณสร้างการเข้าชมจากแหล่งที่มาต่างๆ เป็นสิ่งที่ Nick Usborne จาก MarketingExperiments พบเจอเมื่อทำงานกับผู้เผยแพร่ข่าวรายใหญ่:
“เราได้ออกแบบขั้นตอนข้อเสนอการสมัครรับข้อมูลใหม่สำหรับเวอร์ชันอิเล็กทรอนิกส์ และอยู่ระหว่างการทดสอบเมื่อพวกเขาเปิดตัวแคมเปญโฆษณาลิงก์ข้อความใหม่จากเว็บไซต์หลักไปยังผลิตภัณฑ์อิเล็กทรอนิกส์
สิ่งนี้เปลี่ยนการผสมผสานของการรับส่งข้อมูลที่มาถึงขั้นตอนข้อเสนอการสมัครรับข้อมูลจากที่ซึ่งการรับส่งข้อมูลเกือบทั้งหมดมาจากเครื่องมือค้นหาที่เสียค่าใช้จ่าย ไปเป็นการเข้าชมที่มาจากลิงก์ภายในไปยังเว็บไซต์ของตนมาก
อัตราการแปลงเฉลี่ยเพิ่มขึ้นในชั่วข้ามคืนจาก 0.26% เป็นมากกว่า 2% หากเราไม่ได้ติดตามอย่างใกล้ชิด เราอาจสรุปได้ว่ากระบวนการใหม่มีอัตราการแปลงเพิ่มขึ้น 600%+”
การจับตาดูลูกค้าของคุณเป็นสิ่งสำคัญ แต่สิ่งที่สำคัญพอๆ กันคือต้องแน่ใจว่าคุณกำลังออกแบบการทดสอบของคุณในแบบที่ไม่ทำให้เกิดความเสี่ยงต่อผลการเลือก รู้ว่าการเข้าชมของคุณมาจากที่ใด และอย่าเปลี่ยนแหล่งที่มาระหว่างการทดสอบ ตัวอย่างของคุณควรมีความสอดคล้องกันมากที่สุด
คุณจะสิ้นสุดการทดสอบ A/B ได้อย่างปลอดภัยเมื่อใด
หากคุณไม่สามารถเชื่อถือนัยสำคัญทางสถิติได้ และภัยคุกคามต่อความถูกต้องทั้งหมดเหล่านี้อาจทำให้ข้อมูลของคุณเสียหายได้ แล้ว… เมื่อใดที่คุณจะสิ้นสุดการทดสอบอย่างปลอดภัยและไว้วางใจในผลลัพธ์อย่างมั่นใจ
คำตอบที่โชคร้ายคือ คุณไม่สามารถแน่ใจได้เลยว่าผลลัพธ์ของคุณเชื่อถือได้ 100% อย่างไรก็ตาม คุณสามารถใช้ความระมัดระวังเพื่อให้แน่ใจว่าคุณได้อยู่ใกล้ที่สุด Peep Laja เครื่องมือเพิ่มประสิทธิภาพอัตรา Conversion พบว่าการปฏิบัติตามเกณฑ์ 4 ข้อนี้มักใช้ได้ผล:
- ระยะเวลาการทดสอบควรเป็นอย่างน้อย 3 สัปดาห์ 4 ถ้าเป็นไปได้
- ควรคำนวณขนาดตัวอย่างล่วงหน้าโดยใช้เครื่องมือหลายอย่าง
- Conversion ควรสูงถึง 250 ถึง 400 สำหรับแต่ละรูปแบบที่คุณกำลังทดสอบ
- นัยสำคัญทางสถิติควรเป็นอย่างน้อย 95%
เขากล่าวต่อไปว่า หากคุณไม่ถึง 250-400 Conversion ภายในเวลา 3 สัปดาห์ คุณควรทำการทดสอบต่อไปจนกว่าคุณจะทำ และหากจำเป็น คุณต้องทำการทดสอบในรอบสัปดาห์เต็ม หากคุณเริ่มการทดสอบในวันจันทร์ และมี Conversion ถึง 400 ครั้งใน 5 สัปดาห์ต่อมาในวันพุธ ให้ทำการทดสอบต่อไปจนกว่าจะถึงวันจันทร์ถัดไป (ไม่เช่นนั้น คุณอาจพบว่าตัวเองตกเป็นเหยื่อของผลกระทบจากประวัติศาสตร์)
อย่าลืมระวังภัยคุกคามด้านความถูกต้องด้านบน และให้ทุกคนในทีมของคุณ (และทีมของลูกค้าของคุณ) รู้ว่าคุณกำลังทดสอบ ยิ่งคุณแจ้งองค์กรของคุณมากเท่าไร โอกาสที่ผู้อื่นจะเปลี่ยนแปลงการทดสอบก็จะยิ่งน้อยลง (เอฟเฟกต์การเลือก) และยิ่งมีคนสังเกตเห็นเมื่อมีภัยคุกคามต่อความถูกต้อง เช่น เอฟเฟกต์เครื่องมือวัดหรือเอฟเฟกต์ประวัติ
คุณได้ปรับปรุงเว็บไซต์ของคุณด้วยการทดสอบ A/B อย่างไร
ใช้การทดสอบ A/B เพื่อเพิ่มประสิทธิภาพเว็บไซต์ของคุณและตรวจจับภัยคุกคามต่อความถูกต้อง เริ่มต้นด้วยการสร้างหน้าหลังการคลิก ขอตัวอย่าง Instapage Enterprise วันนี้
