ข้อผิดพลาด Type I และ Type II ในการทดสอบ A/B และวิธีหลีกเลี่ยง
เผยแพร่แล้ว: 2020-12-04การทดสอบ A/B เป็นการสุ่มแยกการเข้าชมที่เข้ามาบนเว็บไซต์ของคุณระหว่างรูปแบบต่างๆ ของหน้าเว็บหนึ่งๆ เพื่อวัดว่ารูปแบบใดส่งผลในเชิงบวกต่อเมตริกที่สำคัญของคุณ ค่อนข้างตรงไปตรงมาใช่ไหม ดีไม่มาก แม้ว่าการทดสอบ A/B อาจฟังดูง่าย แต่วิทยาศาสตร์และคณิตศาสตร์ที่อยู่เบื้องหลังการดำเนินการและการคำนวณผลลัพธ์นั้นค่อนข้างยุ่งยาก
สถิติเป็นรากฐานที่สำคัญของการทดสอบ A/B และการคำนวณความน่าจะเป็นเป็นพื้นฐานของสถิติ ดังนั้นคุณจึงไม่สามารถแน่ใจได้ 100% ว่าผลลัพธ์ที่ได้รับนั้นถูกต้องแม่นยำหรือลดความเสี่ยงลงเหลือ 0% คุณสามารถเพิ่มความเป็นไปได้ที่ผลการทดสอบจะเป็นจริงเท่านั้น แต่ในฐานะเจ้าของการทดสอบ คุณไม่จำเป็นต้องกังวลเรื่องนี้เพราะเครื่องมือของคุณควรดูแลเรื่องนี้
แม้หลังจากทำตามขั้นตอนที่จำเป็นทั้งหมดแล้ว รายงานผลการทดสอบของคุณก็อาจบิดเบือนจากข้อผิดพลาดที่เล็ดลอดเข้าสู่กระบวนการโดยไม่รู้ตัว ข้อผิดพลาดประเภทที่ 1 และประเภท II ที่รู้จักกันโดยทั่วไป สิ่งเหล่านี้นำไปสู่การสรุปการทดสอบที่ไม่ถูกต้อง และ/หรือการประกาศผู้ชนะและผู้แพ้ที่ผิดพลาด ซึ่งทำให้เกิดการตีความรายงานผลการทดสอบผิดพลาด ซึ่งทำให้โปรแกรมเพิ่มประสิทธิภาพทั้งหมดของคุณเข้าใจผิดในที่สุด และอาจทำให้คุณต้องเสีย Conversion และแม้แต่รายได้

มาดูกันดีกว่าว่าเราหมายถึงอะไรโดยข้อผิดพลาด Type I และ Type II, ผลที่ตามมา และวิธีที่คุณสามารถหลีกเลี่ยงได้
ข้อผิดพลาดใดบ้างที่เล็ดลอดเข้ามาในผลการทดสอบ A/B ของคุณ
ข้อผิดพลาดประเภทที่ 1
หรือที่เรียกว่าข้อผิดพลาดอัลฟ่า (α) หรือผลบวกลวง ในกรณีของข้อผิดพลาดประเภทที่ 1 การทดสอบของคุณดูเหมือนจะประสบความสำเร็จ และการเปลี่ยนแปลงของคุณดูเหมือนว่าจะส่งผลกระทบ (ดีขึ้นหรือแย่ลง) ต่อเป้าหมายที่กำหนดไว้สำหรับการทดสอบ อย่างไรก็ตาม การเพิ่มขึ้นหรือลดลงนั้น แท้จริงแล้วเป็นเพียงชั่วคราวและจะไม่คงอยู่เมื่อคุณปรับใช้เวอร์ชันที่ชนะในระดับสากลและวัดผลกระทบในช่วงเวลาที่สำคัญ มันเกิดขึ้นเมื่อคุณสรุปการทดสอบของคุณก่อนที่จะถึงนัยสำคัญทางสถิติหรือเกณฑ์ที่กำหนดไว้ล่วงหน้า และรีบเร่งในการปฏิเสธสมมติฐานว่างของคุณและยอมรับรูปแบบที่ชนะ สมมติฐานว่างระบุว่าการเปลี่ยนแปลงดังกล่าวจะ ไม่มี ผลกระทบต่อตัวชี้วัด/เป้าหมายที่กำหนด และในกรณีของข้อผิดพลาดประเภทที่ 1 สมมติฐานว่างเป็นจริงแต่ถูกปฏิเสธเนื่องจากข้อสรุปที่ไม่เหมาะสมของการทดสอบหรือการคำนวณเกณฑ์สำหรับข้อสรุปที่ผิดพลาด
ความน่าจะเป็นที่จะเกิดข้อผิดพลาดประเภทที่ 1 จะแสดงด้วย 'α' และสัมพันธ์กับระดับความเชื่อมั่น ซึ่งคุณตัดสินใจสรุปการทดสอบของคุณ ซึ่งหมายความว่าหากคุณสรุปการทดสอบที่ระดับความเชื่อมั่น 95% แสดงว่าคุณยอมรับว่ามีความเป็นไปได้ 5% ที่จะได้ผลลัพธ์ที่ไม่ถูกต้อง ในทำนองเดียวกัน หากระดับความเชื่อมั่นนั้นอยู่ที่ 99% ความน่าจะเป็นที่ผลการทดสอบจะผิดพลาดคือ 1% คุณสามารถเรียกมันว่าโชคร้ายอย่างแท้จริง แต่ถ้าคุณพบข้อผิดพลาด α แม้หลังจากสรุปการทดสอบของคุณที่ระดับความเชื่อมั่น 95% หมายความว่ามีเหตุการณ์ที่มีโอกาสเกิดขึ้นเพียง 5%
สมมติว่า คุณตั้งสมมติฐานว่าการเปลี่ยน CTA ของหน้า Landing Page ไปที่ครึ่งหน้าบนจะทำให้จำนวนการสมัครเพิ่มขึ้น สมมติฐานว่างในที่นี้คือ จะไม่มีการเปลี่ยนแปลงตำแหน่งของ CTA ต่อจำนวนการลงชื่อสมัครใช้ที่ได้รับ เมื่อการทดสอบเริ่มต้นขึ้น คุณจะถูกล่อลวงให้มองดูผลลัพธ์และสังเกตเห็นการลงชื่อสมัครใช้ที่เพิ่มขึ้นอย่างมากถึง 45% ที่เกิดจากรูปแบบต่างๆ ภายในหนึ่งสัปดาห์ คุณมั่นใจแล้วว่าความเปรียบต่างดีขึ้นมาก และจบลงด้วยการสรุปการทดสอบ ปฏิเสธสมมติฐานว่าง และปรับใช้การเปลี่ยนแปลงในระดับสากล—เพียงเพื่อสังเกตว่าไม่มีผลกระทบที่คล้ายคลึงกันอีกต่อไปแต่กลับไม่ส่งผลกระทบเลย คำอธิบายเดียวคือรายงานผลการทดสอบของคุณบิดเบือนจากข้อผิดพลาด Type I
วิธีหลีกเลี่ยงข้อผิดพลาดประเภทที่ 1
แม้ว่าคุณจะไม่สามารถหลีกเลี่ยงข้อผิดพลาด Type I ได้อย่างสมบูรณ์ แต่คุณสามารถลดข้อผิดพลาดนี้ได้อย่างแน่นอน สำหรับเรื่องนั้น ตรวจสอบให้แน่ใจว่าคุณสรุปการทดสอบของคุณก็ต่อเมื่อพวกเขามีระดับความมั่นใจสูงเพียงพอแล้ว ระดับความมั่นใจ 95% ถือเป็นอุดมคติ และนั่นคือสิ่งที่คุณต้องตั้งเป้าเพื่อให้บรรลุ แม้หลังจากถึงระดับความเชื่อมั่น 95% แล้ว ผลการทดสอบของคุณอาจได้รับการเปลี่ยนแปลงโดยข้อผิดพลาด Type I (ตามที่กล่าวไว้ข้างต้น) ดังนั้น คุณยังต้องแน่ใจว่าคุณทำการทดสอบของคุณนานพอที่จะรับประกันได้ว่ามีการทดสอบขนาดตัวอย่างที่ดีแล้ว ซึ่งจะเป็นการเพิ่มความน่าเชื่อถือของผลการทดสอบของคุณ
คุณสามารถใช้เครื่องคำนวณระยะเวลาการทดสอบ A/B ของ VWO เพื่อกำหนดช่วงเวลาในอุดมคติที่คุณต้องทำการทดสอบโดยเฉพาะ ในทำนองเดียวกัน คุณยังสามารถคำนวณขนาดตัวอย่างในการทดสอบ A/B เพื่อให้แน่ใจว่าคุณสรุปการทดสอบได้ก็ต่อเมื่อคุณมีโอกาสน้อยที่สุดที่จะได้ผลลัพธ์ที่มีการปลอมปน
SmartStats เอ็นจิ้นสถิติที่ขับเคลื่อนด้วยแบบจำลอง Bayesian ของ VWO ช่วยให้คุณลดความน่าจะเป็นที่จะพบข้อผิดพลาดประเภท 1

ข้อผิดพลาดประเภท II
ยังเป็นที่รู้จักกันในนามข้อผิดพลาดเบต้า (β) หรือผลลบลวง ในกรณีของข้อผิดพลาดประเภท II การทดสอบเฉพาะดูเหมือนจะไม่สามารถสรุปผลได้หรือไม่ประสบความสำเร็จ โดยสมมติฐานว่างดูเหมือนจะเป็นจริง ในความเป็นจริง ความแปรผันส่งผลต่อเป้าหมายที่ต้องการ แต่ผลลัพธ์ไม่ปรากฏ และหลักฐานสนับสนุนสมมติฐานว่าง ดังนั้น คุณจึงลงเอย (อย่างไม่ถูกต้อง) ยอมรับสมมติฐานว่างและปฏิเสธสมมติฐานและการเปลี่ยนแปลงของคุณ
ข้อผิดพลาดประเภทที่ 2 มักจะนำไปสู่การละทิ้งและหมดกำลังใจในการทดสอบ แต่ในกรณีที่เลวร้ายที่สุด การขาดแรงจูงใจในการดำเนินการตามแผนงาน CRO เนื่องจากคนเรามักจะเพิกเฉยต่อความพยายามดังกล่าว โดยถือว่าไม่ส่งผลกระทบใดๆ

'β' หมายถึงความน่าจะเป็นที่จะเกิดข้อผิดพลาดประเภท II ความน่าจะเป็นที่จะไม่เกิดข้อผิดพลาดประเภท II นั้นแสดงด้วย 1 – β ขึ้นอยู่กับกำลังทางสถิติของการทดสอบ ยิ่งพลังทางสถิติของการทดสอบของคุณสูงเท่าใด โอกาสที่จะพบข้อผิดพลาด Type II ก็จะยิ่งต่ำลง หากคุณกำลังทำการทดสอบที่อำนาจทางสถิติ 90% มีโอกาสเพียง 10% ที่คุณอาจจบลงด้วยผลลบลวง
พลังทางสถิติของการทดสอบขึ้นอยู่กับเกณฑ์นัยสำคัญทางสถิติ ขนาดกลุ่มตัวอย่าง ขนาดผลกระทบขั้นต่ำที่น่าสนใจ และแม้แต่จำนวนของรูปแบบการทดสอบ
มีความสัมพันธ์กันดังนี้

สมมติว่าคุณตั้งสมมติฐานว่าการเพิ่มป้ายความปลอดภัยในหน้าการชำระเงินของคุณจะช่วยลดเปอร์เซ็นต์การถอนออกในขั้นตอนนั้นได้ คุณสร้างรูปแบบต่างๆ ของหน้าการชำระเงินด้วยป้ายความปลอดภัยและทำการทดสอบ เพียงเพื่อดูผลลัพธ์ 10 วันหลังจากเริ่มดำเนินการ เมื่อสังเกตเห็นว่าไม่มีการเปลี่ยนแปลงในจำนวนการแปลงหรือการถอน คุณตัดสินใจที่จะสรุปการทดสอบและประกาศสมมติฐานว่างให้เป็นจริง ไม่มั่นใจในผลการทดสอบ คุณจึงตัดสินใจเรียกใช้การทดสอบอีกครั้ง—เฉพาะครั้งนี้เท่านั้นที่คุณปล่อยให้การทดสอบทำงานนานขึ้น ดังนั้น คุณสังเกตเห็นการปรับปรุงที่สำคัญในเป้าหมายการแปลงของคุณในครั้งนี้ สิ่งที่เกิดขึ้นในครั้งแรกคือคุณพบข้อผิดพลาด Type II โดยสรุปการทดสอบก่อนเวลาที่กำหนด
วิธีหลีกเลี่ยงข้อผิดพลาดประเภท II
ด้วยการปรับปรุงพลังทางสถิติของการทดสอบของคุณ คุณสามารถหลีกเลี่ยงข้อผิดพลาด Type II ได้ คุณสามารถทำได้โดยเพิ่มขนาดตัวอย่างของคุณและลดจำนวนตัวแปร ที่น่าสนใจคือ การปรับปรุงอำนาจทางสถิติเพื่อลดความน่าจะเป็นของข้อผิดพลาดประเภท II สามารถทำได้โดยการลดเกณฑ์นัยสำคัญทางสถิติ แต่ในทางกลับกัน ความน่าจะเป็นของข้อผิดพลาดประเภทที่ 1 กลับเพิ่มขึ้น อย่างไรก็ตาม เนื่องจากการลดความน่าจะเป็นของข้อผิดพลาดประเภทที่ 1 มักจะมีความสำคัญมากกว่าการหลีกเลี่ยงข้อผิดพลาดประเภท II (เนื่องจากผลที่ตามมาอาจรุนแรงกว่า) จึงไม่แนะนำให้เข้าไปยุ่งเกี่ยวกับเกณฑ์ที่มีนัยสำคัญทางสถิติเพื่อประโยชน์ในการปรับปรุงกำลัง

VWO SmartStats – วิธีการตัดสินใจทางธุรกิจแบบเบย์ที่ฉลาดกว่า
ในฐานะเจ้าของการทดสอบ ตามหลักการแล้ว สถิติไม่ใช่สิ่งที่คุณควรมุ่งเน้น เนื่องจากภารกิจของคุณไม่ใช่การค้นหาความจริงจากการทดลองของคุณ แรงจูงใจของคุณคือการตัดสินใจทางธุรกิจที่ดีขึ้นซึ่งจะสร้างรายได้ให้คุณมากขึ้น ดังนั้น สิ่งสำคัญคือการทำงานกับเครื่องมือที่ช่วยให้คุณตัดสินใจได้ดีขึ้นและฉลาดขึ้น โดยที่คุณไม่ต้องเข้าไปดูรายละเอียดของสถิติ
ตามแบบจำลอง Frequentist ของสถิติอนุมาน ข้อสรุปของการทดสอบขึ้นอยู่กับการบรรลุถึงนัยสำคัญทางสถิติทั้งหมด หากคุณสิ้นสุดการทดสอบก่อนที่จะถึงนัยสำคัญทางสถิติ คุณมักจะจบลงด้วยผลบวกที่ผิดพลาด (ข้อผิดพลาด Type I)
SmartStats เอ็นจิ้นสถิติที่ขับเคลื่อนด้วยแบบจำลอง Bayesian ของ VWO คำนวณความน่าจะเป็นที่รูปแบบนี้จะเอาชนะการควบคุมรวมถึงการสูญเสียที่อาจเกิดขึ้นจากการปรับใช้ VWO จะแสดงให้คุณเห็นถึงความสูญเสียที่อาจเกิดขึ้นจากการปรับใช้รูปแบบ เพื่อให้คุณสามารถเลือกได้อย่างมีข้อมูล
การสูญเสียที่อาจเกิดขึ้นนี้ยังช่วยในการตัดสินใจว่าจะสรุปการทดสอบเฉพาะเมื่อใด หลังจากสิ้นสุดการทดสอบ รูปแบบต่างๆ จะประกาศเป็นผู้ชนะก็ต่อเมื่อความสูญเสียที่อาจเกิดขึ้นของรูปแบบแปรผันนั้นต่ำกว่าเกณฑ์ที่กำหนด เกณฑ์นี้กำหนดโดยคำนึงถึงอัตราการแปลงของเวอร์ชันควบคุม จำนวนผู้เข้าชมที่เป็นส่วนหนึ่งของการทดสอบ และมูลค่าคงที่
VWO SmartStats ไม่เพียงแต่ลดเวลาการทดสอบของคุณลง 50% เนื่องจากคุณไม่ต้องอาศัยเวลาที่กำหนดและขนาดกลุ่มตัวอย่างเพื่อสรุปการทดสอบของคุณ แต่ยังช่วยให้คุณควบคุมการทดสอบได้มากขึ้นอีกด้วย มันให้ความน่าจะเป็นที่ชัดเจนแก่คุณ ซึ่งช่วยให้คุณตัดสินใจตามประเภทของการทดสอบที่คุณกำลังดำเนินการ ตัวอย่างเช่น หากคุณกำลังทดสอบการเปลี่ยนแปลงที่มีผลกระทบต่ำ เช่น การเปลี่ยนสีปุ่ม บางทีความน่าจะเป็น 90% ก็เพียงพอแล้วที่จะเรียกรูปแบบต่างๆ ว่าเป็นผู้ชนะ หรือหากคุณกำลังทดสอบบางอย่างในขั้นตอนสุดท้ายของช่องทาง คุณอาจต้องรอจนกว่าความน่าจะเป็น 99% ดังนั้น คุณอยู่ในฐานะที่จะเพิ่มความเร็วการทดสอบได้โดยการสรุปการทดสอบแรงกระแทกต่ำให้เร็วขึ้น และจัดลำดับความสำคัญของการทดสอบที่มีแรงกระแทกสูงในแผนงานของคุณ
โมเดลสถิติแบบอิงตามความถี่จะทำให้คุณมีโอกาสเห็นความแตกต่างในรูปแบบต่างๆ โดยสมมติว่าเป็นการทดสอบ A/A อย่างไรก็ตาม วิธีการนี้ถือว่าคุณกำลังทำการทดสอบคำนวณหลังจากที่คุณได้ขนาดตัวอย่างเพียงพอแล้วเท่านั้น VWO SmartStats ไม่ได้ตั้งสมมติฐานใดๆ แต่ให้อำนาจคุณในการตัดสินใจทางธุรกิจที่ชาญฉลาดยิ่งขึ้นโดยลดความน่าจะเป็นที่จะเกิดข้อผิดพลาดประเภท I และ Type II เนื่องจากจะประมาณความน่าจะเป็นของรูปแบบที่เปลี่ยนแปลงเหนือการควบคุม โดยเทียบกับการสูญเสียที่อาจเกิดขึ้นที่เกี่ยวข้อง ซึ่งช่วยให้คุณตรวจสอบเมตริกเหล่านี้ได้อย่างต่อเนื่องในขณะที่การทดสอบกำลังทำงาน
เนื่องจากการตั้งเป้าเพื่อความแน่นอนอย่างแท้จริงนั้นยากมากสำหรับสถิติ คุณจึงไม่สามารถขจัดความเป็นไปได้ที่ผลการทดสอบของคุณจะไม่เบี้ยวเนื่องจากข้อผิดพลาด อย่างไรก็ตาม ด้วยการเลือกเครื่องมือที่มีประสิทธิภาพ เช่น VWO คุณสามารถลดโอกาสในการเกิดข้อผิดพลาดหรือลดความเสี่ยงที่เกี่ยวข้องกับข้อผิดพลาดเหล่านี้ให้อยู่ในระดับที่ยอมรับได้ เพื่อให้เข้าใจมากขึ้นว่า VWO สามารถป้องกันไม่ให้คุณตกเป็นเหยื่อของข้อผิดพลาดดังกล่าวได้อย่างไร ให้ลองใช้รุ่นทดลองใช้ฟรีของ VWO หรือขอการสาธิตโดยผู้เชี่ยวชาญด้านการเพิ่มประสิทธิภาพของเรา

