6 ตำนานการทดสอบ A/B: ตำนานเหล่านี้ยุ่งกับผลลัพธ์ของคุณอย่างไร

เผยแพร่แล้ว: 2016-10-13

การทดสอบ A/B เป็นเรื่องสนุก เป็นที่นิยม มันเริ่มง่ายขึ้นที่จะทำ

อย่างไรก็ตาม หากคุณทำการทดสอบ A/B ผิด คุณยังอาจเสียเวลาและทรัพยากรเป็นจำนวนมาก

แม้ว่าจะมีการทดสอบ A/B แพร่หลายมากขึ้น แต่ก็ยังมีความเชื่อผิดๆ มากมายเกี่ยวกับเรื่องนี้ ซึ่งบางเรื่องก็เป็นเรื่องธรรมดา เพื่อให้ได้คุณค่าจากเทคนิคใดๆ อย่างแท้จริง สิ่งสำคัญคือต้องทำความเข้าใจกับสิ่งที่เป็นอยู่ ซึ่งรวมถึงข้อจำกัดและการทำความเข้าใจว่าเทคนิคใดมีประสิทธิภาพ

6 ตำนานการทดสอบ A/B ที่คุณควรหยุดเชื่อในวันนี้

คลิกเพื่อทวีต

บทความนี้จะสรุปตำนานยอดนิยมที่ฉันเคยเห็นครั้งแล้วครั้งเล่าในบล็อกและโดยที่ปรึกษา

1. การทดสอบ A/B และการเพิ่มประสิทธิภาพเป็นสิ่งเดียวกัน

นี้อาจดูเหมือนจู้จี้จุกจิกเล็กน้อย แต่การทดสอบ A/B เองไม่ได้เพิ่มการแปลง บทความจำนวนมากพูดถึงผลของ "ทำการทดสอบ A/B เพื่อเพิ่ม Conversion" แต่สิ่งนี้ไม่ถูกต้องตามความหมาย

การทดสอบ A/B หรือที่เรียกว่า "การทดสอบควบคุมออนไลน์" เป็นวิธีการวิจัยสรุปที่บอกคุณด้วยข้อมูลที่แน่ชัดว่าการเปลี่ยนแปลงที่คุณทำกับอินเทอร์เฟซส่งผลต่อเมตริกหลักอย่างไร

หมายความว่าอย่างไรในแง่ที่ไม่ใช่วิชาการ? การทดสอบ A/B เป็น ส่วนหนึ่ง ของการเพิ่มประสิทธิภาพ แต่การเพิ่มประสิทธิภาพครอบคลุมเทคนิคที่กว้างกว่าแค่ด้านการทดสอบ

ตามที่ Justin Rondeau ผู้อำนวยการฝ่ายเพิ่มประสิทธิภาพของ Digital Marketer กล่าว "การเพิ่มประสิทธิภาพอัตรา Conversion เป็นกระบวนการที่ใช้การวิเคราะห์ข้อมูลและการวิจัยเพื่อปรับปรุงประสบการณ์ของลูกค้าและบีบ Conversion ส่วนใหญ่ออกจากเว็บไซต์ของคุณ"

การเพิ่มประสิทธิภาพเป็นเรื่องเกี่ยวกับการเรียนรู้ที่ผ่านการตรวจสอบแล้วจริงๆ คุณกำลังสร้างสมดุลให้กับปัญหาการสำรวจ/การหาประโยชน์ (สำรวจเพื่อค้นหาสิ่งที่ใช้ได้ผลและใช้ประโยชน์จากมันเพื่อผลกำไรเมื่อคุณทำ) ในขณะที่คุณแสวงหาเส้นทางที่เหมาะสมที่สุดเพื่อการเติบโตของผลกำไร

2. คุณควรทดสอบทุกอย่าง

ฉันกำลังอ่านฟอรัมเกี่ยวกับ CRO ที่มีคนถามเกี่ยวกับตัวเลือกคำเฉพาะในหัวข้อข่าว (ฉันคิดว่า "ยอดเยี่ยม" หรืออะไรสักอย่าง) และพวกเขาสงสัยว่ามีการใช้คำมากเกินไปหรือไม่

“ผู้เชี่ยวชาญ” พร้อมคำแนะนำ (ถอดความที่นี่) ที่คุณไม่มีทางรู้แน่ชัดจนกว่าคุณจะทดสอบทุกคำที่คล้ายกัน (“น่าดึงดูดใจ” “เหลือเชื่อ” “มหัศจรรย์” เป็นต้น)

นี่เป็นคำแนะนำที่งี่เง่าสำหรับ 99.95% ของผู้คน

ทุกคนเคยได้ยินเรื่องราวเกี่ยวกับวิธีที่ Google ทดสอบ 41 เฉดสีฟ้า ในทำนองเดียวกัน ค่อนข้างชัดเจนว่าไซต์เช่น Facebook หรือ Amazon ในทางทฤษฎีมีการเข้าชมเพื่อทำการทดสอบเช่นนี้

แต่ถ้าคุณเปิดไซต์อีคอมเมิร์ซขนาดเล็กถึงขนาดกลาง (หรือ SaaS หรืออะไรก็ตาม) แม้ว่าคุณจะเป็นส่วนหนึ่งของบริษัทขนาดใหญ่มาก การทดสอบเช่นนี้แทบจะเสียเวลา ทรัพยากร และปริมาณการใช้งานเกือบทุกครั้ง

ทำไมคุณอาจถาม? เพราะการจัดลำดับความสำคัญเป็นกุญแจสำคัญ

ทุกคนสามารถดูไซต์และดูสิ่งต่าง ๆ แบบสุ่มหลายสิบอย่างที่พวกเขา สามารถ เปลี่ยนแปลงได้หากต้องการ (ไม่ว่าจะได้รับแจ้งจากข้อมูลหรือไม่ก็ตาม) แต่ประสิทธิภาพในนั้นอยู่ที่ไหน?

อย่างดีที่สุด คุณกำลังเสียการเข้าชมไปกับสิ่งที่ไม่สำคัญ และคุณจะได้รับผลลัพธ์ที่สรุปไม่ได้อย่างสม่ำเสมอหากคุณทำเช่นนี้ (โชคดีที่ได้รับการสนับสนุนอย่างต่อเนื่องจากผู้มีส่วนได้ส่วนเสียหากเป็นกรณีนี้)

อย่างไรก็ตาม ไม่ว่าในกรณีใด คุณกำลังเผชิญกับค่าเสียโอกาสมหาศาล เนื่องจากคุณเสียเวลาและทรัพยากรไปกับสิ่งที่ไม่สำคัญ คุณจะถูกกีดกันไม่ให้ดำเนินการเปลี่ยนแปลงที่เปลี่ยนแปลงและปรับปรุงประสบการณ์ของผู้ใช้โดยพื้นฐาน สิ่งที่สร้างความแตกต่างอย่างแท้จริง (และทำเงินได้จริง)

3. ทุกคนควรทดสอบ A/B

การทดสอบ A/B มีประสิทธิภาพและมีประโยชน์อย่างเหลือเชื่อ ไม่มีใครจะ (ฉลาด) โต้แย้งกับสิ่งนั้น

แต่นั่นไม่ได้หมายความว่าทุกคนควรทำอย่างนั้น

พูดโดยคร่าว ถ้าคุณมีธุรกรรมน้อยกว่า 1,000 รายการ (การซื้อ การสมัคร โอกาสในการขาย ฯลฯ) ต่อเดือน — จะดีกว่าถ้าใช้ความพยายามในด้านอื่นๆ บางที คุณอาจหลีกเลี่ยงการทดสอบทำธุรกรรมประมาณ 500 รายการเป็นเวลาหลายเดือน แต่คุณจะต้องปรับปรุงครั้งใหญ่จึงจะเห็นผล

ธุรกิจขนาดเล็ก สตาร์ทอัพ และธุรกิจขนาดเล็กจำนวนมากยังไม่มีปริมาณธุรกรรมดังกล่าว (ตอนนี้)

คุณต้องคำนึงถึงค่าใช้จ่ายด้วย ทั้งหมดนี้ ไม่ใช่แค่ต้นทุนของซอฟต์แวร์เพิ่มประสิทธิภาพอย่าง Optimizely สิ่งที่ชอบ:

  • การวิจัยการแปลง คุณต้องคิดออกว่าจะทดสอบอะไร (ตามที่กล่าวไว้ข้างต้น)
  • การออกแบบการรักษา (การวางโครงลวด การสร้างต้นแบบ ฯลฯ)
  • การเข้ารหัสการทดสอบ
  • การทดสอบ QA

ตอนนี้ สมมติว่าคุณได้รับการเพิ่ม 8% และเป็นผู้ชนะที่ถูกต้อง คุณมี 125 โอกาสในการขายต่อสัปดาห์ และตอนนี้คุณมี 135 ต่อสัปดาห์ ROI อยู่ที่นั่นหรือไม่? บางที - ขึ้นอยู่กับมูลค่าลูกค้าเป้าหมายของคุณ แต่คุณต้องคำนึงถึงเวลา ทรัพยากร และที่สำคัญที่สุด ค่าเสียโอกาสจากการกระทำของคุณ

ดังนั้น เมื่อคุณคำนวณขนาดตัวอย่างที่ต้องการก่อนทำการทดสอบ ให้คำนวณตาม ROI ด้วย มูลค่าของการเพิ่ม X% เป็นดอลลาร์จริงจะเป็นเท่าใด

เวลาเป็นทรัพยากรที่มีค่า มันอาจจะดีกว่าการใช้ A/B เมื่อคุณยังเล็ก — เพราะวิชาคณิตศาสตร์

4. เปลี่ยนเพียงหนึ่งองค์ประกอบต่อการทดสอบ A/B

นี่อาจเป็นตำนานที่ผ่านไปได้บ่อยที่สุด เจตนาดี แต่มีข้อบกพร่อง

นี่คือคำแนะนำ: ทำการเปลี่ยนแปลงหนึ่งครั้งต่อการทดสอบเท่านั้น เพื่อให้คุณรู้ว่าอะไรสร้างความแตกต่างอย่างแท้จริง

ตัวอย่างเช่น หากคุณเปลี่ยนพาดหัว เพิ่มหลักฐานทางสังคม และเปลี่ยนข้อความและสีของคำกระตุ้นการตัดสินใจ และคุณได้รับเพิ่มขึ้น 25% คุณจะบอกได้อย่างไรว่าสาเหตุของการเปลี่ยนแปลงคืออะไร

มันเป็นความจริง; คุณไม่สามารถจริงๆ แต่ให้ฉันถามด้วย (และนี่เป็นการชี้ไปที่ไซต์ที่ไม่มีความหรูหราของไซต์ที่มีการเข้าชมสูงเป็นพิเศษ) คุณสนใจหรือไม่?

ในโลกอุดมคติ โดยเฉพาะอย่างยิ่ง สิ่งหนึ่งที่ประกอบด้วยการเปลี่ยนแปลงซ้ำๆ ที่สร้างขึ้นจากกันและกัน ใช่ การทดสอบทีละอย่างจะจำกัดเสียงรบกวนในการทดสอบ และช่วยให้คุณเข้าใจว่าอะไรทำให้เกิดการเปลี่ยนแปลงอย่างแท้จริง

นอกจากนี้ คุณต้องกำหนดหน่วยที่มีความหมายที่เล็กที่สุด (SMU) และนี่คือสิ่งที่ต้องจับใจ Matt Gershoff ซีอีโอของ Conductrics กล่าวไว้อย่างดีว่า:

“ในการใช้ตรรกะให้สุดโต่ง คุณอาจโต้แย้งว่าการเปลี่ยนพาดหัวเป็นการเปลี่ยนแปลงหลายอย่าง เนื่องจากคุณเปลี่ยนมากกว่าหนึ่งคำในแต่ละครั้ง

ดังนั้นมันขึ้นอยู่กับว่าคุณต้องการทำอะไร คุณสนใจเกี่ยวกับถ้อยคำของ CTA ของคุณหรือไม่และต้องการทราบจริงๆ ว่าทำให้เกิดการเปลี่ยนแปลงหรือไม่? คุณกำลังเปลี่ยนหน้าของคุณอย่างรุนแรงหรือไม่? เว็บไซต์ของคุณ?

SMU ขึ้นอยู่กับเป้าหมายของคุณ และเชื่อฉันเถอะว่าในโลกแห่งความเป็นจริง ไม่มีนักวิเคราะห์หรือผู้เชี่ยวชาญด้านการเพิ่มประสิทธิภาพคนใดตะโกนว่า "เปลี่ยนเพียงครั้งเดียวต่อการทดสอบ!"

ตามที่ Mr. Rondeau ชี้ให้เห็นในโพสต์นี้ คุณจะเปลี่ยนอะไรในไซต์นี้ (ภาพด้านล่าง – นี่เป็นเวอร์ชันเก่าของเว็บไซต์)

ภาพนี้แสดงให้เห็นว่าการทดสอบ A/B ของหน้าเว็บที่ออกแบบด้วยองค์ประกอบต่างๆ นั้นยากเพียงใด และไม่มีเป้าหมายการแปลงที่ชัดเจน

สมมติว่าไซต์นี้มีการเข้าชมเป็นจำนวนมาก และคุณสามารถเรียกใช้การทดสอบที่ถูกต้องได้แปดครั้งต่อเดือน หากคุณทำทีละองค์ประกอบ คุณจะเริ่มจากตรงไหน? การทดสอบภาพพื้นหลัง, สีแบบอักษร, ขนาดแบบอักษร, โลโก้ที่ด้านบน, ภาพขนาดย่อของการนำทาง, ตำแหน่ง, ขนาด, ลำดับ, สำเนา, สำเนาเนื้อหา, พนักงานขายที่เคลื่อนไหว ฯลฯ จะใช้เวลาตลอดไป

ประเด็นของฉันคือ อย่ากลัวที่จะรวมการเปลี่ยนแปลงหลายๆ อย่างไว้ในการทดสอบเดียวกัน

5. การทดสอบ A/B นั้นดีกว่า (หรือแย่กว่านั้น) มากกว่า Bandits/MVT/etc

คุณเห็นบทความปรากฏขึ้นเป็นครั้งคราวที่สนับสนุนว่าคุณควร "หลีกเลี่ยงตัวแปรหลายตัว (MVT)" เนื่องจากมีความซับซ้อนและไม่ก่อให้เกิดชัยชนะ หรือโจรไม่มีประสิทธิภาพเมื่อเทียบกับการทดสอบ A/B หรือว่ามากกว่า มีประสิทธิภาพ - หรืออะไรก็ตาม

กฎง่ายๆ ในชีวิตก็คือ หากคุณกำลังรับมือกับการแบ่งขั้ว สถานการณ์ นี้กับ สถานการณ์นั้น คุณอาจจะถูกกำหนดไว้แล้ว มันน่าจะเป็นการแบ่งขั้วเท็จ

ความจริงก็คือ การทดสอบ A/B จะดีกว่าในบางสถานการณ์ โดยที่ MVT เป็นตัวเลือกที่ดีที่สุดสำหรับกรณีอื่นๆ เช่นเดียวกับโจรและอัลกอริธึมที่ปรับเปลี่ยนได้

6. หยุดการทดสอบ A/B เมื่อถึงระดับความสำคัญ

แม้ว่าฉันจะไม่เข้าใจสถิติที่ละเอียดเกินไป (คุณสามารถอ่านทุกสิ่งที่คุณจำเป็นต้องรู้ในโพสต์นี้) การพูดว่า "หยุดที่นัยสำคัญทางสถิติ" นั้นผิด ส่วนใหญ่เกิดจากธรรมชาติของสภาพแวดล้อมออนไลน์

เป็นเรื่องน่าละอายที่ตำนานนี้แพร่หลาย และความรู้ทางสถิติในโลกการตลาดก็มีอยู่อย่างน่าประหลาดใจ

เป็นเรื่องปกติเช่นกันที่เครื่องมือทดสอบของคุณจะบอกคุณถึงความสำคัญเร็วเกินไป ดังนั้นอย่าเชื่อในนัยสำคัญ 95% นั้นทั้งหมด

ขั้นแรก คำนวณขนาดตัวอย่างและระยะเวลาการทดสอบของคุณล่วงหน้า จากนั้นทำการทดสอบเป็นเวลานาน นอกจากนี้ ให้ทดสอบทั้งสัปดาห์ (เริ่มในวันจันทร์หรือสิ้นสุดในวันจันทร์) และขอแนะนำให้ทำการทดสอบผ่านวงจรธุรกิจหลายรอบเพื่อพิจารณาข้อมูลที่ไม่คงที่ (ข้อมูลที่ไม่เหมือนเดิมเมื่อเวลาผ่านไป) ตัวอย่างเช่น การขายครั้งใหญ่ในหนึ่งสัปดาห์หรือการประชาสัมพันธ์ที่พุ่งสูงขึ้นอาจทำให้ข้อมูลของคุณหายไปได้ไม่น้อย แม้แต่วันที่แตกต่างกันก็มีอัตราการแปลงที่แตกต่างกันหลายครั้ง บางทีคุณอาจมีอัตราการแปลง 3% ในวันอังคาร แต่มีอัตราการแปลง 1.5% ในวันเสาร์ และบางทีความแตกต่างนั้นอาจทำให้การวิเคราะห์หลังการทดสอบของคุณลดลง

ดังนั้น ให้ทดสอบเป็นเวลาทั้งสัปดาห์เพื่อพิจารณาการขึ้นลงและกระแสเหล่านี้ ที่ CXL เราแนะนำให้ทำการทดสอบเป็นเวลา 3-4 สัปดาห์

จากนั้นพิจารณานัยสำคัญทางสถิติอย่างน้อย 95%

บทสรุป

การทดสอบ A/B มีประสิทธิภาพอย่างเหลือเชื่อ เป็นอุปสรรคสำคัญต่อการตัดสินใจโดยใช้อุทรและแสดงให้คุณเห็นว่าข้อมูลใดที่บอกว่าคุณควรทำแทน

การทดสอบ A/B ช่วยให้คุณมั่นใจได้ว่าหน้าหลังการคลิกใดทำให้เกิด Conversion มากที่สุด เรียนรู้วิธีจัดเตรียมโฆษณาส่วนบุคคลแบบ 1:1 สำหรับผู้ชมทุกรายที่คุณมีด้วยการสาธิตการตั้งค่าส่วนบุคคลของ Instapage วันนี้