ปัจจัยการจัดอันดับอัลกอริทึมของ Twitter: คำแนะนำขั้นสุดท้าย
เผยแพร่แล้ว: 2022-07-01สิทธิบัตรของ Twitter และสิ่งพิมพ์อื่น ๆ เผยให้เห็นแง่มุมที่น่าจะเป็นของการโปรโมตทวีตในฟีดไทม์ไลน์ของผู้ใช้
ปัจจัยการจัดอันดับไทม์ไลน์ของ Twitter บางอย่างนั้นน่าประหลาดใจมาก และการปรับวิธีการทวีตของคุณอาจช่วยให้คุณมองเห็นทวีตของคุณมากขึ้น
จากสิทธิบัตรหลักจำนวนหนึ่งและแหล่งข้อมูลอื่นๆ ฉันได้สรุปปัจจัยการจัดอันดับที่น่าจะเป็นไปได้สำหรับอัลกอริทึมของ Twitter ในที่นี้
ไทม์ไลน์ของทวิตเตอร์
Twitter เริ่มใช้ไทม์ไลน์ตามอัลกอริทึมครั้งแรกในปี 2559 เมื่อเปลี่ยนจากสิ่งที่เป็นฟีดตามลำดับเวลาของทวีตจากบัญชีทั้งหมดที่ติดตาม การเปลี่ยนแปลงนี้จัดอันดับไทม์ไลน์ของผู้ใช้เพื่อให้พวกเขาเห็น “ทวีตที่ดีที่สุดก่อน” ตั้งแต่นั้นมา Twitter ได้ทดลองกับรูปแบบต่างๆ จนถึงปัจจุบัน
อัลกอริทึมที่ใช้ฟีดสำหรับโซเชียลมีเดียไม่ใช่เรื่องแปลก Facebook และแพลตฟอร์มโซเชียลมีเดียอื่น ๆ ก็ทำเช่นเดียวกัน
สาเหตุของการเปลี่ยนแปลงนี้กับไทม์ไลน์ทวีตแบบผสมอัลกอรึทึมนั้นค่อนข้างชัดเจน ไทม์ไลน์ที่เป็นส่วนตัวและเรียงตามลำดับเวลาซึ่งประกอบด้วยบัญชีที่ติดตามเท่านั้นนั้นไม่มีข้อมูลและดังนั้นจึงมีข้อจำกัด ในขณะที่การแนะนำโพสต์จากบัญชีที่นอกเหนือไปจากการเชื่อมต่อโดยตรงนั้นมีโอกาสที่จะเพิ่มเวลาที่ใช้บนแพลตฟอร์ม ซึ่งจะเพิ่มความเหนียวโดยรวม ซึ่งจะช่วยเพิ่มมูลค่าของบริการให้กับผู้โฆษณาและพันธมิตรด้านข้อมูล
การจัดหมวดหมู่ความสนใจต่างๆ ของผู้ใช้และหัวข้อความสนใจที่เกี่ยวข้องกับบัญชีและทวีตของพวกเขา ยังช่วยให้สามารถกำหนดเป้าหมายโฆษณาตามกลุ่มประชากรของผู้ใช้และหัวข้อเนื้อหาได้อีกด้วย
ผู้ใช้ที่มีอำนาจของ Twitter อาจพัฒนาสัญชาตญาณบางอย่างเกี่ยวกับปัจจัยต่างๆ ของทวีต ซึ่งอาจส่งผลให้มีการมองเห็นที่ดีขึ้นภายในอัลกอริธึม
คำเตือนเกี่ยวกับสิทธิบัตร
บริษัทจดทะเบียนสิทธิบัตรตลอดเวลาสำหรับสิ่งประดิษฐ์ที่ไม่ได้ใช้งานจริงในการให้บริการ เมื่อฉันทำงานที่ Verizon ฉันเองได้เขียนร่างสิทธิบัตรจำนวนหนึ่งสำหรับการประดิษฐ์ต่างๆ ที่เพื่อนร่วมงานของฉันและฉันพัฒนาขึ้นในระหว่างการทำงานของเรา ซึ่งรวมถึงสิ่งที่เราไม่ได้ใช้ในการผลิตด้วย
ดังนั้น ความจริงที่ว่า Twitter มีสิทธิบัตรที่กล่าวถึงแนวคิดว่าสิ่งต่างๆ จะทำงาน ได้อย่างไร ไม่ได้รับประกันว่าสิ่งต่างๆ จะ เป็นไปตามนั้น
นอกจากนี้ สิทธิบัตรโดยปกติประกอบด้วยหลายรูปลักษณ์ ซึ่งโดยพื้นฐานแล้ววิธีการต่างๆ ที่การประดิษฐ์สามารถนำไปใช้ได้ - สิทธิบัตรพยายามอธิบายองค์ประกอบหลักของการประดิษฐ์ให้กว้างที่สุดเท่าที่จะเป็นไปได้เพื่ออ้างสิทธิ์การใช้งานที่เป็นไปได้ใดๆ ที่อาจมาจากการประดิษฐ์นั้น
สุดท้าย เช่นเดียวกับสิทธิบัตรอัลกอริธึม PageRank ที่มีชื่อเสียงซึ่งเป็นรากฐานของเครื่องมือค้นหาของ Google ในกรณีที่ Twitter ใช้รูปลักษณ์จากสิทธิบัตรของตน มีความเป็นไปได้สูงที่พวกเขาได้เปลี่ยนแปลงและปรับปรุงสิ่งประดิษฐ์ที่เรียบง่ายและกว้างขวางที่อธิบายไว้ และจะทำต่อไป
แม้จะมีความคลุมเครือและความไม่แน่นอนทั่วไปทั้งหมดนี้ ฉันพบแนวคิดที่น่าสนใจจำนวนมากในคำอธิบายสิทธิบัตรของ Twitter ซึ่งส่วนใหญ่มีแนวโน้มสูงที่จะรวมอยู่ในระบบของพวกเขา
ทวิตเตอร์และการเรียนรู้เชิงลึก
ข้อแม้เพิ่มเติมประการหนึ่งก่อนที่ฉันจะดำเนินการต่อคือวิธีที่อัลกอริธึมไทม์ไลน์ของ Twitter ได้รวม Deep Learning ไว้ใน DNA ของมัน ควบคู่ไปกับการควบคุมดูแลในระดับต่างๆ ของมนุษย์ ทำให้เป็นสัตว์ที่พัฒนาตนเองได้บ่อยครั้ง ถ้าไม่ต่อเนื่อง
ซึ่งหมายความว่าทั้งการเปลี่ยนแปลงขนาดใหญ่และการเปลี่ยนแปลงทีละน้อยสามารถและจะเกิดขึ้นในการจัดอันดับเนื้อหา นอกจากนี้ วิธีการเรียนรู้ของเครื่องนี้อาจนำไปสู่สภาวะที่วิศวกรที่เป็นมนุษย์ของ Twitter อาจไม่ทราบโดยตรงว่าเหตุใดจึงมีการแสดงเนื้อหาบางส่วนหรือเหนือกว่าเนื้อหาอื่นๆ เนื่องจากการแยกแบบจำลองการจัดอันดับที่สร้างขึ้น คล้ายกับที่ฉันอธิบายไว้เมื่อเขียนเกี่ยวกับแบบจำลองที่ผลิตโดย Google การจัดอันดับคุณภาพผ่านการเรียนรู้ของเครื่อง
แม้จะมีความซับซ้อนและความซับซ้อนของวิธีการทำงานของอัลกอริทึมของ Twitter แต่การทำความเข้าใจปัจจัยต่างๆ ที่อาจเข้าสู่กล่องดำยังคงสามารถเปิดเผยสิ่งที่มีอิทธิพลต่อการจัดอันดับได้
ไทม์ไลน์ดั้งเดิมของ Twitter ประกอบด้วยทวีตทั้งหมดจากบัญชีที่ติดตามตั้งแต่การเยี่ยมชมครั้งล่าสุด ซึ่งรวบรวมและแสดงตามลำดับเวลาย้อนกลับโดยแสดงทวีตล่าสุดก่อน และทวีตก่อนหน้าแต่ละรายการจะแสดงทีละรายการตามการเลื่อน ลง
อัลกอริธึมปัจจุบันส่วนใหญ่ยังคงประกอบด้วยรายการทวีตแบบย้อนเวลาเดียวกันนั้น แต่ Twitter ทำการเรียงลำดับใหม่เพื่อพยายามแสดงทวีตที่น่าสนใจที่สุดก่อนและสำคัญที่สุดจากทวีตล่าสุด
ในเบื้องหลัง ทวีตได้รับการกำหนดคะแนนการจัดอันดับโดยแบบจำลองที่เกี่ยวข้อง ซึ่งคาดการณ์ว่าแต่ละทวีตน่าสนใจเพียงใดสำหรับคุณ และค่าคะแนนนี้จะกำหนดลำดับการจัดอันดับ
ทวีตที่มีคะแนนสูงสุดจะแสดงเป็นลำดับแรกในรายการไทม์ไลน์ของคุณ โดยส่วนที่เหลือของทวีตล่าสุดจะแสดงต่อด้านล่าง เป็นที่น่าสังเกตว่าตอนนี้ที่กระจายอยู่ในไทม์ไลน์ของคุณเป็นทวีตจากบัญชีที่คุณ ไม่ได้ ติดตาม เช่นเดียวกับทวีตโฆษณาบางรายการ
กราฟการเชื่อมต่อของ Twitter
ประการแรก แง่มุมที่มีอิทธิพลมากที่สุดอย่างหนึ่งของไทม์ไลน์ของ Twitter คือการที่ Twitter แสดงทวีตโดยอิงจากการเชื่อมต่อโดยตรงของคุณ ณ จุดนี้ ไม่ใช่แค่เพียงการเชื่อมต่อโดยตรงของคุณ ณ จุดนี้เท่านั้น แต่โดยพื้นฐานแล้ว กราฟทางสังคมที่เป็นเอกลักษณ์ของคุณคืออะไร ซึ่ง Twitter อ้างถึงในสิทธิบัตรว่า " กราฟการเชื่อมต่อ”
กราฟการเชื่อมต่อแสดงบัญชีเป็นโหนดและความสัมพันธ์เป็นเส้น ("ขอบ") ที่เชื่อมต่อโหนดอย่างน้อยหนึ่งโหนด ความสัมพันธ์อาจหมายถึงการเชื่อมโยงระหว่างบัญชี Twitter
ตัวอย่างเช่น การติดตาม การสมัครรับข้อมูล (เช่น ผ่านโปรแกรม Super Follows ของ Twitter หรือสำหรับฟีเจอร์การสมัครรับข้อมูลที่ประกาศของ Twitter สำหรับการสืบค้นคำหลัก) การกดชอบ การติดแท็ก ฯลฯ ทั้งหมดนี้สร้างความสัมพันธ์
ความสัมพันธ์ในกราฟการเชื่อมต่ออาจเป็นทิศทางเดียว (เช่น ฉันติดตามคุณ) หรือแบบสองทิศทาง (เช่น เราทั้งคู่ติดตามกันและกัน) ถ้าฉันติดตามคุณ แต่คุณไม่ได้ติดตามฉัน ฉันจะมีความคาดหวังมากขึ้นที่จะเห็นทวีตและรีทวีตของคุณปรากฏในไทม์ไลน์ของฉัน แต่คุณไม่จำเป็นต้องคาดหวังว่าจะได้เห็นทวีตของฉัน
ตามกราฟการเชื่อมต่อ คุณมักจะเห็นทวีตและรีทวีตจากคนที่คุณติดตาม รวมถึงทวีตที่คนรู้จักของคุณชอบหรือตอบกลับ
อัลกอริทึมของ Twitter ได้ขยายทวีตที่คุณอาจเห็นนอกเหนือจากบัญชีที่คุณโต้ตอบด้วยโดยตรง ทวีตที่คุณอาจเห็นในไทม์ไลน์ของคุณตอนนี้ยังรวมถึงทวีตจากคนอื่นๆ ที่กำลังโพสต์เกี่ยวกับหัวข้อที่คุณติดตาม ทวีตที่คล้ายกันในบางวิธีกับทวีตที่คุณเคยชอบก่อนหน้านี้ และทวีตตามหัวข้อที่อัลกอริทึม คาดการณ์ว่า คุณอาจชอบ
แม้ในประเภททวีตที่ขยายใหญ่ขึ้นเหล่านี้ที่คุณอาจได้รับ ระบบการจัดอันดับของอัลกอริทึมก็มีผลเช่นกัน คุณไม่ได้รับทวีต ทั้งหมด ที่ตรงกับหัวข้อ การชอบ และความสนใจที่คาดการณ์ไว้ของคุณ คุณยังได้รับรายการที่รวบรวมผ่านอัลกอริทึมของ Twitter
อันดับความน่าสนใจ
ภายใน DNA ของสิทธิบัตรและอัลกอริทึมจำนวนหนึ่งของ Twitter สำหรับการจัดอันดับทวีตคือแนวคิดของ "ความน่าสนใจ"
สิ่งนี้น่าจะได้รับแรงบันดาลใจจากสิทธิบัตรที่มอบให้ Yahoo ในปี 2549 ที่เรียกว่า "การจัดอันดับวัตถุสื่อที่น่าสนใจ" ซึ่งอธิบายวิธีการจัดอันดับที่ใช้ในอัลกอริทึมสำหรับ Flickr (บริการแบ่งปันภาพถ่ายโซเชียลมีเดียที่โดดเด่นซึ่งต่อมาถูกบดบังโดย Instagram และ Pinterest)
อัลกอริธึมก่อนหน้านี้สำหรับ Flickr มีความคล้ายคลึงกันอย่างมากกับสิทธิบัตรร่วมสมัยของ Twitter ใช้ปัจจัยที่คล้ายคลึงกันและเหมือนกันเพื่อความน่าสนใจในการคำนวณ สิ่งเหล่านี้รวมถึง:
- ข้อมูลสถานที่
- ข้อมูลเมตาของเนื้อหา
- ลำดับเหตุการณ์
- รูปแบบการเข้าถึงของผู้ใช้
- สัญญาณที่น่าสนใจ (เช่น การแท็ก การแสดงความคิดเห็น การตั้งเป็นรายการโปรด)
เราสามารถอธิบายอัลกอริทึมของ Twitter ได้อย่างง่ายดายโดยใช้อัลกอริธึมความน่าสนใจของ Flickr ขยายตามปัจจัยที่เกี่ยวข้อง คำนวณผ่านกระบวนการเรียนรู้ด้วยเครื่องที่ซับซ้อนยิ่งขึ้น ตีความเนื้อหาตามการประมวลผลภาษาธรรมชาติ (NLP) และรวมรูปแบบเพิ่มเติมอีกจำนวนหนึ่งไว้ด้วยกัน เปิดใช้งานความรวดเร็วในการนำเสนอแบบเกือบเรียลไทม์สำหรับผู้ใช้จำนวนมากพร้อมกัน
อันดับ Twitter และสแปม
เป็นเรื่องที่น่าสนใจที่จะเน้นไปที่วิธีการที่ Twitter ใช้ในการตรวจหาสแปม บัญชีผู้ใช้ที่เป็นสแปม และเพื่อลดระดับหรือระงับทวีตที่เป็นสแปมไม่ให้มองเห็น
การรักษาข้อมูลที่บิดเบือน เนื้อหาที่ละเมิดนโยบายอื่นๆ และการล่วงละเมิดก็รุนแรงเช่นเดียวกัน แต่นั่นก็ไม่จำเป็นจะต้องมาบรรจบกันกับการประเมินการจัดอันดับเสมอไป
สิทธิบัตรการตรวจจับสแปมบางรายการมีความน่าสนใจ เพราะฉันเห็นผู้ใช้มักใช้งานกระบวนการปราบปรามสแปมของ Twitter โดยไม่ได้ตั้งใจ และมีหลายอย่างที่เราอาจทำซึ่งส่งผลให้เกิดความพยายามในการโปรโมตและโต้ตอบกับผู้ชมของ Twitter Twitter ต้องสร้างกระบวนการเฝ้าระวังเชิงรุกให้กับตำรวจและลบสแปม และแม้แต่ผู้ใช้ที่โดดเด่นที่สุดก็สามารถดำเนินการตามกระบวนการเหล่านี้ได้เป็นครั้งคราว
ดังนั้น การทำความเข้าใจปัจจัยสแปมของ Twitter จึงมีความสำคัญ เนื่องจากอาจทำให้ทวีตของคุณได้รับการหักลบจากความน่าสนใจที่พวกเขาอาจมี และการสูญเสียคะแนนความเกี่ยวข้องนี้สามารถลดการมองเห็นและการกระจายของทวีตของคุณ
ปัจจัยการจัดอันดับทวิตเตอร์
แล้วอะไรคือปัจจัยที่กล่าวถึงในสิทธิบัตรของ Twitter สำหรับการประเมิน "ความสนใจ" และอะไรคือปัจจัยที่ส่งผลต่อการที่ Twitter ให้คะแนนทวีตสำหรับการจัดอันดับ
ความใหม่ของการโพสต์ทวีต
ล่าสุดมักนิยมกันมากกว่า นอกเหนือจากคำค้นหาที่เฉพาะเจาะจงและการค้นหาประเภทอื่นๆ แล้ว ทวีตส่วนใหญ่จะมาจากช่วงไม่กี่ชั่วโมงที่ผ่านมา อาจมีการรวมทวีต "ในกรณีที่คุณพลาด" บางส่วนซึ่งดูเหมือนจะอยู่ในช่วงหลักในช่วงหรือสองวันที่ผ่านมา
รูปภาพหรือวิดีโอ
โดยทั่วไปแล้ว Google และแพลตฟอร์มอื่นๆ ได้ระบุว่าผู้ใช้มักจะชอบรูปภาพและวิดีโอมากกว่า ดังนั้นทวีตที่มีข้อความใดข้อความหนึ่งจึงอาจได้คะแนนสูงกว่า
Twitter อ้างถึงการ์ดรูปภาพและวิดีโอโดยเฉพาะ ซึ่งหมายถึงเว็บไซต์ที่ใช้การ์ด Twitter ซึ่งช่วยให้ Twitter แสดงตัวอย่างตัวอย่างที่สมบูรณ์ยิ่งขึ้นได้อย่างง่ายดายเมื่อทวีตมีลิงก์ไปยังหน้าเว็บที่มีมาร์กอัปการ์ด
ทวีตที่มีลิงก์แสดงภาพและวิดีโอมักจะดึงดูดผู้ใช้มากกว่า แต่อาจมีข้อดีเพิ่มเติมสำหรับทวีตที่ลิงก์ไปยังหน้าที่มีมาร์กอัปการ์ดสำหรับแสดงเนื้อหาในการ์ด
การโต้ตอบกับทวีต
Twitter อ้างถึงการกดไลค์และรีทวีต แต่อาจมีการใช้ตัวชี้วัดเพิ่มเติมที่เกี่ยวข้องกับทวีตที่นี่ การโต้ตอบรวมถึง:
- ชอบ
- รีทวีต
- คลิกลิงก์ที่อาจอยู่ในทวีต
- คลิกเพื่อแฮชแท็กในทวีต
- คลิกไปยังบัญชี Twitter ที่กล่าวถึงในทวีต
- ขยายรายละเอียด – คลิกเพื่อดูรายละเอียดเกี่ยวกับทวีต เช่น เพื่อดูว่าใครชอบหรือรีทวีต
- การติดตามใหม่ – มีกี่คนที่วางเมาส์เหนือชื่อผู้ใช้แล้วคลิกเพื่อติดตามบัญชี
- การเข้าชมโปรไฟล์ – จำนวนคนที่คลิกรูปแทนตัวหรือชื่อผู้ใช้เพื่อเข้าชมโปรไฟล์ของผู้โพสต์
- แชร์ – จำนวนการแชร์ทวีตผ่านปุ่มแชร์
- ตอบกลับทวีต
ความประทับใจ
แม้ว่าการแสดงผลส่วนใหญ่จะมาจากการแสดงทวีตในไทม์ไลน์ การแสดงผลบางส่วนจะเกิดขึ้นเมื่อมีการแชร์ทวีตผ่านการฝังในหน้าเว็บ เป็นไปได้ว่าจำนวนการแสดงผลเหล่านั้นอาจส่งผลต่อคะแนนความน่าสนใจของทวีตด้วย
ความน่าจะเป็นของการโต้ตอบ
สิทธิบัตรของ Twitter หนึ่งฉบับอธิบายการคำนวณคะแนนสำหรับทวีตซึ่งแสดงถึงแนวโน้มที่ผู้ติดตามของผู้แต่งทวีตในระบบข้อความทางสังคมจะโต้ตอบกับข้อความนั้น คะแนนจะขึ้นอยู่กับส่วนเบี่ยงเบนระดับการโต้ตอบที่คำนวณระหว่างระดับการโต้ตอบที่สังเกตได้ของผู้ติดตามของ ผู้เขียนและระดับการโต้ตอบที่คาดหวังของผู้ติดตาม
ความยาวของทวีต
การจำแนกประเภทหนึ่งคือความยาวของข้อความที่อยู่ในทวีต ซึ่งสามารถจัดเป็นค่าตัวเลข (เช่น 103 อักขระ) หรืออาจกำหนดให้เป็นหนึ่งในไม่กี่หมวดหมู่ (เช่น สั้น กลาง หรือยาว) .
ตามหัวข้อที่เกี่ยวข้องกับทวีต อาจมีการประเมินว่าน่าสนใจไม่มากก็น้อย สำหรับบางหัวข้อ สั้นอาจมีประโยชน์มากกว่า และสำหรับหัวข้ออื่นๆ ความยาวปานกลางหรือยาวอาจทำให้ทวีตน่าสนใจยิ่งขึ้น
ปฏิสัมพันธ์ของผู้แต่งก่อนหน้า
การโต้ตอบในอดีตกับผู้เขียนทวีตจะเพิ่มโอกาส (และคะแนนการจัดอันดับในไทม์ไลน์ของคนๆ หนึ่ง) ที่จะเห็นทวีตอื่นๆ โดยผู้เขียนคนเดียวกัน
เมตริกการโต้ตอบของกราฟโซเชียลเหล่านี้อาจรวมถึงการให้คะแนนตามที่มาของความสัมพันธ์
ดังนั้น ประวัติที่ผ่านมาของการตอบกลับ ถูกใจ หรือรีทวีตทวีตของผู้เขียน แม้ว่าจะไม่ได้ติดตามบัญชีนั้น แต่ก็สามารถเพิ่มโอกาสที่ผู้จะเห็นทวีตล่าสุดของพวกเขาได้
มีความเป็นไปได้ที่การโต้ตอบล่าสุดกับผู้เขียนทวีตอาจรวมถึงปัจจัยนี้ด้วย ดังนั้น หากคุณไม่ได้โต้ตอบกับหนึ่งในทวีตของพวกเขามาเป็นเวลานาน การมองเห็นทวีตใหม่ของพวกเขาอาจลดลงสำหรับคุณ
ในบริบทของอัลกอริธึมนั้น "ผู้เขียน" และ "บัญชี" ถูกใช้เป็นหลักในความหมายเดียวกัน ดังนั้นทวีตจากบัญชีบริษัทจะถือว่าเหมือนกับทวีตจากบุคคล
การจัดอันดับความน่าเชื่อถือของผู้เขียน
คะแนนนี้สามารถคำนวณได้จากความสัมพันธ์ของผู้เขียนและการโต้ตอบกับผู้ใช้รายอื่น
ตัวอย่างที่ให้ไว้ในสิทธิบัตรคือผู้เขียนที่ตามมาด้วยโปรไฟล์สูงหรือบัญชีที่อุดมสมบูรณ์หลายคนจะมีคะแนนความน่าเชื่อถือสูง
ในขณะที่ค่าการจัดอันดับหนึ่งที่อ้างถึงคือ "ต่ำ" "ปานกลาง" และ "สูง" สิทธิบัตรยังแนะนำระดับของค่าการจัดอันดับตั้งแต่ 1 ถึง 10 และอาจรวมถึงปัจจัยเชิงคุณภาพและ/หรือเชิงปริมาณ
ฉันเดาว่าช่วงเช่น 1 ถึง 10 มีแนวโน้มมากกว่า ดูเหมือนว่าค่าการประเมินสแปมบางส่วนสามารถนำมาใช้เพื่อลบออกจากการจัดอันดับความน่าเชื่อถือของผู้เขียน ข้อมูลเพิ่มเติมเกี่ยวกับปัจจัยการประเมินสแปมที่อาจเกิดขึ้นในส่วนหลังของบทความนี้
ความเกี่ยวข้องของผู้แต่ง
เป็นไปได้ว่าผู้เขียนที่ได้รับการประเมินว่ามีความเกี่ยวข้องมากกว่าสำหรับหัวข้อใดหัวข้อหนึ่งอาจมีค่าความเกี่ยวข้องของผู้แต่งที่สูงกว่า นอกจากนี้ การกล่าวถึงผู้เขียนอาจทำให้พวกเขามีความเกี่ยวข้องมากขึ้นในบริบทของทวีตที่กล่าวถึงพวกเขา
สิทธิบัตรยังพูดถึงการเชื่อมโยงผู้เขียนกับหัวข้อต่างๆ ดังนั้นจึงเป็นไปได้ที่ผู้เขียนที่ทวีตเกี่ยวกับหัวข้อที่เฉพาะเจาะจงเป็นประจำ ร่วมกับอัตราการมีส่วนร่วมที่ดี อาจถือว่ามีความเกี่ยวข้องมากขึ้นเมื่อทวีตของพวกเขาเกี่ยวข้องกับหัวข้อนั้น
ตัวชี้วัดผู้เขียน
ทวีตอาจจำแนกตามคุณสมบัติของผู้เขียน ตัวชี้วัดเหล่านี้อาจส่งผลต่อความน่าสนใจของข้อความของผู้เขียน ตัวชี้วัดผู้เขียนดังกล่าวรวมถึง:
- ที่ตั้ง ของผู้เขียน (เช่น เมืองหรือประเทศ)
- อายุ (ตามวันเกิดที่ระบุได้ในรายละเอียดบัญชี)
- จำนวนผู้ติดตาม
- จำนวนบัญชีที่ผู้เขียนติดตาม
- อัตราส่วนของจำนวนผู้ติดตามต่อบัญชีที่ติดตาม เนื่องจากจำนวนผู้ติดตามที่มากกว่าเมื่อเทียบกับผู้ติดตามนั้นบ่งบอกถึงความนิยมที่มากขึ้นพร้อมกับจำนวนผู้ติดตามดิบ อัตราส่วนที่ใกล้กับ 1 จะบ่งชี้ถึงความเท่าเทียมตามหลักปรัชญาของผู้แต่ง ทำให้เป็นไปไม่ได้ที่จะอนุมานความนิยมและให้รูปลักษณ์ของความนิยมเทียม
- จำนวนทวีตที่โพสต์โดยผู้เขียนต่อช่วงเวลา (เช่น ต่อวันหรือต่อสัปดาห์)
- อายุของบัญชี (เช่น เดือนนับตั้งแต่เปิดบัญชี) – ด้วยบัญชีที่เพิ่งตั้งค่าไม่นานนี้ โดยมีน้ำหนักที่น้อยกว่ามาก
- เชื่อมั่น.
หัวข้อ
ทวีตจะถูกจำแนกตามหัวข้อที่เกี่ยวข้อง มีอัลกอริธึมที่ซับซ้อนมากบางส่วนที่เกี่ยวข้องกับการจำแนกทวีต
ผู้ใช้ Twitter มักจะเลือกหัวข้อที่จะเชื่อมโยงกับบัญชีของพวกเขา และคุณจะเห็นทวีตยอดนิยมจากหัวข้อที่คุณเลือกอย่างชัดเจน แต่ Twitter ยังสร้างหัวข้อโดยอัตโนมัติตามคำหลักที่พบในทวีต
จากการโต้ตอบของคุณกับทวีตและบัญชีที่คุณติดตาม Twitter ยังคาดการณ์หัวข้อที่คุณน่าจะสนใจ และแสดงทวีตบางส่วนจากหัวข้อเหล่านั้นให้คุณเห็น แม้ว่าคุณจะไม่ได้สมัครรับข่าวสารอย่างเป็นทางการก็ตาม
การจำแนกวลี
ระบบของ Twitter นั้นซับซ้อนอย่างมาก และอนุญาตให้ใช้แบบจำลองการจัดอันดับแบบกำหนดเองกับทวีตสำหรับหัวข้อเฉพาะและเมื่อมีวลีเฉพาะ
Twitter มีพนักงานจำนวนมากที่ทำงานเพื่อพัฒนาแบบจำลองสำหรับ "เส้นทางของลูกค้า" โดยเฉพาะ และดูเหมือนว่าจะสอดคล้องกับคำอธิบายสิทธิบัตรว่าบรรณาธิการสามารถตั้งกฎเกณฑ์ในโพสต์และคำหลักหรือวลีตามหัวข้อในโพสต์ได้อย่างไร
ตัวอย่างเช่น โพสต์ที่มีข้อความเกี่ยวกับ "จ้างตอนนี้" หรือ "จะลงทีวี" อาจถือว่าน่าเบื่อสำหรับหัวข้อ ในขณะที่วลีเช่น "สด" "ลดราคา" หรือ "วันนี้เท่านั้น" อาจมีน้ำหนักมากขึ้น สามารถคาดคะเนได้น่าสนใจยิ่งขึ้น
การดำเนินการนี้อาจทำได้ค่อนข้างยาก เนื่องจากมีหัวข้อที่เป็นไปได้มากมายและการให้น้ำหนักแบบกำหนดเองที่สามารถนำมาใช้ได้
การโพสต์งานล่าสุดที่ Twitter สำหรับ Staff Product Designer, Customer Journey อธิบายว่าตำแหน่งจะช่วยได้อย่างไร:
“ไม่ว่าคุณจะกำลังมองหาแฟนอาร์ต Ariana Grande, #herpetology หรือจักรยานล้อเดียวสุดขั้ว ทั้งหมดนี้เกิดขึ้นบน Twitter ทีมงานของเรามีหน้าที่ในการช่วยให้สมาชิกใหม่สำรวจการสนทนาสาธารณะที่หลากหลายที่เกิดขึ้นบน Twitter และค้นหาความรู้สึกเป็นเจ้าของได้อย่างรวดเร็ว…”
“รวบรวมข้อมูลเชิงลึกจากข้อมูลและการวิจัยเชิงคุณภาพ พัฒนาสมมติฐาน ร่างโซลูชันด้วยต้นแบบ และทดสอบแนวคิดกับทีมวิจัยและในการทดลองของเรา”
“เอกสารโมเดลการโต้ตอบโดยละเอียดและข้อกำหนด UI”
“ประสบการณ์การออกแบบสำหรับแมชชีนเลิร์นนิง อนุกรมวิธานที่หลากหลาย และ/หรือกราฟดอกเบี้ย”
คำอธิบายนี้ฟังดูคล้ายกับที่อธิบายไว้ในสิทธิบัตรของ Twitter สำหรับ "ระบบและวิธีการกำหนดความเกี่ยวข้องของเนื้อหาทางสังคม" โดยที่:
“บรรณาธิการอาจกำหนดกฎเกณฑ์ในการจำแนกวลีบางวลีว่าน่าสนใจไม่มากก็น้อย…”
“…บรรณาธิการอาจตัดสินใจว่าวลีและคุณลักษณะบางอย่างน่าสนใจในเนื้อหาทั้งหมด โดยไม่คำนึงถึงประเภทของสถานที่ที่ผู้เขียนเนื้อหา ตัวอย่างเช่น วลี 'ลดราคา' หรือ 'เหตุการณ์' อาจน่าสนใจในทุกกรณีและอาจมีการใช้น้ำหนักที่เป็นบวก”
สิทธิบัตรฉบับหนึ่งอธิบายว่าทวีตที่ตรวจพบว่ามีภาษาเชิงพาณิชย์สามารถให้คะแนนต่ำกว่าทวีตที่ไม่มีภาษาเชิงพาณิชย์ได้อย่างไร (ในทางกลับกัน น้ำหนักดังกล่าวอาจพลิกกลับได้หากผู้ใช้ทำการค้นหาโดยระบุความสนใจในการซื้อบางอย่าง เพื่อให้ทวีตที่มีภาษาเชิงพาณิชย์มีน้ำหนักมากขึ้น)
เวลาของวัน
ช่วงเวลาของวันสามารถใช้เพื่อส่งผลต่อความเกี่ยวข้องได้ ตัวอย่างเช่น สามารถใช้กฎเพื่อเพิ่มน้ำหนักให้กับทวีตที่กล่าวถึง "กาแฟ" ระหว่างเวลา 8.00 น. ถึง 10.00 น. และ/หรือทวีตที่โพสต์โดยร้านกาแฟ
สถานที่
สิทธิบัตรอธิบายว่า "การอ้างอิงสถานที่" ในทวีตสามารถเรียกน้ำหนักที่มากขึ้นสำหรับทวีตเกี่ยวกับสถานที่และ/หรือบัญชีที่เกี่ยวข้องกับการอ้างอิงสถานที่กับบัญชีอื่นๆ ที่กล่าวถึงสถานที่เท่านั้นได้อย่างไร นอกจากนี้ ความใกล้เคียงทางภูมิศาสตร์ระหว่างตำแหน่งของอุปกรณ์ของผู้ใช้กับตำแหน่งที่เกี่ยวข้องกับรายการเนื้อหา (ข้อความทวีต รูปภาพ วิดีโอ และ/หรือผู้แต่ง) สามารถเพิ่มหรือลดความเกี่ยวข้องที่อาจเกิดขึ้นได้
ภาษา
ภาษาของทวีตสามารถจำแนกได้ (เช่น อังกฤษ ฝรั่งเศส เป็นต้น)
ภาษาอาจถูกกำหนดโดยอัตโนมัติโดยใช้เครื่องมือประเมินภาษาอัตโนมัติต่างๆ
ทวีตในภาษาใดภาษาหนึ่งจะสนใจผู้พูดภาษานั้นมากกว่าและผู้อื่นสนใจน้อยกว่า
ตอบกลับทวีต
ทวีตสามารถจำแนกได้ตามการตอบกลับทวีตก่อนหน้าหรือไม่ ทวีตที่เป็นคำตอบของทวีตก่อนหน้าอาจถือว่าน่าสนใจน้อยกว่าทวีตเกี่ยวกับหัวข้อใหม่
ในคำอธิบายสิทธิบัตรฉบับหนึ่ง หัวข้อของทวีตสามารถกำหนดได้ว่าทวีตนั้นจะถูกกำหนดให้แสดงต่อบัญชีอื่นหรือรวมอยู่ในกระแสข้อความของบัญชีอื่น
เมื่อคุณดูไทม์ไลน์ของคุณ มีบางกรณีที่การตอบกลับของทวีตบางรายการจะแสดงพร้อมกับทวีตหลักด้วย เช่น เมื่อทวีตตอบกลับถูกโพสต์โดยบัญชีที่คุณติดตาม ในกรณีส่วนใหญ่ ทวีตตอบกลับจะสามารถดูได้ก็ต่อเมื่อคลิกหนึ่งครั้งเพื่อดูเธรด หรือคลิกทวีตเพื่อดูการตอบกลับทั้งหมด
“ความสุข” บัญชี
นี่เป็นแนวคิดแปลก ๆ ที่ฉันเชื่อว่าอาจไม่ได้อยู่ในช่วงการผลิต
Twitter อธิบายบัญชีที่ได้รับพรตามที่ระบุในกราฟของการสนทนาโดยเฉพาะ โดยที่ผู้เขียนดั้งเดิมในการสนทนาจะถือว่า "ได้รับพร" และจากการตอบกลับโพสต์ต้นฉบับในครั้งต่อๆ ไป คำตอบใดๆ ที่ตอบกลับโดย บัญชีที่ได้รับพรจะกลายเป็น "ความสุข" เช่นกัน
ทวีตเหล่านั้นที่โพสต์โดยบัญชีที่ได้รับพรในการสนทนาจะได้รับคะแนนความเกี่ยวข้องที่เพิ่มขึ้น
โปรไฟล์เว็บไซต์
สิ่งนี้ไม่ได้กล่าวถึงในสิทธิบัตรของ Twitter แต่มีเหตุผลมากเกินไปในบริบทของปัจจัยอื่น ๆ ที่พวกเขากล่าวถึงว่าจะผ่านไป
เว็บไซต์เนื้อหาหลักจำนวนมากมักมีลิงก์ที่แชร์บน Twitter และ Twitter สามารถสร้างชื่อเสียง/คะแนนความนิยมของโปรไฟล์เว็บไซต์ได้อย่างง่ายดาย ซึ่งอาจเป็นปัจจัยในการจัดอันดับทวีตเมื่อมีการโพสต์ลิงก์ไปยังเนื้อหาบนเว็บไซต์
ไซต์ข่าว แหล่งข้อมูล ไซต์บันเทิง ทั้งหมดนี้อาจมีคะแนนที่พัฒนาจากปัจจัยเดียวกับที่ใช้ในการประเมินบัญชี Twitter ทวีตจากเว็บไซต์ที่ได้รับความนิยมและมีส่วนร่วมกับเว็บไซต์มากขึ้นอาจมีน้ำหนักมากกว่าเว็บไซต์ที่ไม่รู้จักและมีปฏิสัมพันธ์น้อยกว่า
ทวิตเตอร์ Verified
ใช่ หากคุณสงสัยว่าป้ายสีน้ำเงินข้างชื่อผู้ใช้สื่อถึงสิทธิพิเศษ มีคำฟุ่มเฟือยเฉพาะในสิทธิบัตรของ Twitter ที่ยืนยันว่าอย่างน้อยพวกเขาได้พิจารณาเรื่องนี้แล้ว
เนื่องจากบัญชีที่ยืนยันแล้วมักจะมีตัวบ่งชี้ความนิยมอื่นๆ ที่เกี่ยวข้องอยู่แล้ว จึงไม่เป็นที่แน่ชัดว่าปัจจัยนี้มีการใช้งานอยู่หรือไม่ ทวีตที่โพสต์โดยบัญชีที่ได้รับการยืนยันอาจได้รับคะแนนความเกี่ยวข้องสูงกว่า ทำให้ปรากฏมากกว่าทวีตของบัญชีที่ไม่ได้รับการยืนยัน
นี่คือคำอธิบายสิทธิบัตร:
“ในรูปลักษณ์หนึ่งหรือมากกว่าของการประดิษฐ์ โมดูลการสนทนา (120) มีฟังก์ชันการใช้ตัวกรองความเกี่ยวข้องเพื่อเพิ่มคะแนนความเกี่ยวข้องของบัญชีการสร้างหนึ่งบัญชีขึ้นไปของกราฟการสนทนาซึ่งระบุไว้ในรายการอนุญาตพิเศษของบัญชีที่ตรวจสอบแล้ว ตัวอย่างเช่น รายการที่อนุญาตพิเศษของบัญชีที่ได้รับการยืนยันอาจเป็นรายการบัญชีที่เป็นบัญชีที่มีชื่อเสียงซึ่งเสี่ยงต่อการถูกแอบอ้าง ในตัวอย่างนี้ บัญชีคนดังและบัญชีธุรกิจจะได้รับการยืนยันโดยแพลตฟอร์มการส่งข้อความ (100) เพื่อแจ้งให้ผู้ใช้แพลตฟอร์มการส่งข้อความทราบ (100) ว่าบัญชีนั้นเป็นบัญชีจริง ในรูปลักษณ์หนึ่งหรือมากกว่าของการประดิษฐ์ โมดูลการสนทนา (120) ได้รับการกำหนดค่าเพื่อเพิ่มคะแนนความเกี่ยวข้องของบัญชีการเขียนที่ตรวจสอบแล้วตามจำนวน/เปอร์เซ็นต์ที่กำหนดไว้ล่วงหน้า”
มีเทรนด์
นี่คือแฟล็กไบนารีที่ระบุว่าทวีตนั้นถูกระบุว่ามีหัวข้อที่มีแนวโน้มในขณะที่ข้อความออกอากาศหรือไม่
แอปที่ตรวจพบเพศ รสนิยมทางเพศ และความสนใจ
Twitter อาจใช้ข้อมูลอุปกรณ์เคลื่อนที่ของเจ้าของบัญชีเพื่อสรุปเพศของเจ้าของบัญชี หรืออนุมานความสนใจในหัวข้อต่างๆ เช่น ข่าว กีฬา เวทเทรนนิ่ง และหัวข้ออื่นๆ
อุปกรณ์มือถือบางรุ่นให้ข้อมูลเกี่ยวกับแอปอื่นๆ ที่โหลดบนโทรศัพท์เพื่อวัตถุประสงค์ในการวินิจฉัยข้อขัดแย้งในการเขียนโปรแกรมแอปพลิเคชันที่อาจเกิดขึ้น ดังนั้นทวีตบางรายการที่ตรงกับเพศ รสนิยมทางเพศ และความสนใจเฉพาะด้านอาจได้รับจุดที่น่าสนใจมากขึ้นโดยอิงจากการอนุมานจากแอปในโทรศัพท์ของคุณ (ดู: https://screenrant.com/android-apps-collecting-app-data/ )
และปัจจัยการจัดอันดับเพิ่มเติม
Twitter ระบุว่า:
“รายการคุณสมบัติที่พิจารณาของเราและการโต้ตอบที่หลากหลายนั้นเพิ่มขึ้นเรื่อยๆ ทำให้แบบจำลองของเรามีรูปแบบพฤติกรรมที่เหมาะสมยิ่งขึ้น”
ดังนั้น รายการปัจจัยนี้จึงน่าจะเป็นสิ่งที่แสดงถึงปัจจัยที่อาจใช้อยู่ได้น้อยเกินไป และรายการปัจจัยเหล่านี้อาจขยายออกไป
นอกจากนี้ ลองนึกภาพด้วยว่าการผสมผสานแบบกำหนดเองของปัจจัยข้างต้นบางส่วนอาจถูกนำไปใช้เป็นแบบอย่างสำหรับทวีตที่เกี่ยวข้องกับหัวข้อเฉพาะ ซึ่งทำให้การจัดอันดับมีความซับซ้อนสูงด้วยวิธีการเรียนรู้ด้วยเครื่อง (อีกครั้ง แมชชีนเลิร์นนิงที่ใช้เพื่อสร้างโมเดลการถ่วงน้ำหนักอันดับที่กำหนดเองสำหรับข้อความค้นหาหรือหัวข้อเฉพาะ จะคล้ายกับวิธีการที่น่าจะใช้กับ Google มาก)
Twitter ระบุว่าการให้คะแนนของทวีตนั้นเกิดขึ้นทุกครั้งที่มีผู้เยี่ยมชม Twitter และทุกครั้งที่มีการรีเฟรชไทม์ไลน์ เมื่อพิจารณาถึงปัจจัยที่ซับซ้อนบางอย่างที่เกี่ยวข้อง ซึ่งถือว่าเร็วมาก!
Twitter ใช้การทดสอบ A/B ในการถ่วงน้ำหนักของปัจจัยการจัดอันดับ และการปรับเปลี่ยนอัลกอริทึมอื่นๆ และกำหนดว่าการเปลี่ยนแปลงที่เสนอนั้นเป็นการปรับปรุงโดยพิจารณาจากการมีส่วนร่วมและเวลาในการดู/โต้ตอบกับทวีตหรือไม่ ใช้สำหรับฝึกโมเดลการจัดอันดับ

การมีส่วนร่วมของแมชชีนเลิร์นนิงในกระบวนการนี้แสดงให้เห็นว่าโมเดลการจัดอันดับสามารถสร้างได้สำหรับสถานการณ์เฉพาะจำนวนมาก และอาจมีความเฉพาะเจาะจงสำหรับหัวข้อและประเภทของผู้ใช้โดยเฉพาะ เมื่อพัฒนาแล้ว โมเดลสามารถทดสอบได้ และหากปรับปรุงการมีส่วนร่วม จะสามารถนำไปใช้กับผู้ใช้ทั้งหมดได้อย่างรวดเร็ว
นักการตลาดสามารถใช้ข้อมูลนี้ได้อย่างไร
มีการอนุมานมากมายที่สามารถดึงออกมาจากรายการปัจจัยการจัดอันดับที่เป็นไปได้ และนักการตลาดสามารถใช้เพื่อปรับปรุงกลยุทธ์การทวีตของพวกเขา
บัญชี Twitter ที่โพสต์เฉพาะประกาศเกี่ยวกับผลิตภัณฑ์และข้อมูลส่งเสริมการขายเกี่ยวกับบริษัทจะไม่ปรากฏให้เห็นมากเท่ากับบัญชีที่มีการโต้ตอบกับชุมชนของตนมากขึ้น เนื่องจากการโต้ตอบสร้างสัญญาณการจัดอันดับและผลประโยชน์ที่มากขึ้น
ผู้เชี่ยวชาญด้านโซเชียลมีเดียได้แนะนำวิธีการผสมผสานประเภทของโพสต์มาเป็นเวลานาน แทนที่จะเผยแพร่เพียงการส่งเสริมการอ้างอิงตนเอง – กลยุทธ์เหล่านี้รวมถึง “กฎสามส่วน”, “กฎ 80/20” และอื่นๆ
ปัจจัยการจัดอันดับ Twitter น่าจะสนับสนุนทฤษฎีเหล่านี้ เนื่องจากการกระตุ้นให้มีการโต้ตอบกับผู้ใช้ Twitter จำนวนมากขึ้นมีแนวโน้มที่จะเพิ่มการมองเห็นของบัญชี
ตัวอย่างเช่น บัญชีบริษัทขนาดใหญ่ที่มีผู้ติดตามจำนวนมากสามารถโพสต์โพลที่น่าสนใจเพื่อรับคำแนะนำเกี่ยวกับคุณลักษณะที่จะเพิ่มลงในผลิตภัณฑ์ของตน การโหวตและความคิดเห็นที่โพสต์โดยผู้ใช้จะทำให้ผู้ตอบแบบสอบถามมีแนวโน้มที่จะเห็นการโพสต์ครั้งต่อไปของบริษัทมากขึ้นเนื่องจากการโต้ตอบล่าสุด และการโพสต์ครั้งต่อไปอาจเป็นการโปรโมตหรือประกาศสิ่งใหม่ และผู้ติดตามของผู้ตอบแบบสอบถามอาจมีแนวโน้มที่จะเห็นการโพสต์ครั้งต่อไปของบริษัทมากขึ้น เนื่องจาก Twitter ดูเหมือนจะคำนึงถึงปัจจัยที่ผู้ใช้ที่มีความสนใจคล้ายกันอาจเปิดกว้างมากขึ้นที่จะเห็นเนื้อหาที่ตรงกับความสนใจของพวกเขา
นอกจากนี้ ปัจจัยต่างๆ ยังแนะนำแนวทางที่เป็นประโยชน์หลายประการ
เมื่อโพสต์ทวีตเพื่อโปรโมตผลิตภัณฑ์หรือประกาศ การรวมบางสิ่งเพื่อกระตุ้นการตอบสนองจากผู้ติดตามสามารถขยายการเปิดเผยบนแพลตฟอร์มได้อย่างง่ายดายเนื่องจากการตอบกลับของผู้ตอบแต่ละรายต่อทวีตของคุณอาจเพิ่มโอกาสที่ผู้ติดตามโดยตรงของพวกเขาอาจเห็นทวีตดั้งเดิมและของพวกเขา ตอบกลับของการเชื่อมต่อ
การใช้ประโยชน์จากกราฟโซเชียลของอัลกอริทึมของ Twitter สามารถช่วยเพิ่มความน่าสนใจให้กับทวีตของคุณ และสามารถเพิ่มการเปิดเผยทวีตของคุณสำหรับผู้ใช้รายอื่น
ปัจจัยด้านสแปมอาจส่งผลเสียต่อการจัดอันดับทวีต
อัลกอริธึมการตรวจจับสแปมอาจส่งผลเสียต่อความสามารถในการจัดอันดับทวีต
ประการหนึ่ง Twitter นั้นรวดเร็วมากในการระงับบัญชีที่ส่งสแปมอย่างโจ่งแจ้ง และในกรณีที่มีความชัดเจนและชัดเจน เราสามารถคาดหวังให้บัญชีถูกยกเลิกอย่างกะทันหัน ทำให้ทวีตทั้งหมดหายไปจากกราฟการสนทนาและไทม์ไลน์ และ ทำให้โปรไฟล์บัญชีดูไม่ได้อีกต่อไป
ในกรณีอื่นๆ ที่ยังไม่ชัดเจนว่าบัญชีนั้นเป็นสแปมหรือไม่ ทวีตของบัญชีอาจถูกลดระดับได้ง่ายๆ โดยใช้คะแนนน้ำหนักอันดับติดลบ หรือทวีตอาจถูกล็อคหรือระงับจนกว่าเจ้าของบัญชีจะดำเนินการแก้ไขหรือ ยืนยันตัวตนของพวกเขา
ตัวอย่างเช่น บัญชี Twitter ที่มีประวัติทวีตที่ดีมาอย่างยาวนานอาจเริ่มโพสต์โฆษณาไวอากร้าหรือลิงก์ไปยังมัลแวร์อย่างกะทันหัน เช่น หากบัญชีที่จัดตั้งขึ้นแล้วถูกแฮ็ก Twitter อาจระงับบัญชีชั่วคราวจนกว่าจะมีการดำเนินการแก้ไข เช่น ผ่านการตรวจสอบ CAPTCHA หรือรับรหัสยืนยันผ่านโทรศัพท์มือถือและเปลี่ยนรหัสผ่าน อีกตัวอย่างหนึ่งอาจเป็นผู้ใช้ใหม่ที่บังเอิญผ่านเกณฑ์บางอย่างในการติดตามบัญชีมากเกินไปภายในระยะเวลาอันสั้น หรือโพสต์บ่อยเกินไปเล็กน้อย
Twitter ใช้วิธีการมากมายในการตรวจจับสแปมและกำจัดสแปม เพื่อให้ผู้ใช้เห็นน้อยลง
การตรวจจับอัตโนมัติส่วนใหญ่จะอาศัยการตรวจจับลักษณะเฉพาะของโปรไฟล์บัญชี พฤติกรรมการทวีตของบัญชี และเนื้อหาที่พบในทวีตของบัญชี
Twitter ได้พัฒนาตัวเลข "ลายนิ้วมือ" ที่เป็นสแปมในลักษณะเฉพาะ เพื่อให้สามารถตรวจจับรูปแบบได้อย่างรวดเร็ว สิทธิบัตร Twitter ฉบับหนึ่งอธิบายว่า:
“สแปมถูกกำหนดโดยการเปรียบเทียบลักษณะของบัญชีสแปมที่ระบุ และสร้าง 'กราฟความคล้ายคลึง' ที่สามารถเปรียบเทียบกับบัญชีอื่นๆ ที่สงสัยว่าเป็นสแปม”
ทวีตที่ระบุว่าอาจมีสแปมอาจถูกตั้งค่าสถานะด้วยค่าไบนารีเช่น "ใช่" หรือ "ไม่ใช่" จากนั้นทวีตที่ถูกตั้งค่าสถานะจะถูกกรองออกจากไทม์ไลน์
มีความเป็นไปได้เท่าเทียมกันที่จะมีระดับของสแปม โดยคำนวณจากปัจจัยหลายประการ และเมื่อทวีตหรือบัญชีผ่านเกณฑ์แล้ว จะถูกลดระดับลง ฉันคิดว่ามันคุ้มค่าที่จะพูดถึงสิ่งเหล่านี้เนื่องจากผู้ใช้ Twitter อาจไม่เข้าใจความหมายของการใช้แพลตฟอร์ม ตัวอย่างเช่น การโพสต์ทวีตที่ก้าวร้าวมากเกินไปอาจส่งผลเสียต่อทวีตที่ตามมาของบัญชีในช่วงระยะเวลาหนึ่ง พฤติกรรมหงุดหงิดซ้ำๆ อาจส่งผลให้แย่ลง เช่น การลบบัญชีโดยสมบูรณ์ โดยไม่สามารถกู้คืนได้
ฉันจะเพิ่มปัจจัยสองสามประการที่นี่ซึ่งไม่ได้กล่าวถึงโดยเฉพาะในสิทธิบัตร Twitter หรือโพสต์ในบล็อก เนื่องจาก Twitter ไม่ได้เปิดเผยปัจจัยระบุสแปมทั้งหมดด้วยเหตุผลที่ชัดเจน แต่ลักษณะบางอย่างของบัญชีสแปมและสแปมดูเหมือนชัดเจนมากจนฉันเพิ่มข้อมูลบางส่วนจากการสังเกตส่วนตัวหรือจากแหล่งวิจัยที่ได้รับการยอมรับอย่างดี เพื่อให้เข้าใจในวงกว้างขึ้นเกี่ยวกับสิ่งที่อาจทำให้เกิดการลดระดับสแปม
ปัจจัยสแปมและปัจจัยการจัดอันดับเชิงลบอื่นๆ
- ทวีตที่มีข้อความเชิงพาณิชย์ที่โพสต์โดยไม่มีความสัมพันธ์แบบผู้ติดตาม/ผู้ติดตามหรือในความสัมพันธ์แบบทิศทางเดียว (ผู้เขียนทวีตกำลังติดตามบัญชีที่กล่าวถึง แต่บัญชีรับไม่ติดตามผู้เขียน) แต่ไม่มีการโต้ตอบก่อนหน้านี้ เริ่มดูเหมือน สงสัย. หากดำเนินการนี้หลายครั้งด้วยข้อความที่คล้ายกันหรือเหมือนกัน จะใช้เวลาไม่นานในการพิจารณาว่าเป็นกิจกรรมสแปม โดยเฉพาะอย่างยิ่งสำหรับบัญชีที่ใหม่กว่า
- อายุบัญชี – ซึ่งอายุแสดงว่าบัญชีได้รับการตั้งค่าเมื่อเร็วๆ นี้ (การวิจัยล่าสุดของ SparkToro เกี่ยวกับสแปม Twitter บ่งชี้ว่าอายุบัญชีไม่เกิน 90 วัน)
- แฟล็ก NSFW ของบัญชี – บัญชีมีแฟล็กที่ระบุว่ามีการระบุลิงก์ไปยังเว็บไซต์ที่บันทึกไว้ในบัญชีดำของไซต์ที่อาจไม่เหมาะสม (เช่น ไซต์ที่มีภาพอนาจาร เนื้อหาที่โจ่งแจ้ง คราบเลือด ฯลฯ)
- ธงที่ไม่เหมาะสม – ทวีตได้รับการระบุว่ามีคำหนึ่งหรือหลายคำจากบัญชีดำของคำที่ไม่เหมาะสม
- Potentially Fake Account – the account is suspected of impersonating a real person or organization, and has not been verified.
- Account Posting Frequent Copyright Infringement
- Blacklisting – One patent suggests use of a blacklist that will apply a relevance filter to decrease the relevance scores of accounts that can include but are not limited to: spammers, potentially fake accounts, accounts with a potential or history of posting adult content, accounts with a potential or history of posting illegal content, accounts flagged by other users, and/or meeting any other criteria for flagging accounts.
- Account Bot Flag – identifying that the account broadcasting the Tweet has been IDed as potentially being operated by a software application instead of by a human. This particular criteria has a number of implications involved, particularly for those accounts that have used types of scheduling applications for posting Tweets, or other software that generates automated Tweets. For instance, scheduling too many Tweets to be posted per time period through an app like Hootsuite or Sprout Social can result in the user account getting suspended, or its app access via the Twitter API to get suspended. This can be particularly galling, as if the same number of Tweets per time period were posted manually, the account would not run into issues. There has long been a believe among marketers on Facebook as well as Twitter that the respective algorithms might dumb-down visibility for posts published through software versus via manually, and this component suggests that that very well could be the case with Twitter.
- Tweets containing offensive language might be allowed to erode their interestingness score.
- Tweets posted via Twitter's APIs, such as through social media management tools that rely upon Twitter's API, are generally subject to greater scrutiny as Twitter has described “The problem may be exacerbated when a content sharing service opens its application programming interface (API) to developers.” My observation is that accounts that rely solely upon third-party posting applications and APIs – particularly newer accounts – may see their distribution ability somewhat sandbagged. Newer accounts should work to become established through human usage for an initial period before relying more upon scheduling and posting applications, and even established accounts may see greater distribution potential if they mix some human manual posting in combination with their scheduled/automated/third-party-application posts.
- Accounts Dormant for a Long Period – Accounts that have not posted for a long time, and then suddenly spring to life do not immediately have the ranking ability they otherwise might. The reason for this is that spammers sometimes may successfully hijack inactive accounts in order to subvert a previously bona fide account into posting spam.
- Device Profile Associated With Spammer or Other Policy Violator – Essentially, patents suggest that Twitter is using Browser Fingerprinting and Device Fingerprinting to detect spammers and other bad players. Fingerprinting enables tech services to generate profiles of a combo of data that would include things like IP address, device ID, user agent, browser plugins, device platform model and version, and app downloads to create unique “fingerprints” to identify specific devices. A major takeaway from this is that if you have two or more Twitter accounts you use with your phone or browser, if you perform abusive Tweeting through one of those accounts, there is the very real possibility that it could impair rankings in a more “professional” account you operate on the same device. In a worst-case scenario, it could even get you locked-out of both accounts for what you may do on one. This has pretty serious implications for companies and agencies that have employees conducting professional Tweets, while they may switch on their device to posting personal Tweets as well. Some types of Tweets that could cause issues would include: Spam, Harassment, False or Misleading Info, Threats, repeated Copyright Infringement, posting Malware links, and likely more. While I theorize that a personal account could also get a professional account suspended on the same device, I would hazard a guess that it might only suspend the professional account for that particular device holder, and the professional account could be subsequently accessed through a different device.
- Lack of other app usage data – It is very possible that Twitter may be able to receive data from mobile devices that indicates if the device operator has downloaded or recently used other apps on the device beyond just the Twitter app. (See: https://screenrant.com/android-apps-collecting-app-data/ ) A common spam account characteristic is that they do not reflect other app usage because the device is primarily dedicated to spamming Twitter and is not showing human usage characteristics. Or, the account is hosted on a webserver instead of a mobile device, and is attempting to imitate the usage profile of a human user.
- Blocks – accounts that other users have blocked numerous times, or accounts that have been blocked over a particular time frame can be indicative of a spam account.
- Frequency of Tweets – if a number of Tweets sent from the same account in a given time frame exceeds a threshold amount, then that account may be flagged as spam and denied from sending subsequent Tweets. This is not a hard-and-fast rule, or it is variable in application, because there are larger, corporate accounts with many staff members handling posting of Tweets to a large customer base, such as in the case of American Airlines. There are accounts such as this which are added to whitelists to avoid automatic suspension due to the large volumes of Tweets they may post within short time frames.
- High Volume of Tweets with the Same Hashtag or Mentions of the Same @Username – Obviously, high-volume Tweets are risky, and increasing your volume within short timeframes will inch your account closer and closer to being deemed to be that of a spammer. Thus, attempting to overwhelm the timeline of a particular Hashtag will be deemed to be annoying and potentially spammy. Likewise, insisting upon gaining the attention of a particular account by mentioning them repeatedly will begin to appear annoying, unnecessary, abusive harassment, and/or spammy.
- CAPTCHA – If suspected of spam, the service may prevent a Tweet from being written-to or published, requiring the user account to first pass a CAPTCHA challenge to establish that the account is operated by a human. (My agency has encountered this as we have set up new accounts on behalf of clients. This is more likely to happen when the computer that is used to set up the account has been used recently to set up other accounts, and the account is set up using free email service accounts instead of through mobile phones. Twitter also often requires sending a mobile text message to confirm a phone number before unblocking the account.)
- Account Signup Reflects Anomoly – New accounts are exposed to greater scrutiny and suspicion within Twitter's systems, and one way of critiquing new accounts is based upon data associated with the initial account signup, since spammers have used automation to try to create large volumes of new accounts for bot usage. Twitter usage can reflect real account setups, or false ones, so Twitter has analyzed many false accounts and has developed fingerprint types of patterns to detect likely spam/bot accounts. For instance, when a human user accesses Twitter's account signup page in a browser window, to submit registration info, the browser will rapidly make calls back to Twitter's servers for dozens of elements that are used in composing the page in the browser – such as for Javascripts, cascading stylesheets, and images. Bots are more likely to submit registration info without first calling all the registration page elements. So, image requests and other filetype requests preceding a registration submission can be used to determine whether a new signup reflects an anomaly indicating a bot-generated signup has occurred. Thus, accounts signed-up with anomalous characteristics may have their Tweets deducted some in relevancy.
- Bulk-Follow of Verified Accounts – Spam accounts will often bulk-follow prominent and/or Verified accounts in order to establish a foothold in the social graph. When setting up a Twitter account for a real, human user before, we used to follow a handful of the Verified accounts suggested by Twitter during the signup process. Oddly enough, this behavior alone can cause an account to get suspended until a CAPTCHA or other verification is passed. So, the takeaway here is do not follow all that many accounts suggested to you in the signup process if you are setting up a new account. Definitely do not use one of those automated follow services that people used to use a lot years ago, or your account could get downgraded in relevancy or suspended.
- Few Followers – Spam accounts are often newer, and because they often do not promote themselves in ways beneficial to the community they inspire very few followers. So, a low follower account can be one factor in combination with others to identify a potentially spammy user.
- Irrelevant Hashtags in Reply Tweets – Hashtags in Tweets that do not involve the original Tweet's topic.
- Tweets Containing Affiliate Links – self explanatory.
- Frequent Requests to Befriend Users in a Short Time Frame
- Reposting Duplicate Content Across Multiple Accounts – Especially duplicate content posted close in time.
- Accounts that Tweet Only URLs
- Posting Irrelevant or Misleading Content to Trending Topics/Hashtags
- Erroneous or Fictitious Profile Location – For example, a profile location showing “Poughkeepsie, NY”, but the user's IP is China, would produce an apparent mismatch indicating a potential scammer or spammer account.
- Account IP Address Matching Abuser Account Ranges, or Country Locations that Originate Greater Amounts of Abuse – For example, Russia. Likewise, commonly known proxied IP addresses are easily detectable by Twitter, and are flagged as suspect.
- Default Profile Image – Human users are more likely to set up customized account images (“avatars”), so not setting one up and continued use of Twitter's default profile image is a red flag.
- Duplicated Profile Image – A profile image duplicated across many accounts is a red flag.
- Default Cover Image – Failure to set up a custom cover image in the profile's masthead is not as suspicious as continued use of a default profile image, but use of a different masthead image is more representative of a real account.
- Nonresolving URL in Profile – SparkToro suggests this, and it does align with many spam accounts. Sometimes this is because spammers may be more likely to set up websites that are likely to be suspended, or typosquatting domains intended to create Trojan horse websites which can also get suspended.
- Profile Descriptions Matching Spammer Keywords/Patterns
- Display Usernames Conform To Spam Patterns – Usernames that are meaningless alphanumeric sequences, or proper names followed by multiple numeric digits reflect a lack of imagination upon the part of spammers who may be attempting to register hundreds of accounts in bulk, with each name generated randomly, or each username generated by adding the next number in a sequence. Example: John32168762 is the sort of username that most humans find undesirable.
- Patterns – Profile and Tweet patterns used by spammers often reveal spammer accounts. For instance, if numbers of accounts with default Twitter profile pics and similar patterned display usernames all Tweet out links to a particular page or domain, those accounts all become extremely easy to identify and sideline.
Simply listing out spam identification factors sharply understates Twitter's sophisticated systems used for spam identification and spam management.
Major Silicon Valley tech companies have often fought spam for years now, and it has been described as a sort of arms race.
The tech company will create a method to detect the spam, and the spammers then evolve their processes to elude detection, and then the cycle repeats again, and again.
สรุปแล้ว
Twitter's patents illustrate a huge sophistication in terms of employing components of Artificial Intelligence, social graph analysis, and methods that combine synchronous and asynchronous processing in order to deliver content extremely rapidly.
The AI components include:
- Neural networks.
- Natural language processing.
- Circumflex calculation.
- Markov modeling.
- Logistic regression.
- Decision tree analysis.
- Random forest analysis.
- Supervised and unsupervised machine learning.
As the ranking determinations can be based upon unique, abstracted, machine learning models according to specific phrases, topics, and interest profiling, what works for one area of interest may work a little differently for other areas of interest.
Even so, I think that looking at these many potential ranking factors that have been described in Twitter patents can be useful for marketers who want to attain greater exposure on Twitter's platform.
Author's disclosure
I served this year as an expert witness in arbitration between a company that sued Twitter for unfair trade practices, and the case was amicably settled recently.
As an expert witness, I am often privy to secret information, including private communications such as employee emails within major corporations, as well as other key documents that can include data, reports, presentations, employee depositions and other information.
In such cases, I am bound by legal protective orders and agreements not to disclose information that was revealed to me in order to be sufficiently informed on the matters I am asked to opine upon, and this was no exception.
I have not disclosed any information covered by the protective order in this article from my recently-resolved case.
I have gained a greater understanding and insights into some aspects of how Twitter functions from context, observations of Twitter in public use, logical projections based on their various algorithm descriptions and from reading Twitter's patents and other public disclosures subsequent to the resolution of the case I served upon, including the following sources:
- การระบุข้อความที่เกี่ยวข้องในกราฟการสนทนา
- จัดหาเนื้อหาสำหรับการออกอากาศโดยแพลตฟอร์มการส่งข้อความ
- การโปรโมตเนื้อหาในแพลตฟอร์มการส่งข้อความแบบเรียลไทม์
- ระบบและวิธีการกำหนดความเกี่ยวข้องของเนื้อหาโซเชียล
- ระบบและวิธีการในการสร้างหรือบำรุงรักษาเครือข่ายโซเชียลที่เชื่อถือได้ส่วนบุคคล
- การแสดงข้อความที่เกี่ยวข้องของกราฟการสนทนา
- โครงสร้างพื้นฐานการค้นหา
- การกรองการมองเห็น
- การจัดลำดับความสำคัญของข้อความภายในเครือข่ายข้อความ
- ตัวสร้างกราฟแอปพลิเคชัน
- การใช้การเรียนรู้เชิงลึกตามขนาดในไทม์ไลน์ของ Twitter
- ระบบและวิธีการป้องกันสแปมแบบหลายชั้น
- การตรวจจับการโต้ตอบที่เป็นสคริปต์หรือผิดปกติอย่างอื่นกับแพลตฟอร์มโซเชียลมีเดีย
- วิธีที่ Twitter ต่อสู้กับสแปมและระบบอัตโนมัติที่เป็นอันตราย
- บัญชีที่ถูกระงับในการหวนกลับ: การวิเคราะห์ Twitter Spam
- การวิเคราะห์ Twitter: 19.42% ของบัญชีที่ใช้งานอยู่เป็นของปลอมหรือเป็นสแปม
ความคิดเห็นที่แสดงในบทความนี้เป็นความคิดเห็นของผู้เขียนรับเชิญและไม่จำเป็นต้องเป็น Search Engine Land ผู้เขียนพนักงานอยู่ที่นี่
