คู่มือเริ่มต้นสำหรับการรวบรวมข้อมูลเว็บ
เผยแพร่แล้ว: 2022-05-02ไม่ว่าคุณจะเป็นเจ้าของเว็บไซต์หรือผู้เชี่ยวชาญด้าน SEO จำเป็นต้องเข้าใจการรวบรวมข้อมูลเว็บไซต์ วิธีที่เครื่องมือค้นหารวบรวมข้อมูลเว็บไซต์และหน้าเว็บ และอันดับ (หรือตัดสินใจที่จะไม่จัดอันดับ) หน้าสำหรับคำค้นหาบางคำ
การรวบรวมข้อมูลเว็บไซต์เป็นกระบวนการทางเทคนิค และตามจริงแล้วคุณไม่จำเป็นต้องเข้าใจด้านเทคนิคเบื้องหลัง การทำความเข้าใจแนวคิดหลักและสิ่งที่คุณสามารถทำได้เพื่ออำนวยความสะดวกในการรวบรวมข้อมูลเว็บไซต์สำหรับเครื่องมือค้นหาเช่น Google เท่านั้นที่สามารถช่วยให้คุณทำให้เว็บไซต์ของคุณเป็นมิตรกับเครื่องมือค้นหามากขึ้น ปฏิบัติตามแนวทางปฏิบัติ SEO ที่ดีที่สุด และอันดับที่สูงขึ้นในหน้าผลลัพธ์ของเครื่องมือค้นหา (SERPs)
ในโพสต์นี้เราจะพูดถึง:
- การรวบรวมข้อมูลเว็บไซต์คืออะไร
- การรวบรวมข้อมูลเว็บไซต์ประเภทต่างๆ
- อนาคตของการรวบรวมข้อมูลเว็บไซต์จะเป็นอย่างไรในปี 2022 และปีต่อๆ ไป
- วิธีอำนวยความสะดวกในการรวบรวมข้อมูลเว็บไซต์สำหรับ Google
ลองเอามาจากด้านบนกัน
การรวบรวมข้อมูลเว็บคืออะไร?

ก่อนที่เราจะพูดถึงเรื่องนี้ สิ่งสำคัญคือต้องเข้าใจว่าการรวบรวมข้อมูลเว็บคืออะไร
การรวบรวมข้อมูลหมายถึงกระบวนการที่เครื่องมือค้นหาค้นพบเนื้อหาใหม่และอัปเดตบนอินเทอร์เน็ต เสิร์ชเอ็นจิ้นทำเช่นนี้โดยส่งออกโปรแกรมรวบรวมข้อมูล (หรือที่รู้จักกันทั่วไปว่าโรบ็อต บอท หรือสไปเดอร์)
บอทเหล่านี้ “รวบรวมข้อมูล” อินเทอร์เน็ตเพื่อดูว่ามีหน้าใหม่ที่พวกเขาสามารถจัดทำดัชนีบน SERP ได้หรือไม่ ในทำนองเดียวกัน บอทเหล่านี้ยังมองหาหน้าเว็บที่เพิ่งอัปเดตด้วยเนื้อหาใหม่
ประเภทของ “เนื้อหา” อาจแตกต่างกันไป ตั้งแต่หน้าเว็บไปจนถึงรูปภาพ วิดีโอ ไปจนถึง PDF
ข้อจำกัดที่โปรแกรมรวบรวมข้อมูลเว็บต้องเผชิญ
อย่างที่คุณจินตนาการได้ เป็นการยากที่จะดึงหน้าเว็บแต่ละหน้าบนอินเทอร์เน็ตและรวบรวมข้อมูลเพื่อหาเนื้อหาใหม่ นั่นเป็นเพราะปริมาณของหน้าเว็บบนอินเทอร์เน็ต นอกจากนี้ หน้าใหม่หลายล้านหน้าปรากฏบนเว็บทุกวัน
ต้องใช้ทรัพยากรในการคำนวณเป็นจำนวนมาก ซึ่งอาจนำไปสู่ปัญหาด้านความยั่งยืน เราจะพูดถึงเรื่องนี้มากขึ้นในบทความนี้ ความหมายของการรวบรวมข้อมูลเว็บในอนาคต และผลกระทบที่อาจเกิดขึ้นจากข้อจำกัดนี้ต่อผู้ดูแลเว็บและผู้เชี่ยวชาญด้าน SEO
สำหรับตอนนี้ คุณควรเข้าใจว่าโปรแกรมรวบรวมข้อมูลหรือสไปเดอร์เหล่านี้พยายามเอาชนะปัญหานี้อย่างไรโดยมีประสิทธิภาพมากขึ้น และคุณจะใช้ประโยชน์จากสิ่งนี้ให้เป็นประโยชน์ได้อย่างไร
แมงมุมรวบรวมข้อมูลมักจะดึงหน้าเว็บสองสามหน้าและรวบรวมข้อมูล จากนั้นพวกเขาจะติดตามลิงก์ (ลิงก์ภายในและลิงก์ภายนอก) บนหน้าเว็บเหล่านั้นเพื่อค้นหา URL ใหม่เพื่อรวบรวมข้อมูลและจัดทำดัชนี ซึ่งช่วยให้โปรแกรมรวบรวมข้อมูลมีประสิทธิภาพมากขึ้นในการสร้างฐานข้อมูลขนาดใหญ่ของ URL
และนั่นเป็นเหตุผลที่การเพิ่มลิงก์ไปยังหน้าต่างๆ ในหน้าเว็บของคุณ โดยเฉพาะอย่างยิ่งลิงก์ภายในที่เกี่ยวข้องตามบริบทไปยังหน้าอื่นๆ จึงเป็นแนวทางปฏิบัติ SEO ที่แนะนำ
การรวบรวมข้อมูลเว็บสองประเภท
ตาม Google การรวบรวมข้อมูลเว็บมีสองประเภท:
- การค้นพบ
- รีเฟรช
“เมื่อพูดถึงการรวบรวมข้อมูล เรามีการรวบรวมข้อมูลสองประเภท หนึ่งคือการรวบรวมข้อมูลการค้นพบที่เราพยายามค้นหาหน้าใหม่บนเว็บไซต์ของคุณ และอีกประการหนึ่งคือการรวบรวมข้อมูลเพื่อรีเฟรชซึ่งเราอัปเดตหน้าเว็บที่มีอยู่ที่เรารู้จัก” John Mueller ของ Google กล่าว
ความถี่ในการรวบรวมข้อมูล — นอกเหนือจากประเภทของการรวบรวมข้อมูล — ยังขึ้นอยู่กับความถี่ที่มีการอัปเดตเนื้อหาบนเว็บไซต์หรือหน้าเว็บของคุณ ตัวอย่างเช่น หากหน้าแรกของเว็บไซต์ของคุณมีการอัปเดตบ่อยกว่าหน้าอื่นๆ คุณอาจเห็นกิจกรรมการรวบรวมข้อมูลในหน้านั้นมากขึ้น
และดังที่เราได้อธิบายไว้ก่อนหน้านี้ สไปเดอร์รวบรวมข้อมูลจะพบลิงก์ในหน้าแรกและรวบรวมข้อมูลจากหน้าเว็บที่พบด้วยลิงก์เหล่านั้น
ดังนั้น การรวบรวมข้อมูลเพื่อรีเฟรช (สำหรับหน้าแรก เพื่อตรวจสอบว่ามีเนื้อหาใหม่หรือไม่) อาจนำไปสู่การตระเวนค้นพบหากพบลิงก์ไปยังหน้าใหม่ที่นั่น
จุดสุดท้ายที่ต้องทำความเข้าใจเกี่ยวกับเรื่องนี้ก็คือ Googlebot สามารถจดจำรูปแบบเพื่อปรับการรวบรวมข้อมูลการรีเฟรชได้อย่างเหมาะสม

John Mueller ของ Google อธิบายสิ่งนี้ด้วยตัวอย่างต่อไปนี้:
“ตัวอย่างเช่น หากคุณมีเว็บไซต์ข่าวและอัปเดตทุกชั่วโมง เราควรเรียนรู้ว่าเราจำเป็นต้องรวบรวมข้อมูลทุกชั่วโมง ในขณะที่เป็นเว็บไซต์ข่าวที่อัพเดทเดือนละครั้ง เราควรเรียนรู้ว่าเราไม่จำเป็นต้องรวบรวมข้อมูลทุกชั่วโมง
และนั่นไม่ใช่สัญญาณของคุณภาพ หรือเครื่องหมายของอันดับ หรืออะไรทำนองนั้น จากมุมมองทางเทคนิคล้วนๆ เราได้เรียนรู้ว่าเราสามารถรวบรวมข้อมูลได้วันละครั้ง สัปดาห์ละครั้ง ไม่เป็นไร”
Google ทำเช่นนี้เพื่อประหยัดทรัพยากรในการรวบรวมข้อมูล ดังที่เราได้กล่าวไว้ก่อนหน้านี้ การรวบรวมข้อมูลเป็นงานที่ยากและอาจต้องใช้ทรัพยากรในการคำนวณเป็นจำนวนมากในแต่ละวัน นั่นไม่ยั่งยืนมาก โดยเฉพาะอย่างยิ่งเมื่ออินเทอร์เน็ตเติบโตอย่างต่อเนื่อง
สิ่งนี้นำไปสู่จุดต่อไปของเรา
อนาคตของการรวบรวมข้อมูลเว็บในปี 2022 และปีต่อๆ ไป
ในตอนล่าสุดของพอดแคสต์ Search Off the Records ทีม Search Relations ของ Google บอกเป็นนัยว่า Google อาจลดอัตราการรวบรวมข้อมูลเว็บเพื่อประหยัดทรัพยากรในการคำนวณและส่งเสริมความยั่งยืน
“โดยทั่วไปแล้ว คอมพิวเตอร์นั้นไม่ยั่งยืนจริงๆ เราปลอดคาร์บอนตั้งแต่นั้นเป็นต้นมา ฉันไม่รู้ด้วยซ้ำว่าปี 2550 หรืออะไรก็ตาม แต่ไม่ได้หมายความว่าเราไม่สามารถลดรอยเท้าของเราที่มีต่อสิ่งแวดล้อมลงได้อีก และการรวบรวมข้อมูลเป็นหนึ่งในสิ่งเหล่านั้นในช่วงต้น เราสามารถตัดผลไม้ที่ห้อยต่ำได้” Gary Illyes จาก Google กล่าว
เขาอธิบายเพิ่มเติมว่า Google จะบรรลุเป้าหมายด้านความยั่งยืนนี้ได้อย่างไรโดยการลดอัตราการรวบรวมข้อมูลการรีเฟรช
“สิ่งหนึ่งที่เราทำ และเราอาจไม่จำเป็นต้องทำมากขนาดนั้นก็คือการรีเฟรชการรวบรวมข้อมูล ซึ่งหมายความว่าเมื่อเราพบเอกสาร URL แล้วเราไปรวบรวมข้อมูล จากนั้นเราจะกลับไปดู URL นั้นในท้ายที่สุด นั่นคือการรวบรวมข้อมูลการรีเฟรช
และทุกครั้งที่เรากลับไปที่ URL นั้น จะเป็นการรวบรวมข้อมูลเพื่อรีเฟรชเสมอ ตอนนี้เราต้องกลับไปที่ URL นั้นบ่อยแค่ไหน”
อัตราการรวบรวมข้อมูลที่ลดลงหมายถึงอะไรสำหรับเจ้าของเว็บไซต์และ SEO

อัตราการรวบรวมข้อมูลที่ลดลงสำหรับการรวบรวมข้อมูลการรีเฟรชอาจทำให้การจัดทำดัชนีและการอัปเดตการจัดอันดับสำหรับหน้าเว็บที่อัปเดตช้าลง อย่างไรก็ตาม ไม่ได้หมายความว่าการจัดอันดับของเครื่องมือค้นหาจะด้อยกว่าเสมอไป
Gary Illyes ยืนยันระหว่างพอดคาสต์ว่า “มันเป็นความเข้าใจผิด” ที่คิดว่า “ถ้าหน้าถูกรวบรวมข้อมูลมากขึ้น หน้านั้นจะติดอันดับมากขึ้น”
7 เคล็ดลับในการปรับปรุงการรวบรวมข้อมูลบนเว็บไซต์ของคุณ
เมื่อคุณทราบแล้วว่าการรวบรวมข้อมูลเว็บคืออะไรและอนาคตของการรวบรวมข้อมูลเว็บจะเป็นอย่างไร มาดูเคล็ดลับสั้นๆ ที่คุณสามารถใช้ปรับปรุงการรวบรวมข้อมูลบนเว็บไซต์ของคุณกัน
- อัปเดตเนื้อหาของคุณบ่อยๆ หากคุณเผยแพร่หนึ่งโพสต์ต่อสัปดาห์ — โดยไม่มีการอัปเดตเนื้อหาอื่นๆ ในเว็บไซต์ของคุณ — Google จะจดจำรูปแบบและชะลอการรวบรวมข้อมูลการรีเฟรชสำหรับเว็บไซต์ของคุณ ดังที่เราได้เรียนรู้ก่อนหน้านี้
- อัปเดต Google เมื่อเว็บไซต์ของคุณได้รับการอัปเดตโดยส่ง URL เพื่อทำดัชนีใหม่ใน Google Search Console
- สร้างลิงก์ที่เกี่ยวข้องตามบริบทจากเว็บไซต์ที่มีการรวบรวมข้อมูลเป็นประจำ รวมทั้งหน้าเว็บที่รวบรวมข้อมูลเป็นประจำในเว็บไซต์ของคุณ
- ใช้เวลาและความพยายามในการปรับปรุงความเร็วในการโหลดเว็บไซต์ของคุณ หากเว็บไซต์โหลดช้าเกินไป โปรแกรมรวบรวมข้อมูลเว็บไซต์อาจละทิ้งเว็บไซต์ของคุณ
- เพิ่มแผนผังเว็บไซต์และอัปเดตอยู่เสมอเพื่อช่วย Google ในการรวบรวมข้อมูลเว็บ ตรวจสอบแผนผังเว็บไซต์ได้ที่นี่
- ลดจำนวนหน้าที่กำพร้าบนเว็บไซต์ของคุณ หน้าที่ถูกละเลยคือหน้าที่ไม่มีลิงก์ที่ชี้ไปยังหน้าเหล่านั้น
- ลดห่วงโซ่การเปลี่ยนเส้นทาง
เราหวังว่าคุณจะพบว่าคู่มือเริ่มต้นสำหรับการรวบรวมข้อมูลเว็บนี้มีประโยชน์ หากคุณมีคำถามหรือความคิดเห็นใด ๆ โปรดแจ้งให้เราทราบในส่วนความคิดเห็นด้านล่าง
