網絡爬蟲初學者指南
已發表: 2022-05-02無論您是網站所有者還是 SEO 專業人士,都必須了解網站抓取、搜索引擎如何抓取網站和網頁,以及它如何對某個搜索查詢的頁面進行排名(或決定不排名)。
網站抓取是一個技術過程,老實說,您不需要了解它背後的技術方面。 只有了解主要概念以及您可以採取哪些措施來促進 Google 等搜索引擎的網站抓取,才能幫助您使您的網站對搜索引擎更加友好,遵循最佳 SEO 實踐,並在搜索引擎結果頁面 (SERP) 上排名更高。
在這篇文章中,我們將討論:
- 什麼是網站爬取
- 不同類型的網站抓取
- 2022 年及以後網站抓取的未來是什麼樣子
- 如何促進 Google 的網站抓取
讓我們從頂部開始。
什麼是網絡爬蟲?

在我們進一步討論之前,了解什麼是網絡爬蟲至關重要。
爬行是指搜索引擎在互聯網上發現新內容和更新內容的過程。 搜索引擎通過發送爬蟲(通常也稱為機器人、機器人或蜘蛛)來做到這一點。
這些機器人“爬行”互聯網,看看是否有一個新頁面可以在 SERP 上建立索引。 同樣,這些機器人也會尋找最近更新了新內容的頁面。
“內容”的類型可能會有所不同——從網頁到圖像到視頻到 PDF。
網絡爬蟲面臨的限制
可以想像,獲取互聯網上的每個網頁並抓取新內容是一項艱鉅的工作。 之所以如此,是因為互聯網上的網頁數量龐大。 此外,每天都有數以百萬計的新頁面出現在網絡上。
這需要大量的計算資源,這可能會導致可持續性問題。 我們將在本文後面詳細討論這一點,這對網絡抓取的未來意味著什麼,以及這種限制對網站管理員和 SEO 專業人士的潛在影響。
現在,您應該了解這些爬蟲或蜘蛛如何通過提高效率來嘗試克服這個問題,以及如何利用這一點為您帶來好處。
爬網蜘蛛通常會獲取一些網頁並對其進行爬網。 然後他們按照這些網頁上的鏈接(內部鏈接和外部鏈接)來查找要抓取和索引的新 URL。 這有助於爬蟲更有效地構建龐大的 URL 數據庫。
這就是為什麼在您的網頁上添加指向頁面的鏈接——尤其是與其他頁面的上下文相關的內部鏈接是推薦的 SEO 做法。
兩種類型的網絡爬取
根據谷歌的說法,有兩種類型的網絡爬蟲:
- 發現
- 刷新
“說到爬行,我們有兩種爬行方式。 一種是發現爬蟲,我們嘗試在您的網站上發現新頁面。 另一個是刷新爬蟲,我們更新我們知道的現有頁面,”谷歌的 John Mueller 說。
爬網頻率(除了爬網的類型)還取決於您的網站或網頁上內容的更新頻率。 例如,如果您的網站主頁比其他頁面更新得更頻繁,您可能會在該頁面上看到更多的爬網活動。
正如我們之前解釋的那樣,爬蟲也會在主頁上找到鏈接,並使用這些鏈接來爬取它們找到的頁面。
因此,如果在此處找到指向新頁面的鏈接,則刷新爬網(對於主頁,檢查是否有任何新內容)也可能導致發現爬網。
最後一點要理解的是,Googlebot 能夠識別模式以相應地調整其刷新抓取。
Google 的 John Mueller 用以下示例解釋了這一點:
“例如,如果您有一個新聞網站並且您每小時更新一次,那麼我們應該知道我們需要每小時抓取一次。 而如果它是一個每月更新一次的新聞網站,那麼我們應該知道我們不需要每小時抓取一次。

這不是質量的標誌,也不是排名的標誌,或者類似的東西。 這真的只是純粹從技術的角度來看,我們已經知道我們可以每天爬一次,每週一次,這沒關係。”
Google 這樣做是為了節省抓取資源。 正如我們之前提到的,爬行是一項艱鉅的工作,並且會日復一日地佔用大量計算資源。 這不是很可持續,尤其是隨著互聯網的不斷發展。
這就引出了我們的下一點。
2022 年及以後網絡爬蟲的未來
在 Search Off the Records 播客的最近一集中,谷歌的搜索關係團隊暗示谷歌可能會降低網絡抓取速度,以節省計算資源並促進可持續性。
“總的來說,計算並不是真正可持續的。 我們是無碳的,我什至不知道,2007 年什麼的,但這並不意味著我們不能減少更多的環境足跡。 爬行是早期的事情之一,我們可以砍掉一些低垂的果實,”谷歌的 Gary Illyes 說。
他進一步闡述了谷歌如何通過降低刷新抓取率來實現這一可持續發展目標。
“我們做的一件事,我們可能不需要做那麼多,就是刷新爬行。 這意味著,一旦我們發現了一個文檔、一個 URL,我們就會去爬取它,然後,最終,我們將返回並重新訪問該 URL。 那是刷新爬網。
然後每次我們回到那個 URL 時,總是會刷新一次。 現在,我們需要多久返回一次該 URL?”
降低抓取率對網站所有者和 SEO 意味著什麼?

刷新抓取的抓取速度降低可能會減慢更新網頁的索引和排名更新。 但是,這並不一定意味著較差的搜索引擎排名。
加里·伊利斯(Gary Illyes)在播客中證實,認為“如果頁面被爬得越多,它的排名就會越高”,“這是一種誤解”。
關於如何改進網站抓取的 7 個技巧
既然您知道了什麼是網絡爬蟲以及網絡爬蟲的未來可能會怎樣,那麼讓我們簡要地看一些可以用來改進網站爬蟲的技巧。
- 經常更新您的內容。 如果您每週發布一篇文章——在您的網站上沒有其他內容更新——Google 將識別該模式並減慢您網站的刷新爬網速度,正如我們之前所了解的。
- 在您的網站更新後,通過在 Google Search Console 中提交用於重新索引的 URL 來更新 Google。
- 從定期抓取的網站以及您網站上定期抓取的網頁中構建更多上下文相關的鏈接。
- 花時間和精力來提高您網站的加載速度。 如果網站加載速度太慢,網站爬蟲可能會放棄您的網站。
- 添加站點地圖並保持更新,以幫助 Google 進行網絡抓取。 在此處查看您網站的站點地圖。
- 減少網站上孤立頁面的數量。 孤立頁面是那些沒有任何鏈接指向它們的頁面。
- 減少重定向鏈
我們希望您發現這份網絡爬取初學者指南很有用。 如果您有任何問題或意見,請在下面的評論部分告訴我們。
