用於 SEO 的 Robots.txt(SEO 基礎)
已發表: 2022-04-09
Robots.txt 文件是您網站上不想丟棄的元素。 它們允許並阻止試圖“窺探”您網站內容的不受歡迎的機器人訪問者進入。
這或多或少是一種定義 robots.txt 文件的簡單方法。
在這篇文章中,我將介紹robots.txt 的 SEO基礎知識。
您將學習:
- 什麼時候應該使用它們
- 如何實施它們
- 要避免的錯誤
搜索引擎使用的機器人是爬網以索引來自整個互聯網的網站內容的蜘蛛。 此信息使搜索引擎可以了解網頁上的內容,以便在需要時對其進行檢索。
一旦您了解了網絡抓取的過程,您就會明白為什麼 robots.txt 文件對您的網站有益。 他們來這裡是為了保護您免受四處窺探的遊客的傷害。 他們只會提供您希望顯示的有關您網站的信息。
為了更好地理解 robots.txt 文件,讓我們仔細看看它們是什麼以及它們是如何融合在一起的。
什麼是 Robots.txt 文件?
機器人.txt。 文件,也稱為機器人排除協議,是由搜索引擎讀取的文件,其中包含有關授予或拒絕訪問您網站的全部或某些部分的規則。 Google 或 Bing 等搜索引擎會發送網絡爬蟲來訪問您的網站並收集他們可以使用的信息,以便您的內容可以出現在搜索結果中。
要描繪robot.txt 文件的工作原理,請嘗試想像機器人或小蜘蛛爬過您的網站以搜索信息。 當一百萬隻機器人蜘蛛在這個地方爬行並四處窺探,以找到冒名頂替者存在的最輕微證據時,回想那些科幻電影。
通過 GIPHY
這些簡單的文本文件通過向搜索引擎索引機器人發出命令來用於搜索引擎優化,這些機器人可能會或可能不會抓取頁面。 Robots.txt 文件主要用於管理網絡爬蟲的預算,並且在您不希望這些爬蟲訪問您網站的一部分時派上用場。機器人.txt。 文件非常重要,因為它們讓搜索引擎知道他們可以在哪裡抓取。 基本上,他們所做的就是部分或全部阻止您的網站,或者將您的網站編入索引。 換句話說,這是一種讓搜索引擎發現您的網站的方法。
工作中的爬行過程
爬取網站內容的過程稱為爬蟲。 搜索引擎的主要任務是通過跟踪數百萬個鏈接來抓取網絡以發現和索引內容。 當機器人訪問一個站點時,他們做的第一件事就是查找 robots.txt 文件以獲取有關他們可以進行多少“窺探”的信息。
搜索引擎確實遵守您的 robots.txt 文件中設置的規則。 如果沒有 robots.txt 文件或網站沒有被禁止的活動,機器人將抓取所有信息。 然而,像谷歌這樣的一些搜索引擎並不支持所有給定的指令,我們將進一步詳細說明。
為什麼使用 Robots.txt 文件?
Robots.txt 文件允許網站執行以下操作:
- 阻止對整個站點的訪問
- 阻止訪問網站的一部分
- 阻止對一個 URL 或特定 URL 參數的訪問
- 阻止對整個目錄的訪問
- 允許設置通配符
Robots.txt 文件通過允許爬蟲訪問某些區域來控制爬蟲在您網站上的活動。 您不授予 Google 或其他搜索引擎訪問您網站某些部分的權限總是有原因的。 一種可能是您仍在開發您的網站,或者您希望保護機密信息。
儘管網站可以在沒有 robots.txt 文件的情況下運行,但重要的是要記住使用它們的一些好處:
- 防止搜索引擎爬過私人文件夾或子域
- 防止抓取重複內容和訪問您認為無關緊要的頁面
- 防止將您網站上的某些圖像編入索引
- 防止和管理服務器過載
- 防止網站變慢
如何查找、創建和測試 Robots.txt 文件?
robots.txt 始終位於網站的根域中。 例如,您可以在 https://www.example.com/robots.txt 中找到它。 如果您想編輯它,您可以訪問主機 CPanel 中的文件管理器。
如果您的網站沒有 robots.txt 文件,則創建一個相當簡單,因為它是在文本編輯器中創建的基本文本文件。 只需打開一個空白的 .txt 文檔並插入您的指令。 完成後,只需將文件另存為“robots.txt”即可。
如果您通常會犯很多打字錯誤,那麼使用 robots.txt 生成器可能是明智之舉,以避免 SEO 災難並最大限度地減少語法錯誤。 請記住,即使是最輕微的遺漏或添加一個字母或數字的錯誤也會帶來麻煩。
創建 robots.txt 文件後,將其放在相應的域根目錄中。 確保在上線之前測試文件以確保它是有效的。 為此,您需要轉到 Google 支持頁面並單擊“打開 robots.txt 測試器”按鈕。不幸的是,此測試選項僅在舊版本的 Google Search Console 上可用。
選擇您要測試的屬性,刪除框中可能存在的任何內容,然後粘貼您的 robots.txt 文件。 如果您的文件收到 OK,那麼您就有了一個功能齊全的 robots.txt 文件。 如果沒有,您需要返回並查找錯誤。
實施爬網指令
每個 robots.txt 文件都由指令組成,讓搜索引擎能夠訪問信息。 每個指令都以指定用戶代理開始,然後為該用戶代理設置規則。 下面我們整理了兩個列表; 一個包含用戶代理支持的指令和其他不支持的指令。
支持的指令
- 用戶代理- 用於針對某些機器人的指令。 搜索引擎尋找適用於他們的用戶代理和塊。 每個搜索引擎都有一個用戶代理標記。 由於區分大小寫,請確保輸入正確的用戶代理形式。
例如:用戶代理:Googlebot用戶代理:Bingbot
- Disallow - 如果您想阻止搜索引擎抓取網站的某些區域,請使用此指令。 您可以執行以下操作:
阻止所有用戶代理對整個目錄的訪問:
用戶代理: *
不允許: /
尤其是為所有用戶代理阻止某個目錄
用戶代理: *
禁止:/portfolio
阻止所有用戶代理訪問 PDF 或任何其他文件。 只需使用適當的文件擴展名。
用戶代理: *
不允許:*.pdf$
- Allow - 該指令允許搜索引擎抓取頁面或目錄。 要記住的一個很好的注意事項是您可以覆蓋不允許的指令。 假設您不希望搜索引擎抓取投資組合目錄,但您將允許它們訪問特定目錄。
用戶代理: *
禁止:/portfolio
允許:/portfolio/allowed-portfolio
- 站點地圖- 為搜索引擎提供站點地圖位置,讓他們更容易抓取它。
不支持的指令
- 抓取延遲- 當您希望機器人放慢速度並在抓取之間延遲以不使您的服務器不堪重負時,這是一個很好的指令。 該指令對小型網站而非大型網站非常有幫助。 請注意,Google 和百度不再支持抓取延遲指令,但 Yandex 和 Bing 仍然支持它。
- Noindex - 用於從搜索引擎中排除網站或文件的指令。 谷歌從未支持此命令。 所以,如果你想避開搜索引擎,你需要使用 x-robots HTTP header 或 meta tag robots。
- Nofollow - Google 從未支持的另一個指令,用於命令搜索引擎不要跟踪頁面上的鏈接。 使用 x-robots 標頭或元標記機器人在所有鏈接上使用 nofollow 指令。
- 主機指令- 它用於決定您是否希望顯示 www。 在 URL( example.com或www.example.com )之前。 該指令目前僅由 Yandex 支持,因此建議不要依賴它。
通配符的使用
通配符是用於簡化 robots.txt 指令的字符。 通配符可用於尋址和應用指令到所有用戶代理或單獨尋址特定的用戶代理。 以下是常用的通配符:
- Asterix (*) - 在指令中,它對應於“應用於所有用戶代理”。它也可以用於對應於“匹配 URL 模式或任何字符序列”。 如果您有遵循相同模式的 URL,那麼這將使您的生活更輕鬆。
- 美元符號 ($) - 用於標記 URL 的結尾。
讓我們看看這在一個例子中會是什麼樣子。 如果您決定所有搜索引擎都不應訪問您的 PDF 文件,則 robots.txt 應如下所示:
用戶代理: *
禁止:/*.pdf$
因此,以 .pdf 結尾的 URL 將無法訪問。 但請注意,如果您的 URL 在 .pdf 結尾後有其他文本,則該 URL 將是可訪問的。 因此,在編寫 robots.txt 文件時,請確保已考慮所有方面。
要避免的錯誤
使用robot.txt 文件很有用,並且有很多方法可以操作它們。 但是,讓我們更深入地了解使用 robots.txt 文件時需要避免的錯誤。
好處是巨大的,但如果沒有以正確的方式使用 robots.txt 文件,也可能造成很多損害。
- 新行- 為每個指令使用一個新行,以免混淆搜索引擎
- 注意區分大小寫- 正確創建 robots.txt 文件,因為它們區分大小寫。 密切注意這一點,否則它們將不起作用
- 避免阻止內容- 確保多次檢查 disallow 和 noindex 標籤,因為它們可能會損害 SEO 結果。 注意不要阻止應該公開展示的好內容
- 保護私人數據- 為了保護私人信息,明智的做法是要求訪問者登錄。這樣您就可以確保 PDF 或其他文件的安全
- 過度使用抓取延遲- 一個好的建議是不要過度使用任何指令,尤其是抓取延遲。 如果您正在運行一個大型網站,則使用該指令可能會適得其反。 您將限制機器人每天抓取的 URL 數量上限,這是不可取的。
重複內容
您的網站可能包含重複內容的原因有多種。 它可能是打印機友好的版本、可從多個 URL 訪問的頁面或具有相似內容的不同頁面。 搜索引擎無法識別這是否是重複版本。
在這種情況下,用戶需要將 URL 標記為規範。 此標籤用於通知搜索引擎副本的原始位置。 如果用戶不這樣做,那麼用戶代理將選擇哪個是規範的,或者更糟糕的是,他們可能會將兩個內容都標記為規範。 避免這種情況的另一種方法是重寫內容。
讓爬行的眼睛索引
當搜索引擎對您的網站進行網絡爬網或爬蟲時,他們會瀏覽網站上的所有內容以對其進行索引。 此過程允許抓取的網站出現在搜索引擎的結果部分。
通過使用 robots.txt,您可以告訴搜索引擎他們可以訪問或不可以訪問的位置。 您基本上是通過設置適當的規則來限制它們。 robots.txt 的使用相當簡單實用。 一旦您了解了分配指令的規則,您就可以對您的網站做很多事情。
建議您密切注意您的 robots.txt 文件,以確保它們設置正確並按編碼執行。 如果您發現任何故障,請迅速做出反應以避免災難。
將 robots.txt 文件視為成功控製網站索引的重要工具。
