TechSEO360 爬蟲指南 – 站點地圖和技術 SEO 審核

已發表: 2019-05-21

10 年來,我在 Search Engine People 進行的技術 SEO 網站審核所使用的爬蟲就是現在所謂的 TechSEO360。 一顆隱藏的寶石; 具有成本效益、高效(爬取任何規模的任何站點)、前瞻性(例如:在其他此類爬蟲工具之前支持 AJAX)。 我之前寫過關於這個網站爬蟲的文章,但想寫一篇更全面的綜合文章。

TechSEO360 解釋

TechSEO360 是一個技術 SEO 爬蟲,其亮點是:

  • 適用於 Windows 和 Mac 的本機軟件。
  • 可以開箱即用地抓取非常大的網站。
  • 為需要它的人提供靈活的爬蟲配置。
  • 使用內置或自定義報告來分析收集的網站數據(儘管我通常依賴將所有數據導出到 Excel 並使用其強大的過濾器、透視、自動格式化等)。
  • 除了可視站點地圖之外,還可以創建圖像、視頻和 hreflang XML 站點地圖。

本指南的結構

本指南將涵蓋該軟件中所有最重要的 SEO 功能。

  • 我們將使用演示網站 https://Crawler.TechSEO360.com 在我們所有的例子中。
  • 所有屏幕截圖都來自 Windows 版本 - 但 Mac 版本包含相同的功能和工具。
  • 我們將在其免費模式下使用 TechSEO360,這是在初始全功能免費 30 試用期結束時切換到的狀態。
  • 除非另有說明,否則我們將使用默認設置進行網站抓取和分析。
  • 我們將首先展示如何配置站點抓取,然後介紹技術 SEO、報告和站點地圖。

配置和啟動爬網

使用默認設置時,大多數網站都可以正常抓取。 這意味著所需的唯一配置通常是輸入您要分析的網站的路徑 - 無論它是駐留在 Internet、本地服務器還是本地磁盤上。
啟動爬蟲
作為手動配置的簡單替代方案,還可以應用各種“快速預設”來配置基礎設置。 示例可能是:

  • 您知道您想要創建一個視頻站點地圖,並希望確保您可以生成最好的站點地圖。
  • 您使用的特定網站 CMS 會生成許多應排除的精簡內容 URL。

爬蟲配置預設
對於那些想要深入了解設置的人,您可以斷言對抓取過程的近乎完全控制,包括:

爬蟲引擎

在這裡,您可以處理如何執行 HTTP 請求的更深層次的內部結構。 一件特別的事情是如何提高抓取速度:只需增加同時線程和同時連接的數量 - 只需確保您的計算機和網站可以處理額外的負載。
爬蟲引擎配置

網站管理員過濾器

控制爬蟲應遵循 noindex、nofollow、robots.txt 和類似文件的程度。
遵守網站指示

分析過濾器

配置應分析其內容的 URL 的規則。 有多個“排除”和“限製到”過濾選項可用,包括 URL 模式、文件擴展名和 MIME 類型。
爬蟲分析過濾器

輸出濾波器

類似於“掃描網站 | 分析過濾器” - 但用於控制在網站抓取完成時哪些 URL 被“標記”以刪除。
爬蟲輸出過濾器
如果選項“掃描網站 | 爬蟲選項 | 在網站掃描後應用網站管理員和輸出過濾器”選項,在“掃描網站 | 網站管理員過濾器”和“掃描網站 | 輸出過濾器”選項中排除的 URL 仍然可以保留並在網站抓取停止後顯示停止”未選中。 使用這種組合,您:

  • Get 保留爬蟲收集的所有信息,以便您檢查所有內容。
  • 在創建 HTML 和 XML 站點地圖時仍然避免包含 URL。
  • 在進行報告和導出時仍然可以獲得適當的“標記”。

爬取進度

在網站抓取期間,您可以看到各種統計數據,顯示有多少 URL 的內容已被分析,有多少鏈接和引用已解析,還有多少 URL 仍在等待隊列中。
網站掃描進度

抓取後的網站概覽

站點抓取完成後,程序會打開一個視圖,左側有數據列:
找到的 URL 概覽
如果您選擇一個 URL,您可以在右側查看更多詳細信息:
有關特定 URL 的詳細信息
這是它在全尺寸屏幕上的外觀的縮略圖:
網站掃描結果的完整概述

左邊

在這裡,您將找到在網站掃描期間找到的 URL 和相關數據。 默認情況下,僅顯示少數最重要的數據列。 在此之上有一個由五個按鈕和一個文本框組成的面板。 他們的目的是:

#1
帶有預定義“快速報告”的下拉菜單。 這些可用於快速配置:

  • 哪些數據列是可見的。
  • 啟用了哪些“快速過濾器選項”。
  • 活動的“快速過濾文本”以進一步限制顯示的內容。

從預定義的快速報告中選擇

#2
在將網站中的所有 URL 顯示為平面“列表”與“樹”之間切換的下拉菜單。
在列表和樹格式查看 URL 之間切換

#3
用於配置哪些數據列可見的下拉菜單。
控制哪些數據列可見

#4
與上述相比,啟用數據列“重定向到路徑”的可見性如下所示:
打開數據列可見性的示例

#5
用於配置選擇哪些“快速過濾器選項”的下拉菜單。
快速過濾選項

#6
開/關按鈕激活/停用所有“快速過濾器”功能。

#7
包含“快速過濾文本”的框,用於進一步自定義顯示的內容。

如何使用“快速報告”和“快速過濾器”功能將在後面舉例說明。

右邊

您可以在此處查看左側所選 URL 的其他詳細信息。 這包括帶有附加詳細信息的“鏈接者”列表、“鏈接 [內部]”列表、“使用者”列表、“目錄摘要”等。

要了解如何在調查細節時使用它,請比較以下兩種情況。

#1
在左側,我們選擇了 URL http://crawler.techseo360.com/noindex-follow.html - 我們還可以看到爬蟲在數據列“URL flags”中將其標記為"[noindex][follow]" ”:
noindex 和關注 URL 概述
在“鏈接 [內部]”選項卡的右側,我們可以確認所有鏈接都已被關注,包括並查看其他詳細信息
noindex 並關注 URL 詳細信息

#2
在左側,我們選擇了 URL http://crawler.techseo360.com/nofollow.html - 我們還可以看到爬蟲在數據列“URL flags”中將其標記為"[index][nofollow]" ”:
index 和 nofollow URL 概述
在“鏈接[內部]”選項卡的右側,我們可以確認沒有鏈接被關注。
index 和 nofollow URL 詳細信息

使用快速報告

正如我所說,我不經常使用這些,更喜歡顯示所有數據列,然後導出到 Excel。 但對於那些喜歡其他工具中的此類內置報告的人來說,這裡有一些最常用的快速報告:

所有類型的重定向

內置的“快速報告”顯示各種重定向,包括遵循重定向鏈所需的信息:
URL 重定向報告
本質上,這具有:

  1. 將數據列的可見性更改為最合適的。
  2. 將過濾器文本設置為:
    [httpredirect|canonicalredirect|metarefreshredirect] -[noindex] 200 301 302 307
  3. 激活過濾器:
    • Only show URLs with all [filter-text] found in "URL state flags" column
    • Only show URLs with any filter-text-number found in "response code" column

這樣一個 URL 必須滿足以下三個條件才能顯示:

  1. 必須通過 HTTP 重定向、規範指令或“0 秒”元刷新來指向另一個 URL。
  2. 不能包含“noindex”指令。
  3. 必須具有響應代碼 200、301、302 或 307。

404 未找到

如果您需要快速識別損壞的鏈接和 URL 引用,此報告是一個不錯的選擇。 這樣,數據列“Linked.List”(例如“a”標籤)、“Used.List”(例如“src”屬性)和“Redirected.List”就變得可見。
未找到 URL 報告

無索引

使用“noindex”指令快速查看所有頁面。
URLs noindex 報告

重複的標題 #1

快速查看所有具有重複標題的頁面,包括具有重複空標題的頁面。
默認 URL 重複標題報告

重複標題 #2

如果沒有被其他過濾器覆蓋,則過濾文本匹配所有可見數據列中的內容。 在這裡,我們將重複標題報告範圍縮小到包含“示例”一詞的那些。
過濾的 URL 重複標題報告

標題字符數

限制按標題字符數顯示的 URL。 您可以控制閾值以及是否高於或低於。 類似的可用於描述。
標題字符數

標題像素數

限制標題像素數顯示的 URL。 您可以控制閾值以及是否高於或低於。 類似的可用於描述。
標題像素數

圖像和缺失的替代/錨文本

僅顯示在沒有任何替代文本的情況下使用或在沒有任​​何錨文本的情況下鏈接的圖像 URL。
引用缺少 alt 或錨文本的圖像

其他工具

頁面分析

默認情況下,在網站抓取期間對所有頁面進行全面的文本分析。 為此找到的選項位於“掃描網站 | 數據收集”中,其結果如下:
URL 關鍵字和內容分析概述
但是,您也可以始終分析單個頁面而無需爬取整個網站:
URL 關鍵字和內容分析詳細信息
請注意,如果您使用“選定頁面的總分”按鈕,您可以查看整個網站的目標關鍵字和短語。

關鍵字列表

一個靈活的關鍵字列表構建器,允許組合關鍵字列表並執行全面清理。
關鍵字列表

第三方在線工具

如果您需要更多工具,您可以自己添加它們,甚至決定哪些應該可以通過選項卡訪問,而不僅僅是下拉菜單。
第三方在線工具
該軟件將自動傳遞選定的 URL 或類似於選定的在線工具。 每個在線工具都由一個文本文件配置,該文件定義傳遞哪些數據以及如何完成。

站點地圖

站點地圖文件類型

13種不同的站點地圖文件格式,很可能滿足您的需求。 這包括 XML 站點地圖、視頻站點地圖和圖像站點地圖。
支持的站點地圖文件格式

XML 站點地圖和 Hreflang

即使您的網站不包含任何 hreflang 標記,如果您的 URL 包含包含對語言文化或國家/地區的引用的部分,TechSEO360 通常也能夠生成具有適當備用 hreflang 信息的 XML 站點地圖。
XML站點地圖中的hreflang

XML 圖像和視頻站點地圖

您通常可以使用“快速預設”之一來加快配置速度:

  • 谷歌視頻站點地圖
  • 谷歌視頻站點地圖(網站有外部託管的視頻)
  • 谷歌圖片站點地圖
  • 谷歌圖片站點地圖(網站有外部託管的圖片)

如果您打算同時創建圖像和視頻站點地圖,請使用其中一種視頻選項,因為它們還包括所有最適合圖像站點地圖的配置。

TechSEO360 使用不同的方法來計算哪些頁面、視頻和圖像屬於生成的 XML 站點地圖 - 如果圖像或視頻在多個地方使用,這可能會很棘手。

HTML 站點地圖

從內置的 HTML 模板中選擇或設計您自己的模板,包括實際的 HTML/CSS/JS 代碼和構建站點地圖時使用的各種選項。
自定義 HTML 站點地圖

其他功能

Javascript 和 AJAX 支持

您可以通過選中“掃描網站 | 爬蟲選項 | 嘗試在 Javascript 中搜索”選項,將 TechSEO360 配置為在 Javascript 代碼中搜索文件和 URL 引用。

如果您正在處理 AJAX 網站,您可以在“掃描網站 | 爬蟲引擎 | 默認路徑類型和處理程序”中切換到啟用 AJAX 的解決方案。

自定義文本和代碼搜索

在整個網站上搜索文本和代碼通常很有用——例如,使用舊的 Google Analytics 代碼或類似代碼查找頁面。

您可以在“掃描網站|數據收集”中配置多個搜索| 搜索自定義字符串、代碼和文本模式”。

結果顯示在數據列“頁面自定義搜索”中,顯示每次搜索的計數 - 可選擇從模式匹配中提取的內容。

計算的重要性分數

TechSEO360 根據內部鏈接和內部重定向計算所有頁面的重要性。

您可以通過啟用數據列“Importance score scaled”的可見性來查看這一點。

相似內容檢測

有時頁面相似但不完全相同。 要找到這些,您可以在掃描前啟用選項“掃描網站 | 數據收集 | 跟踪和存儲擴展數據 | 對所有頁面執行關鍵字分析”。

查看結果時啟用數據列“頁面內容重複(可視視圖)”的可見性,您將獲得內容的圖形表示。

命令行界面 (CLI)

如果您使用的是試用版或付費版,則可以使用命令行 - 這是一個示例:
"techseo.exe" -exit -scan -build ":my-project.ini" @override_rootpath=http://example.com@
上面傳遞了一個定義了所有選項的項目文件,覆蓋了網站域並指示 TechSEO360 運行完整的爬網,構建站點地圖並退出。

導入數據

“文件|導入...”功能智能工作,可用於:

  • 導入 URL 列表。 如果導入的 URL 來自混合域,TechSEO360 將確定是否存在主域並適當地導入到“內部”和“外部”選項卡中。
  • TechSEO360 還可以檢測各種其他數據源,這些數據源會將其內容添加到現有數據中:
    • Apache 服務器記錄以“標記”GoogleBot“[googlebot]”訪問的 URL,並檢測未在內部鏈接/使用的 URL“[orphan]”。
    • 谷歌網站管理員工具導出到“標記”由谷歌“[googleindexed]”索引的 URL 以及點擊和展示的數據。
    • 用於反向鏈接得分數據的 Majestic CSV 導出。

    “快速過濾器文本”可以使用上面的“[...]”來生成進一步的自定義報告。

導出數據

“文件|導出...”功能可以將數據導出為 CSV、Excel、HTML 等,具體取決於您要導出的內容。 要使用:

  • 選擇包含您要導出的數據的控件。
  • 應用選項,使控件僅包含您要導出的數據。 (例如,這可以包括“數據列”、“快速過濾器選項”和“快速過濾器文本”)
  • 單擊“導出”按鈕,您現在擁有所需格式的數據。

TechSEO360 定價

基本上有三種不同的狀態:

  1. 首次下載該軟件時,您將獲得30 天的全功能免費試用
  2. 試用期結束後,它仍會繼續以免費模式工作,該模式允許抓取網站中的 500 個頁面。
  3. 購買單用戶許可證的年度訂閱價格為 99 美元,可在 Windows 和 Mac 上使用。

您可以在 https://TechSEO360.com 下載適用於 Windows 和 Mac 的試用版.