TechSEO360 爬蟲指南 – 站點地圖和技術 SEO 審核
已發表: 2019-05-2110 年來,我在 Search Engine People 進行的技術 SEO 網站審核所使用的爬蟲就是現在所謂的 TechSEO360。 一顆隱藏的寶石; 具有成本效益、高效(爬取任何規模的任何站點)、前瞻性(例如:在其他此類爬蟲工具之前支持 AJAX)。 我之前寫過關於這個網站爬蟲的文章,但想寫一篇更全面的綜合文章。
TechSEO360 解釋
TechSEO360 是一個技術 SEO 爬蟲,其亮點是:
- 適用於 Windows 和 Mac 的本機軟件。
- 可以開箱即用地抓取非常大的網站。
- 為需要它的人提供靈活的爬蟲配置。
- 使用內置或自定義報告來分析收集的網站數據(儘管我通常依賴將所有數據導出到 Excel 並使用其強大的過濾器、透視、自動格式化等)。
- 除了可視站點地圖之外,還可以創建圖像、視頻和 hreflang XML 站點地圖。
本指南的結構
本指南將涵蓋該軟件中所有最重要的 SEO 功能。
- 我們將使用演示網站 https://Crawler.TechSEO360.com 在我們所有的例子中。
- 所有屏幕截圖都來自 Windows 版本 - 但 Mac 版本包含相同的功能和工具。
- 我們將在其免費模式下使用 TechSEO360,這是在初始全功能免費 30 試用期結束時切換到的狀態。
- 除非另有說明,否則我們將使用默認設置進行網站抓取和分析。
- 我們將首先展示如何配置站點抓取,然後介紹技術 SEO、報告和站點地圖。
配置和啟動爬網
使用默認設置時,大多數網站都可以正常抓取。 這意味著所需的唯一配置通常是輸入您要分析的網站的路徑 - 無論它是駐留在 Internet、本地服務器還是本地磁盤上。 
作為手動配置的簡單替代方案,還可以應用各種“快速預設”來配置基礎設置。 示例可能是:
- 您知道您想要創建一個視頻站點地圖,並希望確保您可以生成最好的站點地圖。
- 您使用的特定網站 CMS 會生成許多應排除的精簡內容 URL。

對於那些想要深入了解設置的人,您可以斷言對抓取過程的近乎完全控制,包括:
爬蟲引擎
在這裡,您可以處理如何執行 HTTP 請求的更深層次的內部結構。 一件特別的事情是如何提高抓取速度:只需增加同時線程和同時連接的數量 - 只需確保您的計算機和網站可以處理額外的負載。 
網站管理員過濾器
控制爬蟲應遵循 noindex、nofollow、robots.txt 和類似文件的程度。 
分析過濾器
配置應分析其內容的 URL 的規則。 有多個“排除”和“限製到”過濾選項可用,包括 URL 模式、文件擴展名和 MIME 類型。 
輸出濾波器
類似於“掃描網站 | 分析過濾器” - 但用於控制在網站抓取完成時哪些 URL 被“標記”以刪除。 
如果選項“掃描網站 | 爬蟲選項 | 在網站掃描後應用網站管理員和輸出過濾器”選項,在“掃描網站 | 網站管理員過濾器”和“掃描網站 | 輸出過濾器”選項中排除的 URL 仍然可以保留並在網站抓取停止後顯示停止”未選中。 使用這種組合,您:
- Get 保留爬蟲收集的所有信息,以便您檢查所有內容。
- 在創建 HTML 和 XML 站點地圖時仍然避免包含 URL。
- 在進行報告和導出時仍然可以獲得適當的“標記”。
爬取進度
在網站抓取期間,您可以看到各種統計數據,顯示有多少 URL 的內容已被分析,有多少鏈接和引用已解析,還有多少 URL 仍在等待隊列中。 
抓取後的網站概覽
站點抓取完成後,程序會打開一個視圖,左側有數據列: 
如果您選擇一個 URL,您可以在右側查看更多詳細信息: 
這是它在全尺寸屏幕上的外觀的縮略圖: 
左邊
在這裡,您將找到在網站掃描期間找到的 URL 和相關數據。 默認情況下,僅顯示少數最重要的數據列。 在此之上有一個由五個按鈕和一個文本框組成的面板。 他們的目的是:
#1
帶有預定義“快速報告”的下拉菜單。 這些可用於快速配置:
- 哪些數據列是可見的。
- 啟用了哪些“快速過濾器選項”。
- 活動的“快速過濾文本”以進一步限制顯示的內容。

#2
在將網站中的所有 URL 顯示為平面“列表”與“樹”之間切換的下拉菜單。 
#3
用於配置哪些數據列可見的下拉菜單。 
#4
與上述相比,啟用數據列“重定向到路徑”的可見性如下所示: 
#5
用於配置選擇哪些“快速過濾器選項”的下拉菜單。 
#6
開/關按鈕激活/停用所有“快速過濾器”功能。
#7
包含“快速過濾文本”的框,用於進一步自定義顯示的內容。
如何使用“快速報告”和“快速過濾器”功能將在後面舉例說明。
右邊
您可以在此處查看左側所選 URL 的其他詳細信息。 這包括帶有附加詳細信息的“鏈接者”列表、“鏈接 [內部]”列表、“使用者”列表、“目錄摘要”等。
要了解如何在調查細節時使用它,請比較以下兩種情況。
#1
在左側,我們選擇了 URL http://crawler.techseo360.com/noindex-follow.html - 我們還可以看到爬蟲在數據列“URL flags”中將其標記為"[noindex][follow]" ”: 
在“鏈接 [內部]”選項卡的右側,我們可以確認所有鏈接都已被關注,包括並查看其他詳細信息。 
#2
在左側,我們選擇了 URL http://crawler.techseo360.com/nofollow.html - 我們還可以看到爬蟲在數據列“URL flags”中將其標記為"[index][nofollow]" ”: 
在“鏈接[內部]”選項卡的右側,我們可以確認沒有鏈接被關注。 
使用快速報告
正如我所說,我不經常使用這些,更喜歡顯示所有數據列,然後導出到 Excel。 但對於那些喜歡其他工具中的此類內置報告的人來說,這裡有一些最常用的快速報告:
所有類型的重定向
內置的“快速報告”顯示各種重定向,包括遵循重定向鏈所需的信息: 
本質上,這具有:

- 將數據列的可見性更改為最合適的。
- 將過濾器文本設置為:
[httpredirect|canonicalredirect|metarefreshredirect] -[noindex] 200 301 302 307 - 激活過濾器:
-
Only show URLs with all [filter-text] found in "URL state flags" column -
Only show URLs with any filter-text-number found in "response code" column
-
這樣一個 URL 必須滿足以下三個條件才能顯示:
- 必須通過 HTTP 重定向、規範指令或“0 秒”元刷新來指向另一個 URL。
- 不能包含“noindex”指令。
- 必須具有響應代碼 200、301、302 或 307。
404 未找到
如果您需要快速識別損壞的鏈接和 URL 引用,此報告是一個不錯的選擇。 這樣,數據列“Linked.List”(例如“a”標籤)、“Used.List”(例如“src”屬性)和“Redirected.List”就變得可見。 
無索引
使用“noindex”指令快速查看所有頁面。 
重複的標題 #1
快速查看所有具有重複標題的頁面,包括具有重複空標題的頁面。 
重複標題 #2
如果沒有被其他過濾器覆蓋,則過濾文本匹配所有可見數據列中的內容。 在這裡,我們將重複標題報告範圍縮小到包含“示例”一詞的那些。 
標題字符數
限制按標題字符數顯示的 URL。 您可以控制閾值以及是否高於或低於。 類似的可用於描述。 
標題像素數
限制標題像素數顯示的 URL。 您可以控制閾值以及是否高於或低於。 類似的可用於描述。 
圖像和缺失的替代/錨文本
僅顯示在沒有任何替代文本的情況下使用或在沒有任何錨文本的情況下鏈接的圖像 URL。 
其他工具
頁面分析
默認情況下,在網站抓取期間對所有頁面進行全面的文本分析。 為此找到的選項位於“掃描網站 | 數據收集”中,其結果如下: 
但是,您也可以始終分析單個頁面而無需爬取整個網站: 
請注意,如果您使用“選定頁面的總分”按鈕,您可以查看整個網站的目標關鍵字和短語。
關鍵字列表
一個靈活的關鍵字列表構建器,允許組合關鍵字列表並執行全面清理。 
第三方在線工具
如果您需要更多工具,您可以自己添加它們,甚至決定哪些應該可以通過選項卡訪問,而不僅僅是下拉菜單。 
該軟件將自動傳遞選定的 URL 或類似於選定的在線工具。 每個在線工具都由一個文本文件配置,該文件定義傳遞哪些數據以及如何完成。
站點地圖
站點地圖文件類型
有13種不同的站點地圖文件格式,很可能滿足您的需求。 這包括 XML 站點地圖、視頻站點地圖和圖像站點地圖。 
XML 站點地圖和 Hreflang
即使您的網站不包含任何 hreflang 標記,如果您的 URL 包含包含對語言文化或國家/地區的引用的部分,TechSEO360 通常也能夠生成具有適當備用 hreflang 信息的 XML 站點地圖。 
XML 圖像和視頻站點地圖
您通常可以使用“快速預設”之一來加快配置速度:
- 谷歌視頻站點地圖
- 谷歌視頻站點地圖(網站有外部託管的視頻)
- 谷歌圖片站點地圖
- 谷歌圖片站點地圖(網站有外部託管的圖片)
如果您打算同時創建圖像和視頻站點地圖,請使用其中一種視頻選項,因為它們還包括所有最適合圖像站點地圖的配置。
TechSEO360 使用不同的方法來計算哪些頁面、視頻和圖像屬於生成的 XML 站點地圖 - 如果圖像或視頻在多個地方使用,這可能會很棘手。
HTML 站點地圖
從內置的 HTML 模板中選擇或設計您自己的模板,包括實際的 HTML/CSS/JS 代碼和構建站點地圖時使用的各種選項。 
其他功能
Javascript 和 AJAX 支持
您可以通過選中“掃描網站 | 爬蟲選項 | 嘗試在 Javascript 中搜索”選項,將 TechSEO360 配置為在 Javascript 代碼中搜索文件和 URL 引用。
如果您正在處理 AJAX 網站,您可以在“掃描網站 | 爬蟲引擎 | 默認路徑類型和處理程序”中切換到啟用 AJAX 的解決方案。
自定義文本和代碼搜索
在整個網站上搜索文本和代碼通常很有用——例如,使用舊的 Google Analytics 代碼或類似代碼查找頁面。
您可以在“掃描網站|數據收集”中配置多個搜索| 搜索自定義字符串、代碼和文本模式”。
結果顯示在數據列“頁面自定義搜索”中,顯示每次搜索的計數 - 可選擇從模式匹配中提取的內容。
計算的重要性分數
TechSEO360 根據內部鏈接和內部重定向計算所有頁面的重要性。
您可以通過啟用數據列“Importance score scaled”的可見性來查看這一點。
相似內容檢測
有時頁面相似但不完全相同。 要找到這些,您可以在掃描前啟用選項“掃描網站 | 數據收集 | 跟踪和存儲擴展數據 | 對所有頁面執行關鍵字分析”。
查看結果時啟用數據列“頁面內容重複(可視視圖)”的可見性,您將獲得內容的圖形表示。
命令行界面 (CLI)
如果您使用的是試用版或付費版,則可以使用命令行 - 這是一個示例:
"techseo.exe" -exit -scan -build ":my-project.ini" @override_rootpath=http://example.com@
上面傳遞了一個定義了所有選項的項目文件,覆蓋了網站域並指示 TechSEO360 運行完整的爬網,構建站點地圖並退出。
導入數據
“文件|導入...”功能智能工作,可用於:
- 導入 URL 列表。 如果導入的 URL 來自混合域,TechSEO360 將確定是否存在主域並適當地導入到“內部”和“外部”選項卡中。
- TechSEO360 還可以檢測各種其他數據源,這些數據源會將其內容添加到現有數據中:
- Apache 服務器記錄以“標記”GoogleBot“[googlebot]”訪問的 URL,並檢測未在內部鏈接/使用的 URL“[orphan]”。
- 谷歌網站管理員工具導出到“標記”由谷歌“[googleindexed]”索引的 URL 以及點擊和展示的數據。
- 用於反向鏈接得分數據的 Majestic CSV 導出。
“快速過濾器文本”可以使用上面的“[...]”來生成進一步的自定義報告。
導出數據
“文件|導出...”功能可以將數據導出為 CSV、Excel、HTML 等,具體取決於您要導出的內容。 要使用:
- 選擇包含您要導出的數據的控件。
- 應用選項,使控件僅包含您要導出的數據。 (例如,這可以包括“數據列”、“快速過濾器選項”和“快速過濾器文本”)
- 單擊“導出”按鈕,您現在擁有所需格式的數據。
TechSEO360 定價
基本上有三種不同的狀態:
- 首次下載該軟件時,您將獲得30 天的全功能免費試用。
- 試用期結束後,它仍會繼續以免費模式工作,該模式允許抓取網站中的 500 個頁面。
- 購買單用戶許可證的年度訂閱價格為 99 美元,可在 Windows 和 Mac 上使用。
您可以在 https://TechSEO360.com 下載適用於 Windows 和 Mac 的試用版.
