TechSEO360 爬虫指南 – 站点地图和技术 SEO 审核

已发表: 2019-05-21

10 年来,我在 Search Engine People 进行的技术 SEO 网站审核所使用的爬虫就是现在所谓的 TechSEO360。 一颗隐藏的宝石; 具有成本效益、高效(爬取任何规模的任何站点)、前瞻性(例如:在其他此类爬虫工具之前支持 AJAX)。 我之前写过关于这个网站爬虫的文章,但想写一篇更全面的综合文章。

TechSEO360 解释

TechSEO360 是一个技术 SEO 爬虫,其亮点是:

  • 适用于 Windows 和 Mac 的本机软件。
  • 可以开箱即用地抓取非常大的网站。
  • 为需要它的人提供灵活的爬虫配置。
  • 使用内置或自定义报告来分析收集的网站数据(尽管我通常依赖将所有数据导出到 Excel 并使用其强大的过滤器、透视、自动格式化等)。
  • 除了可视站点地图之外,还可以创建图像、视频和 hreflang XML 站点地图。

本指南的结构

本指南将涵盖该软件中所有最重要的 SEO 功能。

  • 我们将使用演示网站 https://Crawler.TechSEO360.com 在我们所有的例子中。
  • 所有屏幕截图都来自 Windows 版本 - 但 Mac 版本包含相同的功能和工具。
  • 我们将在其免费模式下使用 TechSEO360,这是在初始全功能免费 30 试用期结束时切换到的状态。
  • 除非另有说明,否则我们将使用默认设置进行网站抓取和分析。
  • 我们将首先展示如何配置站点抓取,然后介绍技术 SEO、报告和站点地图。

配置和启动爬网

使用默认设置时,大多数网站都可以正常抓取。 这意味着所需的唯一配置通常是输入您要分析的网站的路径 - 无论它是驻留在 Internet、本地服务器还是本地磁盘上。
启动爬虫
作为手动配置的简单替代方案,还可以应用各种“快速预设”来配置基础设置。 示例可能是:

  • 您知道您想要创建一个视频站点地图,并希望确保您可以生成最好的站点地图。
  • 您使用的特定网站 CMS 会生成许多应排除的精简内容 URL。

爬虫配置预设
对于那些想要深入了解设置的人,您可以断言对抓取过程的近乎完全控制,包括:

爬虫引擎

在这里,您可以处理如何执行 HTTP 请求的更深层次的内部结构。 一件特别的事情是如何提高抓取速度:只需增加同时线程和同时连接的数量 - 只需确保您的计算机和网站可以处理额外的负载。
爬虫引擎配置

网站管理员过滤器

控制爬虫应遵循 noindex、nofollow、robots.txt 和类似文件的程度。
遵守网站指示

分析过滤器

配置应分析其内容的 URL 的规则。 有多个“排除”和“限制到”过滤选项可用,包括 URL 模式、文件扩展名和 MIME 类型。
爬虫分析过滤器

输出滤波器

类似于“扫描网站 | 分析过滤器” - 但用于控制在网站抓取完成时哪些 URL 被“标记”以删除。
爬虫输出过滤器
如果选项“扫描网站 | 爬虫选项 | 在网站扫描后应用网站管理员和输出过滤器”选项,则在网站抓取停止后仍可以保留并显示在“扫描网站 | 网站管理员过滤器”和“扫描网站 | 输出过滤器”选项中排除的 URL停止”未选中。 使用这种组合,您:

  • Get 保留爬虫收集的所有信息,以便您检查所有内容。
  • 在创建 HTML 和 XML 站点地图时仍然避免包含 URL。
  • 在进行报告和导出时仍然可以获得适当的“标记”。

爬取进度

在网站抓取期间,您可以看到各种统计数据,显示有多少 URL 的内容已被分析,有多少链接和引用已解析,还有多少 URL 仍在等待队列中。
网站扫描进度

抓取后的网站概览

站点抓取完成后,程序会打开一个视图,左侧有数据列:
找到的 URL 概览
如果您选择一个 URL,您可以在右侧查看更多详细信息:
有关特定 URL 的详细信息
这是它在全尺寸屏幕上的外观的缩略图:
网站扫描结果的完整概述

左边

在这里,您将找到在网站扫描期间找到的 URL 和相关数据。 默认情况下,仅显示少数最重要的数据列。 在此之上有一个由五个按钮和一个文本框组成的面板。 他们的目的是:

#1
带有预定义“快速报告”的下拉菜单。 这些可用于快速配置:

  • 哪些数据列是可见的。
  • 启用了哪些“快速过滤器选项”。
  • 活动的“快速过滤文本”以进一步限制显示的内容。

从预定义的快速报告中选择

#2
在将网站中的所有 URL 显示为平面“列表”与“树”之间切换的下拉菜单。
在列表和树格式查看 URL 之间切换

#3
用于配置哪些数据列可见的下拉菜单。
控制哪些数据列可见

#4
与上述相比,启用数据列“重定向到路径”的可见性如下所示:
打开数据列可见性的示例

#5
用于配置选择哪些“快速过滤器选项”的下拉菜单。
快速过滤选项

#6
开/关按钮激活/停用所有“快速过滤器”功能。

#7
包含“快速过滤文本”的框,用于进一步自定义显示的内容。

如何使用“快速报告”和“快速过滤器”功能将在后面举例说明。

右边

您可以在此处查看左侧所选 URL 的其他详细信息。 这包括带有附加详细信息的“链接者”列表、“链接 [内部]”列表、“使用者”列表、“目录摘要”等。

要了解如何在调查细节时使用它,请比较以下两种情况。

#1
在左侧,我们选择了 URL http://crawler.techseo360.com/noindex-follow.html - 我们还可以看到爬虫在数据列“URL flags”中将其标记为"[noindex][follow]" ”:
noindex 和关注 URL 概述
在“链接 [内部]”选项卡的右侧,我们可以确认所有链接都已被关注,包括并查看其他详细信息
noindex 并关注 URL 详细信息

#2
在左侧,我们选择了 URL http://crawler.techseo360.com/nofollow.html - 我们还可以看到爬虫在数据列“URL flags”中将其标记为"[index][nofollow]" ”:
index 和 nofollow URL 概述
在“链接[内部]”选项卡的右侧,我们可以确认没有链接被关注。
index 和 nofollow URL 详细信息

使用快速报告

正如我所说,我不经常使用这些,更喜欢显示所有数据列,然后导出到 Excel。 但对于那些喜欢其他工具中的此类内置报告的人来说,这里有一些最常用的快速报告:

所有类型的重定向

内置的“快速报告”显示各种重定向,包括遵循重定向链所需的信息:
URL 重定向报告
本质上,这具有:

  1. 将数据列的可见性更改为最合适的。
  2. 将过滤器文本设置为:
    [httpredirect|canonicalredirect|metarefreshredirect] -[noindex] 200 301 302 307
  3. 激活过滤器:
    • Only show URLs with all [filter-text] found in "URL state flags" column
    • Only show URLs with any filter-text-number found in "response code" column

这样一个 URL 必须满足以下三个条件才能显示:

  1. 必须通过 HTTP 重定向、规范指令或“0 秒”元刷新来指向另一个 URL。
  2. 不能包含“noindex”指令。
  3. 必须具有响应代码 200、301、302 或 307。

404 未找到

如果您需要快速识别损坏的链接和 URL 引用,此报告是一个不错的选择。 这样,数据列“Linked.List”(例如“a”标签)、“Used.List”(例如“src”属性)和“Redirected.List”就变得可见。
未找到 URL 报告

无索引

使用“noindex”指令快速查看所有页面。
URLs noindex 报告

重复的标题 #1

快速查看所有具有重复标题的页面,包括具有重复空标题的页面。
默认 URL 重复标题报告

重复标题 #2

如果没有被其他过滤器覆盖,则过滤文本匹配所有可见数据列中的内容。 在这里,我们将重复标题报告范围缩小到包含“示例”一词的那些。
过滤的 URL 重复标题报告

标题字符数

限制按标题字符数显示的 URL。 您可以控制阈值以及是否高于或低于。 类似的可用于描述。
标题字符数

标题像素数

限制标题像素数显示的 URL。 您可以控制阈值以及是否高于或低于。 类似的可用于描述。
标题像素数

图像和缺失的替代/锚文本

仅显示在没有任何替代文本的情况下使用或在没有任何锚文本的情况下链接的图像 URL。
引用缺少 alt 或锚文本的图像

其他工具

页面分析

默认情况下,在网站抓取期间对所有页面进行全面的文本分析。 为此找到的选项位于“扫描网站 | 数据收集”中,其结果如下:
URL 关键字和内容分析概述
但是,您也可以始终分析单个页面而无需爬取整个网站:
URL 关键字和内容分析详细信息
请注意,如果您使用“选定页面的总分”按钮,您可以查看整个网站的目标关键字和短语。

关键字列表

一个灵活的关键字列表构建器,允许组合关键字列表并执行全面清理。
关键字列表

第三方在线工具

如果您需要更多工具,您可以自己添加它们,甚至决定哪些应该可以通过选项卡访问,而不仅仅是下拉菜单。
第三方在线工具
该软件将自动传递选定的 URL 或类似于选定的在线工具。 每个在线工具都由一个文本文件配置,该文件定义传递哪些数据以及如何完成。

站点地图

站点地图文件类型

13种不同的站点地图文件格式,很可能满足您的需求。 这包括 XML 站点地图、视频站点地图和图像站点地图。
支持的站点地图文件格式

XML 站点地图和 Hreflang

即使您的网站不包含任何 hreflang 标记,如果您的 URL 包含包含对语言文化或国家/地区的引用的部分,TechSEO360 通常也能够生成具有适当备用 hreflang 信息的 XML 站点地图。
XML站点地图中的hreflang

XML 图像和视频站点地图

您通常可以使用“快速预设”之一来加快配置速度:

  • 谷歌视频站点地图
  • 谷歌视频站点地图(网站有外部托管的视频)
  • 谷歌图片站点地图
  • 谷歌图片站点地图(网站有外部托管的图片)

如果您打算同时创建图像和视频站点地图,请使用其中一种视频选项,因为它们还包括所有最适合图像站点地图的配置。

TechSEO360 使用不同的方法来计算哪些页面、视频和图像属于生成的 XML 站点地图 - 如果图像或视频在多个地方使用,这可能会很棘手。

HTML 站点地图

从内置的 HTML 模板中选择或设计您自己的模板,包括实际的 HTML/CSS/JS 代码和构建站点地图时使用的各种选项。
自定义 HTML 站点地图

其他功能

Javascript 和 AJAX 支持

您可以通过选中“扫描网站 | 爬虫选项 | 尝试在 Javascript 中搜索”选项,将 TechSEO360 配置为在 Javascript 代码中搜索文件和 URL 引用。

如果您正在处理 AJAX 网站,您可以在“扫描网站 | 爬虫引擎 | 默认路径类型和处理程序”中切换到启用 AJAX 的解决方案。

自定义文本和代码搜索

在整个网站上搜索文本和代码通常很有用——例如,使用旧的 Google Analytics 代码或类似代码查找页面。

您可以在“扫描网站|数据收集”中配置多个搜索| 搜索自定义字符串、代码和文本模式”。

结果显示在数据列“页面自定义搜索”中,显示每次搜索的计数 - 可选择从模式匹配中提取的内容。

计算的重要性分数

TechSEO360 根据内部链接和内部重定向计算所有页面的重要性。

您可以通过启用数据列“Importance score scaled”的可见性来查看这一点。

相似内容检测

有时页面相似但不完全相同。 要找到这些,您可以在扫描前启用选项“扫描网站 | 数据收集 | 跟踪和存储扩展数据 | 对所有页面执行关键字分析”。

查看结果时启用数据列“页面内容重复(可视视图)”的可见性,您将获得内容的图形表示。

命令行界面 (CLI)

如果您使用的是试用版或付费版,则可以使用命令行 - 这是一个示例:
"techseo.exe" -exit -scan -build ":my-project.ini" @override_rootpath=http://example.com@
上面传递了一个定义了所有选项的项目文件,覆盖了网站域并指示 TechSEO360 运行完整的爬网,构建站点地图并退出。

导入数据

“文件|导入...”功能智能工作,可用于:

  • 导入 URL 列表。 如果导入的 URL 来自混合域,TechSEO360 将确定是否存在主域并适当地导入到“内部”和“外部”选项卡中。
  • TechSEO360 还可以检测各种其他数据源,这些数据源会将其内容添加到现有数据中:
    • Apache 服务器记录以“标记”GoogleBot“[googlebot]”访问的 URL,并检测未在内部链接/使用的 URL“[orphan]”。
    • 谷歌网站管理员工具导出到“标记”由谷歌“[googleindexed]”索引的 URL 以及点击和展示的数据。
    • 用于反向链接得分数据的 Majestic CSV 导出。

    “快速过滤器文本”可以使用上面的“[...]”来生成进一步的自定义报告。

导出数据

“文件|导出...”功能可以将数据导出为 CSV、Excel、HTML 等,具体取决于您要导出的内容。 要使用:

  • 选择包含您要导出的数据的控件。
  • 应用选项,使控件仅包含您要导出的数据。 (例如,这可以包括“数据列”、“快速过滤器选项”和“快速过滤器文本”)
  • 单击“导出”按钮,您现在拥有所需格式的数据。

TechSEO360 定价

基本上有三种不同的状态:

  1. 首次下载该软件时,您将获得30 天的全功能免费试用
  2. 试用期结束后,它仍会继续以免费模式工作,该模式允许抓取网站中的 500 个页面。
  3. 购买单用户许可证的年度订阅价格为 99 美元,可在 Windows 和 Mac 上使用。

您可以在 https://TechSEO360.com 下载适用于 Windows 和 Mac 的试用版.