Google Search Console 中的 5 个热门抓取统计数据洞察
已发表: 2021-04-16Google Search Console 中有一份报告非常有用,而且很难找到,尤其是在您刚刚开始 SEO 之旅时。
它是每个 SEO 专业人士最强大的工具之一,即使您甚至无法从 Google Search Console 的主界面中访问它。
我说的是抓取统计报告。
在本文中,您将了解为什么此报告如此重要、如何访问它以及如何使用它来获得 SEO 优势。
您的网站是如何被抓取的?
抓取预算(Googlebot 可以抓取和想要抓取的页面数量)对于 SEO 至关重要,尤其是对于大型网站。
如果您对网站的抓取预算有疑问,Google 可能不会将您的一些有价值的网页编入索引。
俗话说,如果谷歌没有索引某些东西,那么它就不存在。
Google Search Console 可以向您显示 Googlebot 每天访问您网站上的网页数量。
有了这些知识,您就可以找到可能导致您的 SEO 问题的异常情况。
深入了解您的抓取统计数据:5 个关键见解
要访问您的 Crawl stats 报告,请登录您的 Google Search Console 帐户并导航至Settings > Crawl stats 。
以下是您可以在抓取统计报告中检查的所有数据维度:
1.主机
想象一下,您在 shop.website.com 上有一个电子商务商店,在 blog.website.com 上有一个博客。
使用抓取统计报告,您可以轻松查看与您网站的每个子域相关的抓取统计信息。
不幸的是,此方法目前不适用于子文件夹。
2. HTTP 状态
抓取统计报告的另一个用例是查看已抓取 URL 的状态代码。
这是因为您不希望 Googlebot 花费资源来抓取 HTTP 200 OK 的网页。 这是浪费您的抓取预算。
要查看每个状态代码的已抓取 URL 的细分,请转到设置 > 抓取统计信息 > 抓取请求细分。

在这种特殊情况下,所有请求中有 16% 是针对重定向页面发出的。
如果您看到这样的统计数据,我建议您进一步调查并寻找重定向跃点和其他潜在问题。
在我看来,您可以在这里看到的最糟糕的情况之一是大量的 5xx 错误。
引用 Google 的文档:“如果网站速度变慢或响应服务器错误,限制就会下降,Googlebot 抓取的次数也会减少。”
如果您对此主题感兴趣,Roger Montti 写了一篇关于 Google Search Console 中的 5xx 错误的详细文章。
3. 目的
抓取统计报告将抓取目的分为两类:
- 为刷新目的而抓取的 URL(对已知页面的重新抓取,例如,Googlebot 正在访问您的主页以发现新的链接和内容)。
- 为发现目的而爬网的 URL(首次爬网的 URL)。
这个细分非常有用,这里有一个例子:
我最近遇到了一个网站,其中有大约 100 万页被归类为“已发现 - 目前未编入索引”。
该网站上 90% 的页面都报告了此问题。
(如果您不熟悉它,“已发现但未编入索引”表示 Google 发现了给定页面但没有访问它。例如,如果您在镇上发现了一家新餐厅但没有尝试.)
一种选择是等待,希望谷歌逐步索引这些页面。
另一种选择是查看数据并诊断问题。
所以我登录到 Google Search Console 并导航到Settings > Crawl Stats > Crawl Requests: HTML 。
结果表明,谷歌平均每天只访问该网站的 7460 个页面。

但这里有更重要的事情。
多亏了抓取统计报告,我发现这 7460 个 URL 中只有 35% 是出于发现原因而被抓取的。


这只是谷歌每天发现的 2611 个新页面。
2611 超过一百万。
谷歌以这种速度完全索引整个网站需要 382 天。
发现这一点改变了游戏规则。 由于我们完全专注于抓取预算优化,所有其他搜索优化都被推迟了。
4.文件类型
GSC 抓取统计数据对 JavaScript 网站很有帮助。 您可以轻松检查 Googlebot 抓取正确呈现所需的 JS 文件的频率。
如果您的网站充满了图片,并且图片搜索对您的 SEO 策略至关重要,那么此报告也会有很大帮助 - 您可以了解 Googlebot 抓取图片的能力。
5. 谷歌机器人类型
最后,抓取统计报告为您提供了用于抓取您网站的 Googlebot 类型的详细分类。
您可以了解移动或桌面 Googlebot 以及图像、视频和广告机器人发出的请求的百分比。
其他有用信息
值得注意的是,抓取统计报告包含您在服务器日志中找不到的宝贵信息:
- DNS 错误。
- 页面超时。
- 主机问题,例如获取 robots.txt 文件的问题。
在 URL 检查工具中使用 Crawl Stats
您还可以在 URL 检查工具中访问抓取统计报告之外的一些精细抓取数据。
我最近与一个大型电子商务网站合作,经过一些初步分析,发现了两个紧迫的问题:
- 许多产品页面未在 Google 中编入索引。
- 产品之间没有内部链接。 谷歌发现新内容的唯一方法是通过站点地图和分页类别页面。
下一步自然是访问服务器日志并检查 Google 是否抓取了分页类别页面。
但是访问服务器日志通常非常困难,尤其是当您与大型组织合作时。
谷歌搜索控制台的抓取统计报告来救援。
让我指导您完成我使用的过程,如果您遇到类似问题,您可以使用:
1. 首先,在 URL 检查工具中查找一个 URL。 我从网站的主要类别之一中选择了一个分页页面。
2. 然后,导航到Coverage > Crawl 报告。

在这种情况下,该 URL 最后一次被抓取是在三个月前。
请记住,这是该网站的主要类别页面之一,超过三个月没有被抓取!
我更深入地检查了其他类别页面的样本。
事实证明,Googlebot 从未访问过许多主要类别页面。 其中许多对于谷歌来说仍然是未知的。
当您致力于提高任何网站的知名度时,我认为我不需要解释拥有这些信息的重要性。
抓取统计报告允许您在几分钟内查看类似的内容。
包起来
正如您所看到的,抓取统计报告是一个强大的 SEO 工具,即使您可以使用 Google Search Console 多年却找不到它。
它将帮助您诊断索引问题并优化您的抓取预算,以便 Google 可以快速找到并索引您的有价值的内容,这对于大型网站尤其重要。
我给了你几个用例供你考虑,但现在球在你的球场上了。
您将如何使用这些数据来提高您网站的知名度?
更多资源:
- 爬行优先搜索引擎优化:爬行前遵循的 12 步指南
- 优化 SEO 抓取预算的 7 个技巧
- 搜索引擎如何工作
图片来源
作者截取的所有屏幕截图,2021 年 4 月
