提高网站可抓取性和可索引性的 10 个步骤
已发表: 2022-11-04关键字和内容可能是构建大多数搜索引擎优化策略的双支柱,但它们远非唯一重要的。
较少讨论但同样重要的——不仅对用户而且对搜索机器人来说——是您网站的可发现性。
互联网上有 19.3 亿个网站,大约有 500 亿个网页。 对于任何人类团队来说,这都太多了,因此这些机器人(也称为蜘蛛)发挥着重要作用。
这些机器人通过跟踪从网站到网站和页面到页面的链接来确定每个页面的内容。 这些信息被编译成一个庞大的 URL 数据库或索引,然后通过搜索引擎的算法进行排名。
导航和理解您的网站的这个两步过程称为抓取和索引。
作为一名 SEO 专业人士,您无疑已经听说过这些术语,但为了清楚起见,让我们对它们进行定义:
- 可抓取性是指这些搜索引擎机器人扫描和索引您的网页的能力。
- 可索引性衡量搜索引擎分析您的网页并将其添加到其索引中的能力。
正如您可能想象的那样,这些都是 SEO 的重要组成部分。
如果您的网站的可抓取性较差,例如,许多断开的链接和死胡同,搜索引擎爬虫将无法访问您的所有内容,这会将其从索引中排除。
另一方面,可索引性至关重要,因为未编入索引的页面不会出现在搜索结果中。 Google 如何对未包含在其数据库中的页面进行排名?
抓取和索引过程比我们在这里讨论的要复杂一些,但这是基本概述。
如果您正在寻找关于它们如何工作的更深入的讨论,Dave Davies 有一篇关于爬行和索引的优秀文章。
如何改进抓取和索引
既然我们已经介绍了这两个过程的重要性,那么让我们看看您的网站中影响抓取和索引的一些元素 - 并讨论为它们优化您的网站的方法。
1.提高页面加载速度
有数十亿个网页要编目,网络蜘蛛不必整天等待您的链接加载。 这有时称为爬网预算。
如果您的网站未在指定的时间范围内加载,它们将离开您的网站,这意味着您将保持未抓取和未编入索引。 正如您可以想象的那样,这不利于 SEO。
因此,定期评估您的页面速度并尽可能改进它是一个好主意。
您可以使用 Google Search Console 或 Screaming Frog 等工具来检查您网站的速度。
如果您的网站运行缓慢,请采取措施缓解问题。 这可能包括升级您的服务器或托管平台、启用压缩、缩小 CSS、JavaScript 和 HTML,以及消除或减少重定向。
通过查看您的 Core Web Vitals 报告,找出导致加载时间变慢的原因。 如果您想了解有关您的目标的更详细信息,尤其是从以用户为中心的角度来看,Google Lighthouse 是一个开源工具,您可能会发现它非常有用。
2、加强内链结构
良好的网站结构和内部链接是成功的 SEO 策略的基本要素。 搜索引擎难以抓取杂乱无章的网站,这使得内部链接成为网站可以做的最重要的事情之一。
但不要只相信我们的话。 以下是 Google 的搜索倡导者 John Mueller 对此的评价:
“内部链接对于 SEO 来说非常重要。 我认为这是您可以在网站上做的最重要的事情之一,以引导 Google 并引导访问者访问您认为重要的页面。”
如果您的内部链接很差,您还会面临孤立页面或未链接到您网站的任何其他部分的页面的风险。 由于没有任何内容指向这些页面,因此搜索引擎找到它们的唯一方法是从您的站点地图中。
要消除此问题以及其他由结构不良引起的问题,请为您的站点创建一个合乎逻辑的内部结构。
您的主页应链接到金字塔下方页面支持的子页面。 然后,这些子页面应该具有感觉自然的上下文链接。
另一件需要注意的事情是断开的链接,包括那些在 URL 中有拼写错误的链接。 当然,这会导致链接断开,从而导致可怕的 404 错误。 换句话说,找不到页面。
这样做的问题是损坏的链接无济于事,并且正在损害您的可抓取性。
仔细检查您的网址,尤其是在您最近进行过网站迁移、批量删除或结构更改的情况下。 并确保您没有链接到旧的或已删除的 URL。
内部链接的其他最佳做法包括拥有大量可链接内容(内容始终为王),使用锚文本而不是链接图像,以及在页面上使用“合理数量”的链接(无论这意味着什么)。
哦,是的,并确保您使用跟随链接作为内部链接。
3. 将您的站点地图提交给 Google
如果有足够的时间,并且假设您没有告诉它不要这样做,Google 会抓取您的网站。 这很好,但在您等待时,它对您的搜索排名没有帮助。
如果您最近对您的内容进行了更改并希望 Google 立即了解它,最好将站点地图提交到 Google Search Console。
站点地图是位于根目录中的另一个文件。 它作为搜索引擎的路线图,直接链接到您网站上的每个页面。
这有利于可索引性,因为它允许 Google 同时了解多个页面。 爬虫可能必须遵循五个内部链接才能发现深层页面,但通过提交 XML 站点地图,它可以通过一次访问您的站点地图文件找到您的所有页面。
如果您有一个深度网站,经常添加新页面或内容,或者您的网站没有良好的内部链接,则将您的站点地图提交给 Google 尤其有用。
4. 更新 Robots.txt 文件
您可能希望为您的网站创建一个 robots.txt 文件。 虽然不是必需的,但 99% 的网站将其用作经验法则。 如果您不熟悉它,它是您网站根目录中的纯文本文件。
它告诉搜索引擎爬虫您希望他们如何爬取您的网站。 它的主要用途是管理机器人流量并防止您的网站因请求而过载。
这在可抓取性方面派上用场的地方是限制谷歌抓取和索引的页面。 例如,您可能不希望 Google 目录中的目录、购物车和标签等页面。
当然,这个有用的文本文件也会对您的可抓取性产生负面影响。 非常值得查看您的 robots.txt 文件(如果您对自己的能力没有信心,请让专家这样做),看看您是否无意中阻止了爬虫访问您的网页。
robots.text 文件中的一些常见错误包括:
- Robots.txt 不在根目录中。
- 通配符使用不当。
- robots.txt 中没有索引。
- 被阻止的脚本、样式表和图像。
- 没有站点地图网址。
要深入研究每个问题以及解决这些问题的技巧,请阅读本文。
5. 检查你的规范化
规范标签将来自多个 URL 的信号整合到一个规范 URL 中。 这可能是一种有用的方法,可以告诉 Google 索引您想要的页面,同时跳过重复和过时的版本。

但这为流氓规范标签打开了大门。 这些是指不再存在的页面的旧版本,导致搜索引擎索引错误的页面并使您的首选页面不可见。
要消除此问题,请使用 URL 检查工具扫描恶意标签并将其删除。
如果您的网站面向国际流量,即,如果您将不同国家的用户引导至不同的规范页面,则您需要为每种语言设置规范标签。 这可确保您的网页以您网站使用的每种语言编入索引。
6. 进行现场审核
既然您已经执行了所有这些其他步骤,您还需要做最后一件事来确保您的网站针对抓取和索引进行了优化:网站审核。 首先要检查 Google 为您的网站编制索引的页面百分比。
检查您的索引率
您的索引率是 Google 索引中的页数除以我们网站上的页数。
您可以通过转到“页面”选项卡并从 CMS 管理面板检查网站上的页面数,从 Google Search Console 索引中找出 google 索引中有多少页。
您的网站很有可能会有一些您不想编入索引的页面,因此这个数字可能不会是 100%。 但如果可转位率低于 90%,那么您就有需要调查的问题。
您可以从 Search Console 获取未编入索引的网址并对其进行审核。 这可以帮助您了解导致问题的原因。
Google Search Console 中包含的另一个有用的站点审核工具是 URL 检查工具。 这使您可以查看 Google 蜘蛛看到的内容,然后您可以将其与真实网页进行比较,以了解 Google 无法呈现的内容。
审核新发布的页面
每当您将新页面发布到您的网站或更新最重要的页面时,您都应该确保它们被编入索引。 进入 Google Search Console 并确保它们都显示出来。
如果您仍然遇到问题,审核还可以让您深入了解您的 SEO 策略的其他部分有哪些不足,所以这是双赢的。 使用免费工具扩展您的审计流程,例如:
- 尖叫的青蛙
- 赛姆拉什
- 齐蒂
- 爬行
- 卢马尔
7.检查低质量或重复的内容
如果 Google 不认为您的内容对搜索者有价值,它可能会认为它不值得索引。 众所周知,这种稀薄的内容可能是写得不好的内容(例如,充满了语法错误和拼写错误)、并非您的网站独有的样板内容,或者没有关于其价值和权威的外部信号的内容。
要找到这一点,请确定您网站上的哪些页面没有被索引,然后查看它们的目标查询。 他们是否为搜索者的问题提供了高质量的答案? 如果没有,请更换或刷新它们。
重复的内容是机器人在抓取您的网站时可能会挂断的另一个原因。 基本上,发生的情况是您的编码结构混淆了它,它不知道要索引哪个版本。 这可能是由会话 ID、冗余内容元素和分页问题等引起的。
有时,这会在 Google Search Console 中触发警报,告诉您 Google 遇到的 URL 比它认为的要多。 如果您还没有收到,请检查您的抓取结果中是否存在重复或缺失的标签,或者带有额外字符的 URL,这些字符可能会给机器人带来额外的工作。
通过修复标签、删除页面或调整 Google 的访问权限来纠正这些问题。
8. 消除重定向链和内部重定向
随着网站的发展,重定向是一种自然的副产品,将访问者从一个页面引导到更新或更相关的页面。 但是,虽然它们在大多数网站上都很常见,但如果您处理不当,您可能会无意中破坏您自己的索引。
创建重定向时可能会犯几个错误,但最常见的错误之一是重定向链。 当点击的链接和目的地之间有多个重定向时,就会发生这种情况。 谷歌并不认为这是一个积极的信号。
在更极端的情况下,您可能会启动一个重定向循环,其中一个页面重定向到另一个页面,另一个页面指向另一个页面,依此类推,直到它最终链接回第一个页面。 换句话说,您创建了一个永无止境的循环,无处可去。
使用 Screaming Frog、Redirect-Checker.org 或类似工具检查您网站的重定向。
9.修复断开的链接
同样,损坏的链接也会严重破坏您网站的可抓取性。 您应该定期检查您的网站以确保您没有损坏的链接,因为这不仅会损害您的搜索引擎优化结果,还会让人类用户感到沮丧。
您可以通过多种方式找到站点上的损坏链接,包括手动评估站点上的每个链接(页眉、页脚、导航、文本等),或者您可以使用 Google Search Console、Analytics 或Screaming Frog 发现 404 错误。
找到损坏的链接后,您可以通过三个选项来修复它们:重定向它们(请参阅上面的警告部分)、更新它们或删除它们。
10. 现在索引
IndexNow 是一个相对较新的协议,它允许通过 API 在搜索引擎之间同时提交 URL。 它通过提醒搜索引擎有关新 URL 和您网站的更改来像提交 XML 站点地图的超级充电版本一样工作。
基本上,它所做的是预先为爬虫提供了通往您网站的路线图。 他们会带着他们需要的信息进入您的网站,因此无需经常重新检查站点地图。 与 XML 站点地图不同,它允许您通知搜索引擎有关非 200 状态代码页面的信息。
实现它很容易,只需要您生成一个 API 密钥,将其托管在您的目录或其他位置,并以推荐的格式提交您的 URL。
包起来
到目前为止,您应该对网站的可索引性和可抓取性有一个很好的了解。 您还应该了解这两个因素对您的搜索排名有多重要。
如果 Google 的蜘蛛可以抓取您的网站并将其编入索引,那么无论您使用多少关键字、反向链接和标签,您都不会出现在搜索结果中。
这就是为什么必须定期检查您的网站是否存在任何可能会阻碍、误导或误导机器人的原因。
因此,为自己准备一套好的工具并开始吧。 勤奋并注意细节,你很快就会让谷歌蜘蛛像蜘蛛一样涌入你的网站。
更多资源:
- 改善搜索索引的 11 个 SEO 提示和技巧
- 搜索引擎如何抓取和索引:您需要知道的一切
- 如何进行 SEO 审核:终极清单
特色图片:Roman Samborskyi/Shutterstock
