网络爬虫初学者指南

已发表: 2022-05-02

无论您是网站所有者还是 SEO 专业人士，都必须了解网站抓取、搜索引擎如何抓取网站和网页，以及它如何对某个搜索查询的页面进行排名（或决定不排名）。

网站抓取是一个技术过程，老实说，您不需要了解它背后的技术方面。只有了解主要概念以及您可以采取哪些措施来促进 Google 等搜索引擎的网站抓取，才能帮助您使您的网站对搜索引擎更加友好，遵循最佳 SEO 实践，并在搜索引擎结果页面 (SERP) 上排名更高。

在这篇文章中，我们将讨论：

让我们从顶部开始。

什么是网络爬虫？

在我们进一步讨论之前，了解什么是网络爬虫至关重要。

爬行是指搜索引擎在互联网上发现新内容和更新内容的过程。搜索引擎通过发送爬虫（通常也称为机器人、机器人或蜘蛛）来做到这一点。

这些机器人“爬行”互联网，看看是否有一个新页面可以在 SERP 上建立索引。同样，这些机器人也会寻找最近更新了新内容的页面。

“内容”的类型可能会有所不同——从网页到图像到视频到 PDF。

可以想象，获取互联网上的每个网页并抓取新内容是一项艰巨的工作。之所以如此，是因为互联网上的网页数量庞大。此外，每天都有数以百万计的新页面出现在网络上。

这需要大量的计算资源，这可能会导致可持续性问题。我们将在本文后面详细讨论这一点，这对网络抓取的未来意味着什么，以及这种限制对网站管理员和 SEO 专业人士的潜在影响。

现在，您应该了解这些爬虫或蜘蛛如何通过提高效率来尝试克服这个问题，以及如何利用这一点为您带来好处。

爬网蜘蛛通常会获取一些网页并对其进行爬网。然后他们按照这些网页上的链接（内部链接和外部链接）来查找要抓取和索引的新 URL。这有助于爬虫更有效地构建庞大的 URL 数据库。

这就是为什么在您的网页上添加指向页面的链接——尤其是与其他页面的上下文相关的内部链接是推荐的 SEO 做法。

根据谷歌的说法，有两种类型的网络爬虫：

“说到爬行，我们有两种爬行方式。 一种是发现爬虫，我们尝试在您的网站上发现新页面。 另一个是刷新爬虫，我们更新我们知道的现有页面，”谷歌的 John Mueller 说。

爬网频率（除了爬网的类型）还取决于您的网站或网页上内容的更新频率。例如，如果您的网站主页比其他页面更新得更频繁，您可能会在该页面上看到更多的爬网活动。

正如我们之前解释的那样，爬虫也会在主页上找到链接，并使用这些链接来爬取它们找到的页面。

因此，如果在此处找到指向新页面的链接，则刷新爬网（对于主页，检查是否有任何新内容）也可能导致发现爬网。

最后一点要理解的是，Googlebot 能够识别模式以相应地调整其刷新抓取。

Google 的 John Mueller 用以下示例解释了这一点：

“例如，如果您有一个新闻网站并且您每小时更新一次，那么我们应该知道我们需要每小时抓取一次。 而如果它是一个每月更新一次的新闻网站，那么我们应该知道我们不需要每小时抓取一次。

这不是质量的标志，也不是排名的标志，或者类似的东西。 这真的只是纯粹从技术的角度来看，我们已经知道我们可以每天爬一次，每周一次，这没关系。”

Google 这样做是为了节省抓取资源。正如我们之前提到的，爬行是一项艰巨的工作，并且会日复一日地占用大量计算资源。这不是很可持续，尤其是随着互联网的不断发展。

这就引出了我们的下一点。

在 Search Off the Records 播客的最近一集中，谷歌的搜索关系团队暗示谷歌可能会降低网络抓取速度，以节省计算资源并促进可持续性。

“总的来说，计算并不是真正可持续的。 我们是无碳的，我什至不知道，2007 年什么的，但这并不意味着我们不能减少更多的环境足迹。 爬行是早期的事情之一，我们可以砍掉一些低垂的果实，”谷歌的 Gary Illyes 说。

他进一步阐述了谷歌如何通过降低刷新抓取率来实现这一可持续发展目标。

“我们做的一件事，我们可能不需要做那么多，就是刷新爬行。 这意味着，一旦我们发现了一个文档、一个 URL，我们就会去爬取它，然后，最终，我们将返回并重新访问该 URL。 那是刷新爬网。

然后每次我们回到那个 URL 时，总是会刷新一次。 现在，我们需要多久返回一次该 URL？”

刷新抓取的抓取速度降低可能会减慢更新网页的索引和排名更新。但是，这并不一定意味着较差的搜索引擎排名。

加里·伊利斯（Gary Illyes）在播客中证实，认为“如果页面被爬得越多，它的排名就会越高”，“这是一种误解”。

既然您知道了什么是网络爬虫以及网络爬虫的未来可能会怎样，那么让我们简要地看一些可以用来改进网站爬虫的技巧。

我们希望您发现这份网络爬取初学者指南很有用。如果您有任何问题或意见，请在下面的评论部分告诉我们。