什么是语义搜索:深入研究基于实体的搜索

已发表: 2022-09-29

从 2013 年开始,Google 逐渐发展成为 100% 语义搜索引擎。

究竟什么是语义搜索? 当你在谷歌上搜索这个问题的答案时,你可以找到很多解释——但其中大多数都不精确,并造成误解。

本文将帮助您全面了解什么是语义搜索。

谷歌成为语义搜索引擎的道路

Google 开发语义搜索引擎的努力可以追溯到 1999 年(如已故的 Bill Slawski 在这篇文章中所见)。 随着 2012 年知识图谱的引入以及 2013 年其排名算法(俗称蜂鸟)的根本变化,这一点变得更加具体。

RankBrain、EAT、BERT 和 MUM 等所有其他主要创新都直接或间接地支持成为完全语义搜索引擎的目标。

通过将自然语言处理 (NLP) 引入搜索,谷歌正以指数级的速度朝着这个目标前进。

谷歌的语义搜索引擎之旅。
谷歌的语义搜索引擎之旅

蜂鸟:“不是字符串,而是事物”=实体

蜂鸟是谷歌向语义搜索引擎发展的开始信号。

这是谷歌有史以来最大的搜索查询处理和排名变化,早在 2013 年就影响了超过 90% 的搜索。蜂鸟从根本上取代了许多现有的排名算法。

通过 Hummingbird,谷歌立即能够将记录在知识图中的实体包括在内,用于查询处理、排名和 SERP 的输出。

实体描述了具体或抽象存在对象的本质或身份。 实体是唯一可识别的,因此具有唯一意义。

基本上,可以区分命名实体和抽象概念。

  • 命名实体是现实世界的对象,例如人、地点、组织、产品和事件。
  • 抽象概念本质上是物理的、心理的或社会的,例如距离、数量、情感、人权、和平等。

在 Hummingbird 之前,Google 主要进行关键字文档匹配以进行排名,无法识别搜索查询或内容的含义。

什么是语义搜索引擎?

语义搜索引擎考虑搜索查询和内容的语义上下文以更好地理解含义。 语义搜索引擎还考虑实体之间的关系以返回搜索结果。

相比之下,纯粹基于关键字的搜索系统仅在关键字文本匹配的基础上工作。

什么是语义搜索?

语义搜索的许多定义都侧重于将搜索意图解释为其本质。 但首先,语义搜索是关于基于出现的实体识别搜索查询和内容的含义。

语义=意义理论。

但“意义”不等于“意图”。 搜索意图描述了用户对搜索结果的期望。 意义是另一回事。

识别含义可以帮助识别搜索意图,但更多的是语义搜索的额外好处。

知识图谱在 Google 语义搜索中的作用

基于实体的排名也需要基于实体的索引。 知识图是 Google 的实体索引,它考虑了实体之间的关系。

经典索引以表格形式组织,因此不允许数据集之间的映射关系。

知识图是一个语义数据库,其中信息的结构方式是从信息中创建知识。 在这里,实体(节点)通过边相互关联,提供属性和其他信息,并放置在主题上下文或本体中。

实体是语义数据库中的中心组织元素,例如 Google 的知识图谱。

除了实体之间的关系之外,Google 还使用数据挖掘来收集有关实体的属性和其他信息,并围绕实体进行组织。

实体及其属性。
示例实体及其属性:“Joe Alwyn”和“Taylor Swift”

当您搜索实体时,您会了解 Google 会考虑哪些来源和信息。

泰勒斯威夫特作为谷歌搜索的实体
“泰勒·斯威夫特”作为 Google 搜索上的实体

首选来源、属性和信息因实体类型而异。 个人实体的来源不同于事件实体或组织实体。 这会影响知识面板中显示的信息。

基于实体的索引的结构允许回答搜索问题中未提及的主题或实体的问题。

“堪培拉”作为与 Google 搜索中的“澳大利亚”相关的实体。
“堪培拉”是与“澳大利亚”相关的实体

在此示例中,“澳大利亚”和“堪培拉”是实体,值“资本”描述了关系的性质。 基于关键字的搜索引擎无法返回此答案。

三个层次作为知识图的基础:

  • 实体目录:随着时间的推移已识别的所有实体都存储在这里。
  • 知识库:实体汇集在一个知识库中,其中包含来自各种来源的信息或属性。 这主要是关于合并和存储描述以及以实体类型的形式创建语义类或组。 Google 通过 Knowledge Vault 生成数据,并在其中从非结构化来源进行数据挖掘。
  • 知识图:实体链接到属性,实体之间建立关系。

Google 可以使用各种来源来识别实体及其相关信息。

谷歌知识图:信息来源。

并非知识库中捕获的所有实体都包含在知识图中。 以下标准可能会影响知识图中的包含:

  • 可持续的社会相关性。
  • 对 Google 索引中的实体有足够的搜索命中。
  • 持续的公众认知。
  • 在公认的词典或百科全书或专业参考著作中的条目。

可以假设 Google 在知识库(例如知识库)中记录的长尾实体比在知识图谱中记录的多得多,并将其用于语义搜索。

通过爬取开放的互联网并通过自然语言处理,谷歌能够独立于结构化和半结构化数据库进行可扩展的实体和数据挖掘。 这为知识库提供了越来越多的信息,包括关于长尾实体的信息。 您可以在此处找到更多相关信息。

谷歌进行实体和数据挖掘。

Google 作为语义搜索引擎是如何工作的?

Google 在以下领域使用语义搜索:

  • 了解搜索查询处理中的搜索查询或实体。
  • 了解有关实体的内容以进行排名。
  • 了解数据挖掘的内容和实体。
  • 实体的上下文分类以供以后的 EAT 评估。

谷歌搜索现在基于搜索查询处理器,用于解释搜索查询并从与搜索查询相关的文档中编译语料库。 这就是 BERT、MUM 和 RankBrain 可能发挥作用的地方。

在搜索查询处理中,将搜索词与语义数据库中记录的实体进行比较,并在必要时进行细化或重写。

在下一步中,确定搜索意图并确定合适的 X 内容语料库。

谷歌使用经典的搜索索引以及知识图谱形式的自己的语义数据库。 这两个数据库之间很可能通过接口进行交换。

有一个评分引擎,由基于蜂鸟核心算法的不同算法组成。 它负责评估内容,然后根据评分对其进行排序。 评分是关于内容与搜索查询或搜索意图的相关性。

由于谷歌除了相关性之外还想评估内容的质量,因此还必须根据 EAT 标准进行评估。 您可以通过 Google 评估 EAT 的 14 种方式找出这些标准。

对于此 EAT 评估,Google 必须评估域、出版商和/或作者的专业知识、权威和可信度。 语义实体数据库可以作为这方面的基础。

然后通过清理引擎清除搜索结果中的重复项,并考虑任何处罚。

谷歌的查询处理

这对语义 SEO 意味着什么?

当涉及到语义 SEO 时,我阅读了很多关于结构化数据、内容的语义优化和语义主题世界的结构的文章。

是的,向 Google 展示您的内容完全涵盖了某些主题并因此展示了专业知识是有意义的。

一些专利涉及将文档的内部知识图与谷歌知识图进行比较。 这里的理论是,文本中使用的实体与谷歌语义数据库中主要实体的关系结构之间的高度对应关系会导致更好的排名。

这听起来合乎逻辑。 但老实说,最后,基于关键字的优化与基于实体的内容优化没有太大区别。

主题世界的结构也很有意义,尽管不得不说,在段落排名时,应考虑以下几点:

  • 一个主题在多大程度上被分解为不同的子主题?
  • 是否为每个子主题制作单独的内容?
  • 是否只创建了一个整体内容资产?

和结构化数据……

是的,结构化数据可以帮助 Google 理解语义关系,但仅限于他们不再需要它之前。 这将很快。

在我看来,谷歌非常擅长机器学习,他们正在使用结构化数据来更快地训练算法。

让我们以社交媒体资料的标记为例。 从谷歌推荐使用它到他们宣布可以在没有结构化数据的情况下自动查看社交资料,只用了大约一年的时间。

谷歌不再需要结构化数据只是时间问题。

结构化数据也不是评估的良好基础。 你要么拥有它们,要么没有。

您可以将所有这些都算作语义搜索引擎优化。 然而,我经常怀念的是作为出版商和作者的实体的全球视野。 页面外信号多于页面内信号在这里发挥作用。 根据权威实体和可信实体之间的关系,Google 希望根据 EAT 确定哪些域和作者是某个主题的最佳质量来源。

  • 谁和谁有关系?
  • 谁推荐谁?
  • 谁和谁在一起?

来自 Google 的链接和同现可用作权威实体之间这种接近度的因素。 通过语义搜索引擎优化,我还指优化它们。

虽然我们讨论的是共现问题,但您还应该考虑 NLP 在优化内容时的工作原理。 Google 使用 NLP 来识别实体及其上下文。 这通过由名词和动词组成的语法句子结构、三元组和元组来工作。

这就是为什么我们在语义搜索引擎优化中也应该注意一个语法简单的句子结构。 使用没有人称代词和嵌套的短句。 这就是我们在可读性和搜索引擎方面为用户服务的方式。

语义搜索的未来:什么时候可以实现 100% 基于实体的 Google 搜索?

我认为在未来,经典的谷歌搜索索引和知识图谱之间会通过一个界面进行越来越多的交流。

知识图中记录的实体越多,它们对 SERP 的影响就越大。 然而,谷歌仍然面临着协调完整性和准确性的主要挑战。

对于 Hummingbird 的实际评分,文档级实体并不起主要作用。 相反,它们是在搜索索引端构建未加权文档语料库的重要组织元素。

文档的实际评分是由蜂鸟根据经典的信息检索规则完成的。 但是,在域级别上,我看到实体对排名的影响要高得多。 输入吃。

在接下来的几年里,我们很可能会看到实体在 Google 搜索中的影响越来越大。 基于实体的搜索的新出现清楚地显示了谷歌如何逐步组织围绕实体的信息和内容的索引。 这表明像 MUM 这样的创新在多大程度上遵循了语义搜索的思想。


本文中表达的观点是客座作者的观点,不一定是 Search Engine Land。 工作人员作者在这里列出。