EAT的起源:页面内容、超链接分析和使用数据

已发表: 2022-09-13

根据过去的知识预测未来是基本的。 我始终密切关注技术进步,但从不忘记过去。

过去在信息检索 (IR) 领域取得的成就和突破让人联想到搜索技术中“下一步要去哪里”的可能性。

这让我想到了它对未来搜索引擎优化 (SEO) 技术和方法的影响。

在我的 SEO“回到未来”系列的上一部分中,重新审视了索引和关键字排名技术:20 年后,我最后展示了一个解释所谓“丰度问题”的图形。 这通常会阻止纯关键字排名技术(页面上)将更权威的页面放在结果的顶部。 相关——是的。 但是权威?

对于谷歌质量评估者来说,EAT 可能只存在了几年。 但在 IR 领域,它一直是搜索引擎如何以及做什么的核心。

在本文中,我将探讨专业知识、权威性和可信赖性 (EAT) 的历史渊源以及它们的实际基础。

'吃' 20 年前

对于 SEO 意义上的“权威性”实际上意味着什么,业内仍有很多模糊不清的地方。 站点/页面如何变得具有权威性?

也许看看“权威”——以及“专家”和“信任”这两个词——如何进入 IR 和 SEO 词典可以让你更深入地了解。

这是我在 2002 年创建的图形,但这个版本有一个相关的增强功能将所有这些结合在一起。

信息检索和网络搜索的三个主要类别,因为它们与 E-A-T 相关。

我将使用这个经典的 Web 数据挖掘图形,现在包含三个字母 EAT,以帮助更好地理解它的起源。

EAT 本身并不是一种算法,而是:

  • 专业知识直接连接到页面内容
  • 权威直接连接到超链接分析
  • 信任来自页面内容和超链接分析以及最终用户访问数据的组合。

所有三个数据挖掘方面都必须以元搜索(或联合搜索)的方式结合起来,以提供最权威的页面来满足最终用户的信息需求。 实际上,它是一系列相辅相成的融合算法排名机制。

作为世界上最大的计算机协会计算机协会的长期专业成员,我很自豪能加入信息检索特别兴趣小组 (SIGIR)。 我在该组中的主要关注领域是超链接分析和搜索引擎排名科学。

对我来说,这是 IR 和 SEO 最迷人的领域。 正如我多年来在许多会议上所说的那样:“并非所有链接都是平等的。 有些人比其他人平等得多。”

对于 SEO Bravehearts 同伴来说,这是下一篇史诗读物的一个很好的起点。

从基于文本的排名技术到基于超链接的排名算法的演变

让我们快速介绍一下链接对所有搜索引擎都必不可少的根本原因,而不仅仅是对谷歌。

首先,社交网络分析有着悠久的历史。 在过去的二十年中,科学界对网络和网络理论的概念产生了极大的兴趣和迷恋。 作为基本概述,这仅仅意味着一组事物之间的互连模式。

对于 Meta 这样的公司来说,社交网络并不是一个新现象。 朋友之间的社会关系已被广泛研究多年。 经济网络、制造网络、媒体网络以及更多网络存在。

该领域的一项实验在科学界之外变得非常有名,被称为“六度分离”,你可能很清楚。

网络是网络的网络。 1998 年,一位名叫 Jon Kleinberg 的年轻科学家(现在被公认为世界领先的计算机科学家之一)和斯坦福大学的几名学生(包括 Google Larry Page 和 Sergey Brin)对网络的超链接结构产生了浓厚的兴趣. 在那一年,三人产生了两种最有影响力的超链接分析排名算法——HITS(或“超链接诱导主题搜索”)和PageRank。

需要明确的是,网络对一个或另一个链接没有偏好。 一个链接就是一个链接。

但是对于 1998 年新兴 SEO 行业的那些人来说,当佩奇和布林在他们在澳大利亚的一次会议上发表的一篇论文中发表以下声明时,这种观点将完全改变:

“直观地说,从网络上许多地方得到很好引用的页面都值得一看。”

然后他们给出了一个早期的线索,支持我通过跟进这一点强调“并非所有链接都是平等的”这一事实:

“此外,可能只有一次引用来自雅虎主页的页面通常也值得一看。”

最后一句话引起了我的真正共鸣,作为一名从业者,多年来,我一直专注于开发一种更优雅的方法来将吸引技巧和实践联系起来。

在本期结束时,我将解释一些关于我的方法(非常成功),我认为从概念上讲,你对所谓的“链接构建”的思考方式会改变,并将其改为“声誉建设。”

搜索中“权威”的起源

在 SEO 社区中,谈论 Google 时经常使用“权威”一词。 但这不是该术语的起源(稍后会详细介绍)。

在谷歌创始人在澳大利亚会议上发表的论文中,值得注意的是,虽然他们谈论的是超链接分析算法,但他们没有使用“链接”这个词,而是使用了“引用”这个词。 这是因为 PageRank 是基于引文分析的。

粗略地解释一下,这是对文档中引用的频率、模式和图表的分析(也就是从一个文档到另一个文档的链接)。 一个典型的目标是识别集合中最重要的文档。

引用分析最早的例子是检查科学论文网络以发现最权威的来源。 它的首要科学被称为“文献计量学”——正如我已经谈到的那样,它属于社会网络分析和网络理论范畴。

以下是我在 20 年前如何以最简单的方式转换它,以展示 Google 如何查看网络链接数据。

“网页上的某些链接只是“浏览”网站的导航辅助工具。 其他链接可以提供对其他页面的访问,这些页面增加了包含它们的页面的内容。 Andrei Broder [首席科学家 Alta Vista] 指出,网页作者很可能会因为其相关性或重要性而创建从一个页面到另一个页面的链接:“你知道,网络非常有趣的是超链接环境,它承载很多信息。 它告诉你:“我认为这个页面很好”——因为大多数人通常会列出好的资源。 很少有人会说:“这些是我见过的最糟糕的页面”并将指向它们的链接放在他们自己的页面上!

具有良好、清晰和简洁信息的高质量页面更有可能有许多指向它们的链接。 而低质量的页面将有更少的链接或根本没有链接。 超链接分析可以显着提高搜索结果的相关性。 现在所有主要的搜索引擎都采用某种类型的链接分析算法。”

“使用传统文献计量学中使用的引用/共同引用原则,超链接分析算法可以做出以下基本假设中的一个或两个:
• 从“a”页到“b”页的超链接是“a”页的作者对“b”页的推荐。
• 如果页面“a”和页面“b”通过超链接连接,那么它们可能属于同一主题。

基于超链接的算法也使用无向共引图。 A 和 B 由一条无向边连接,当且仅当有第三页 C 链接到 A 和 B。”

第二部分在书中有更长的解释。 但由于它有点令人困惑,我将在这里给出一个非常简单的。

了解被引和共同被引的优势很重要。

在第一个插图中,有直接链接——一个页面使用超链接连接到另一个页面。 但是如果页面'c'链接到'a'和'b'然后页面'd'链接到'a'和'b'然后页面'e'等等,你可以假设的是,虽然页面'a'和页面'b'没有直接相互超链接,但因为它们被多次共同引用,它们之间必须有一些联系。

现实生活中的例子是什么?

好吧,从列表开始。 包含“前十名”最畅销笔记本电脑、“前十名”体育名人或摇滚明星的页面,您可以看到在这些类型的页面中,共同被引是一个重要因素。

那么这个你可能从未听说过的 HITS 算法在哪里发挥作用呢?

有一个故事说,在 Page 和 Brin 研究他们的 PageRank 算法的同时,Kleinberg 正在分析当时顶级搜索引擎的结果,包括其中增长最快的 Alta Vista。 他认为它们都很差,并且就它们与查询的相关程度而言,产生的结果非常微薄。

他搜索了“日本汽车制造商”这个词,发现丰田和日产等主要品牌都没有出现在结果中,更不用说它们应该排在首位的位置了。

浏览了各大厂商的网站后,他发现了一个共同点:没有一家的网站页面文字中出现“日本汽车制造商”的字样。

事实上,他搜索了“搜索引擎”这个词,甚至出于同样的原因,Alta Vista 也没有出现在自己的搜索结果中。 这使他开始关注网页的连接性,以提供关于它们与给定查询的相关性(和重要性)的线索。

因此,他开发了 HITS 算法,该算法在 Alta Vista 进行关键字搜索后获取前一千个或更多页面,然后根据它们的互连性对它们进行排名。

实际上,他使用链接结构围绕关键字主题形成了一个网络或“社区”,并在该网络中确定了他称之为“中心和权威”的内容。

这就是“权威”一词进入 SEO 词典的地方。 Kleinberg 的论文题目是“超链接环境中的权威来源”。

“中心”页面是具有许多链接到给定主题的“权威”的页面。 链接到给定权限的中心越多,它获得的权限就越大。 这也是相辅相成的。 一个好的枢纽也可以是一个好的权威,反之亦然。

像往常一样,多年前我的图形创作技能并没有得到任何奖励,但这就是我在 2002 年对其进行可视化的方式。集线器(红色)是那些链接到网络社区内的许多“权威”(蓝色)的集线器。

克莱因伯格的中心和权威。

那么,什么是“网络社区”呢?

网页数据社区是指一组具有自己的逻辑和语义结构的网页。

网页社区将每个网页视为一个整体,而不是将网页分解为信息片段,并揭示相关网页数据之间的相互关系。

它可以灵活地反映 Web 数据的性质,例如动态性和异构性。 在下图中,每种颜色代表网络上的不同社区。

我一直认为,从您自己的网络社区内部吸引的链接比来自您社区外部的链接更有声望。

网络社区。

20 年前,我更多地解释了以这种方式识别社区的重要性:

“关于链接数据:指向(链接)到其他页面的页面可以提供大量关于结构、社区和层次结构(主要称为网络的“拓扑”)的信息。 通过使用这种方法,搜索引擎可以尝试识别网络的知识结构(拓扑)和社交网络(社区)。 然而,使用引文和共引分析的方法来处理具有数十亿次引用(超链接)的数以亿计的文档时,存在许多问题。
“网络空间”(如网络)已经有了它的社区和社区。 好的——在你住的地方和和谁一起出去玩的意义上,不那么真实。 但是网络有一个“社会学”。 来自不同文化和不同背景(和时区)的音乐爱好者并不生活在同一个地理社区——但当他们在网络上相互联系时,他们就成了一个社区。 就像艺术爱好者和各行各业的人一样,他们将自己的信息发布到网络上并在“网络空间”中形成这些社区或“链接社区”。


获取营销人员所依赖的每日通讯搜索。

处理中……请稍候。

见条款。


PageRank 与 HITS:有什么区别?

PageRank 和 HITS 算法在分析网页的互连性以创建排名机制的方式上有许多相似之处。

但也有显着差异。

PageRank 是一种与关键字无关的排名算法,而 HITS 是与关键字相关的。

使用 PageRank,无论社区如何,您都可以获得您的权威分数,因为它最初是一个静态的全局分数。

而 HITS 是依赖于关键字的,这意味着权威分数是围绕将社区拉在一起的关键字/短语建立的。 太长了,超出了本期的范围,这里就不深入了。

引入术语“专家”的算法

这个 Hilltop 算法非常重要,但受到的关注最少。 这是因为,在专业圈子里,人们坚信 2003 年臭名昭著的佛罗里达州更新发生时,它已被合并到谷歌的算法流程中。

一个真正的游戏规则改变者,Hilltop 算法是 HITS 更接近的衍生算法,由 Krishna Bharat 于 1999 年(是的,几乎同时)开发。

当时,他在 DEC 系统研究中心工作,该中心是 AltaVista 搜索引擎的所有者。 他的研究论文题为“当专家同意时:使用非附属专家对热门话题进行排名”。 这就是他描述山顶的方式。

“我们为热门话题提出了一种新颖的排名方案,将查询话题上最权威的页面放在排名的顶部。我们的算法在“专家文档”的特殊索引上运行。这些是 WWW 上页面的子集标识为指向特定主题的非附属来源的链接目录。结果根据查询与指向给定结果页面的专家页面上的超链接的相关描述性文本之间的匹配进行排名。

是的,这就是“专家”一词进入 SEO 词典的地方。 请注意论文标题和过程描述,当其他人链接到您的页面时,您的页面被视为专家页面。 因此,术语“专家”和“权威”可以互换使用。

应该仔细注意的另一件事是在算法描述中使用术语“非附属”。 这可能会提供一个线索,说明为什么许多联盟营销人员在佛罗里达州的更新中受到如此严重的打击。

另一个需要注意的重要事项是,在 SEO 社区中,人们经常提到“权威网站”(或者有时甚至不是一个东西的“域权威”)。 但事实是,搜索引擎在查询后在其结果中返回网页,而不是网站。

您从其他“专家”页面吸引的链接越多,您获得的权限就越多,并且您可以通过链接到另一个专家页面添加更多“声望”。 这就是在社区中建立“声誉”的美妙之处——而不仅仅是成为链接收集者。

每当我解释在网络社区中被认可为专家的重要性时,就像我在过去的二十年中所做的那样,我知道有时人们很难想象那会是什么样子。

幸运的是,在我多年前的研究工作中,我遇到了由两位日本科学家丰田正史和福地健太郎开发的另一种算法。 他们的方法也是网络社区,但他们能够直观地输出结果。

我为他们举的例子是他们在围绕计算机制造商建立网络社区时使用的例子。 这是我在会议会议上使用的一小部分输出,以帮助每个人对这个概念有一个更切实的想法。

在计算机制造商周围的网络社区中成为专家的示例。

请注意网络社区不仅包括计算机制造商,还包括设备制造商、电缆制造商、软件制造商等。这表明网络社区可以有多么广泛和深入(以及狭窄和浅薄)。

“信任”是如何形成的

“专业知识”和“权威性”有很多内容,“信任”同样如此。

甚至“信任”也属于超链接分析和网络结构的范畴。 在使用“专家页面”的内容和连接性方面已经做了大量工作,这些页面被信任以发现和清除垃圾邮件。 借助 AI 和 ML 技术,这些连接模式更容易被发现和消除。

过去,有一种被称为“TrustRank”的算法被开发出来,这就是它的基础。 当然,“信任”的严峻考验确实发生在最终用户身上。

搜索引擎努力清除垃圾邮件并提供真正满足用户信息需求的结果。 因此,用户对页面的访问模式提供了大量关于哪些页面通过了 Web 社区测试(连接性)以及哪些页面通过了最终用户测试(用户访问数据)的数据。

正如我所提到的,从其他网页到您的网页的链接可以被视为对您的内容的“投票”。 但是数以百万计的没有网页给你链接的最终用户怎么办?他们怎么能投票呢?

他们通过单击某些结果或不单击其他结果来“信任”它。

这完全取决于最终用户是否在使用您的内容——因为如果他们没有——谷歌在查询后的结果中返回它的意义何在?

搜索中的“专家”、“权威”和“信任”是什么意思

总而言之,您无法在自己的页面上宣称自己是专家。

你可以“声称”自己是某个领域的专家或权威,或者世界领先的这个或那个。

但从哲学上讲,谷歌和其他搜索引擎是在说:“还有谁这么认为?”

这不是你对自己的评价。 这是其他人对您的评价(链接锚文本)。 这就是您在社区中建立“声誉”的方式。

此外,Google 的质量评估员本身并不能确定您的内容是“专家”还是“权威”。 他们的工作是检查并确定 Google 的算法是否在发挥作用。

这是一个如此引人入胜的主题,还有更多内容需要涵盖。 但我们现在没有时间和空间。

下一次,我将解释结构化数据的重要性以及在您的网络社区中“语义”连接的重要性。

在那之前,当我们滑入另一个季节时,享受秋天的金色,对搜索引擎内部运作的下一个史诗般的阅读充满期待。


本文中表达的观点是客座作者的观点,不一定是 Search Engine Land。 工作人员作者在这里列出。