EAT的起源:頁面內容、超鏈接分析和使用數據
已發表: 2022-09-13根據過去的知識預測未來是基本的。 我始終密切關注技術進步,但從不忘記過去。
過去在信息檢索 (IR) 領域取得的成就和突破讓人聯想到搜索技術中“下一步要去哪裡”的可能性。
這讓我想到了它對未來搜索引擎優化 (SEO) 技術和方法的影響。
在我的 SEO“回到未來”系列的上一部分中,重新審視了索引和關鍵字排名技術:20 年後,我最後展示了一個解釋所謂“豐度問題”的圖形。 這通常會阻止純關鍵字排名技術(頁面上)將更權威的頁面放在結果的頂部。 相關——是的。 但是權威?
對於谷歌質量評估者來說,EAT 可能只存在了幾年。 但在 IR 領域,它一直是搜索引擎如何以及做什麼的核心。
在本文中,我將探討專業知識、權威性和可信賴性 (EAT) 的歷史淵源以及它們的實際基礎。
'吃' 20 年前
對於 SEO 意義上的“權威性”實際上意味著什麼,業內仍有很多模糊不清的地方。 站點/頁面如何變得具有權威性?
也許看看“權威”——以及“專家”和“信任”這兩個詞——如何進入 IR 和 SEO 詞典可以讓你更深入地了解。
這是我在 2002 年創建的圖形,但這個版本有一個相關的增強功能將所有這些結合在一起。

我將使用這個經典的 Web 數據挖掘圖形,現在包含三個字母 EAT,以幫助更好地理解它的起源。
EAT 本身並不是一種算法,而是:
- 專業知識直接連接到頁面內容。
- 權威直接連接到超鏈接分析。
- 信任來自頁面內容和超鏈接分析以及最終用戶訪問數據的組合。
所有三個數據挖掘方面都必須以元搜索(或聯合搜索)的方式結合起來,以提供最權威的頁面來滿足最終用戶的信息需求。 實際上,它是一系列相輔相成的融合算法排名機制。
作為世界上最大的計算機協會計算機協會的長期專業成員,我很自豪能加入信息檢索特別興趣小組 (SIGIR)。 我在該組中的主要關注領域是超鏈接分析和搜索引擎排名科學。
對我來說,這是 IR 和 SEO 最迷人的領域。 正如我多年來在許多會議上所說的那樣:“並非所有鏈接都是平等的。 有些人比其他人平等得多。”
對於 SEO Bravehearts 同伴來說,這是下一篇史詩讀物的一個很好的起點。
從基於文本的排名技術到基於超鏈接的排名算法的演變
讓我們快速介紹一下鏈接對所有搜索引擎都必不可少的根本原因,而不僅僅是對谷歌。
首先,社交網絡分析有著悠久的歷史。 在過去的二十年中,科學界對網絡和網絡理論的概念產生了極大的興趣和迷戀。 作為基本概述,這僅僅意味著一組事物之間的互連模式。
對於 Meta 這樣的公司來說,社交網絡並不是一個新現象。 朋友之間的社會關係已被廣泛研究多年。 經濟網絡、製造網絡、媒體網絡以及更多網絡存在。
該領域的一項實驗在科學界之外變得非常有名,被稱為“六度分離”,你可能很清楚。
網絡是網絡的網絡。 1998 年,一位名叫 Jon Kleinberg 的年輕科學家(現在被公認為世界領先的計算機科學家之一)和斯坦福大學的幾名學生(包括 Google Larry Page 和 Sergey Brin)對網絡的超鏈接結構產生了濃厚的興趣. 在那一年,三人產生了兩種最有影響力的超鏈接分析排名算法——HITS(或“超鏈接誘導主題搜索”)和PageRank。
需要明確的是,網絡對一個或另一個鏈接沒有偏好。 一個鏈接就是一個鏈接。
但是對於 1998 年新興 SEO 行業的那些人來說,當佩奇和布林在他們在澳大利亞的一次會議上發表的一篇論文中發表以下聲明時,這種觀點將完全改變:
“直觀地說,從網絡上許多地方得到很好引用的頁面都值得一看。”
然後他們給出了一個早期的線索,支持我通過跟進這一點強調“並非所有鏈接都是平等的”這一事實:
“此外,可能只有一次引用來自雅虎主頁的頁面通常也值得一看。”
最後一句話引起了我的真正共鳴,作為一名從業者,多年來,我一直專注於開發一種更優雅的方法來將吸引技巧和實踐聯繫起來。
在本期結束時,我將解釋一些關於我的方法(非常成功),我認為從概念上講,你對所謂的“鏈接構建”的思考方式會改變,並將其改為“聲譽建設。”
搜索中“權威”的起源
在 SEO 社區中,談論 Google 時經常使用“權威”一詞。 但這不是該術語的起源(稍後會詳細介紹)。
在谷歌創始人在澳大利亞會議上發表的論文中,值得注意的是,雖然他們談論的是超鏈接分析算法,但他們沒有使用“鏈接”這個詞,而是使用了“引用”這個詞。 這是因為 PageRank 是基於引文分析的。
粗略地解釋一下,這是對文檔中引用的頻率、模式和圖表的分析(也就是從一個文檔到另一個文檔的鏈接)。 一個典型的目標是識別集合中最重要的文檔。
引用分析最早的例子是檢查科學論文網絡以發現最權威的來源。 它的首要科學被稱為“文獻計量學”——正如我已經談到的那樣,它屬於社會網絡分析和網絡理論範疇。
以下是我在 20 年前如何以最簡單的方式轉換它,以展示 Google 如何查看網絡鏈接數據。
“網頁上的某些鏈接只是“瀏覽”網站的導航輔助工具。 其他鏈接可以提供對其他頁面的訪問,這些頁面增加了包含它們的頁面的內容。 Andrei Broder [首席科學家 Alta Vista] 指出,網頁作者很可能會因為其相關性或重要性而創建從一個頁面到另一個頁面的鏈接:“你知道,網絡非常有趣的是超鏈接環境,它承載很多信息。 它告訴你:“我認為這個頁面很好”——因為大多數人通常會列出好的資源。 很少有人會說:“這些是我見過的最糟糕的頁面”並將指向它們的鏈接放在他們自己的頁面上!
具有良好、清晰和簡潔信息的高質量頁面更有可能有許多指向它們的鏈接。 而低質量的頁面將有更少的鏈接或根本沒有鏈接。 超鏈接分析可以顯著提高搜索結果的相關性。 現在所有主要的搜索引擎都採用某種類型的鏈接分析算法。”

“使用傳統文獻計量學中使用的引用/共同引用原則,超鏈接分析算法可以做出以下基本假設中的一個或兩個:
• 從“a”頁到“b”頁的超鏈接是“a”頁的作者對“b”頁的推薦。
• 如果頁面“a”和頁面“b”通過超鏈接連接,那麼它們可能屬於同一主題。
基於超鏈接的算法也使用無向共引圖。 A 和 B 由一條無向邊連接,當且僅當有第三頁 C 鏈接到 A 和 B。”

第二部分在書中有更長的解釋。 但由於它有點令人困惑,我將在這裡給出一個非常簡單的。
了解被引和共同被引的優勢很重要。
在第一個插圖中,有直接鏈接——一個頁面使用超鏈接連接到另一個頁面。 但是如果頁面'c'鏈接到'a'和'b'然後頁面'd'鏈接到'a'和'b'然後頁面'e'等等,你可以假設的是,雖然頁面'a'和頁面'b'沒有直接相互超鏈接,但因為它們被多次共同引用,它們之間必須有一些聯繫。
現實生活中的例子是什麼?
好吧,從列表開始。 包含“前十名”最暢銷筆記本電腦、“前十名”體育名人或搖滾明星的頁面,您可以看到在這些類型的頁面中,共同被引是一個重要因素。
那麼這個你可能從未聽說過的 HITS 算法在哪裡發揮作用呢?
有一個故事說,在 Page 和 Brin 研究他們的 PageRank 算法的同時,Kleinberg 正在分析當時頂級搜索引擎的結果,包括其中增長最快的 Alta Vista。 他認為它們都很差,並且就它們與查詢的相關程度而言,產生的結果非常微薄。
他搜索了“日本汽車製造商”這個詞,發現豐田和日產等主要品牌都沒有出現在結果中,更不用說它們應該排在首位的位置了。
瀏覽了各大廠商的網站後,他發現了一個共同點:沒有一家的網站頁面文字中出現“日本汽車製造商”的字樣。
事實上,他搜索了“搜索引擎”這個詞,甚至出於同樣的原因,Alta Vista 也沒有出現在自己的搜索結果中。 這使他開始關注網頁的連接性,以提供關於它們與給定查詢的相關性(和重要性)的線索。
因此,他開發了 HITS 算法,該算法在 Alta Vista 進行關鍵字搜索後獲取前一千個或更多頁面,然後根據它們的互連性對它們進行排名。
實際上,他使用鏈接結構圍繞關鍵字主題形成了一個網絡或“社區”,並在該網絡中確定了他稱之為“中心和權威”的內容。
這就是“權威”一詞進入 SEO 詞典的地方。 Kleinberg 的論文題目是“超鏈接環境中的權威來源”。
“中心”頁面是具有許多鏈接到給定主題的“權威”的頁面。 鏈接到給定權限的中心越多,它獲得的權限就越大。 這也是相輔相成的。 一個好的樞紐也可以是一個好的權威,反之亦然。
像往常一樣,多年前我的圖形創作技能並沒有得到任何獎勵,但這就是我在 2002 年對其進行可視化的方式。集線器(紅色)是那些鏈接到網絡社區內的許多“權威”(藍色)的集線器。

那麼,什麼是“網絡社區”呢?
網頁數據社區是指一組具有自己的邏輯和語義結構的網頁。
網頁社區將每個網頁視為一個整體,而不是將網頁分解為信息片段,並揭示相關網頁數據之間的相互關係。
它可以靈活地反映 Web 數據的性質,例如動態性和異構性。 在下圖中,每種顏色代表網絡上的不同社區。
我一直認為,從您自己的網絡社區內部吸引的鏈接比來自您社區外部的鏈接更有聲望。


20 年前,我更多地解釋了以這種方式識別社區的重要性:
“關於鏈接數據:指向(鏈接)到其他頁面的頁面可以提供大量關於結構、社區和層次結構(主要稱為網絡的“拓撲”)的信息。 通過使用這種方法,搜索引擎可以嘗試識別網絡的知識結構(拓撲)和社交網絡(社區)。 然而,使用引文和共引分析的方法來處理具有數十億次引用(超鏈接)的數以億計的文檔時,存在許多問題。
“網絡空間”(如網絡)已經有了它的社區和社區。 好的——在你住的地方和和誰一起出去玩的意義上,不那麼真實。 但是網絡有一個“社會學”。 來自不同文化和不同背景(和時區)的音樂愛好者並不生活在同一個地理社區——但當他們在網絡上相互聯繫時,他們就成了一個社區。 就像藝術愛好者和各行各業的人一樣,他們將自己的信息發佈到網絡上並在“網絡空間”中形成這些社區或“鏈接社區”。
獲取營銷人員所依賴的每日通訊搜索。
見條款。
PageRank 與 HITS:有什麼區別?
PageRank 和 HITS 算法在分析網頁的互連性以創建排名機制的方式上有許多相似之處。
但也有顯著差異。
PageRank 是一種與關鍵字無關的排名算法,而 HITS 是與關鍵字相關的。
使用 PageRank,無論社區如何,您都可以獲得您的權威分數,因為它最初是一個靜態的全局分數。
而 HITS 是依賴於關鍵字的,這意味著權威分數是圍繞將社區拉在一起的關鍵字/短語建立的。 太長了,超出了本期的範圍,這裡就不深入了。
引入術語“專家”的算法
這個 Hilltop 算法非常重要,但受到的關注最少。 這是因為,在專業圈子裡,人們堅信 2003 年臭名昭著的佛羅里達州更新發生時,它已被合併到谷歌的算法流程中。
一個真正的遊戲規則改變者,Hilltop 算法是 HITS 更接近的衍生算法,由 Krishna Bharat 於 1999 年(是的,幾乎同時)開發。
當時,他在 DEC 系統研究中心工作,該中心是 AltaVista 搜索引擎的所有者。 他的研究論文題為“當專家同意時:使用非附屬專家對熱門話題進行排名”。 這就是他描述山頂的方式。
“我們為熱門話題提出了一種新穎的排名方案,將查詢話題上最權威的頁面放在排名的頂部。我們的算法在“專家文檔”的特殊索引上運行。這些是 WWW 上頁面的子集標識為指向特定主題的非附屬來源的鏈接目錄。結果根據查詢與指向給定結果頁面的專家頁面上的超鏈接的相關描述性文本之間的匹配進行排名。
是的,這就是“專家”一詞進入 SEO 詞典的地方。 請注意論文標題和過程描述,當其他人鏈接到您的頁面時,您的頁面被視為專家頁面。 因此,術語“專家”和“權威”可以互換使用。
應該仔細注意的另一件事是在算法描述中使用術語“非附屬”。 這可能會提供一個線索,說明為什麼許多聯盟營銷人員在佛羅里達州的更新中受到如此嚴重的打擊。
另一個需要注意的重要事項是,在 SEO 社區中,人們經常提到“權威網站”(或者有時甚至不是一個東西的“域權威”)。 但事實是,搜索引擎在查詢後在其結果中返回網頁,而不是網站。
您從其他“專家”頁面吸引的鏈接越多,您獲得的權限就越多,並且您可以通過鏈接到另一個專家頁面添加更多“聲望”。 這就是在社區中建立“聲譽”的美妙之處——而不僅僅是成為鏈接收集者。
每當我解釋在網絡社區中被認可為專家的重要性時,就像我在過去的二十年中所做的那樣,我知道有時人們很難想像那會是什麼樣子。
幸運的是,在我多年前的研究工作中,我遇到了由兩位日本科學家豐田正史和福地健太郎開發的另一種算法。 他們的方法也是網絡社區,但他們能夠直觀地輸出結果。
我為他們舉的例子是他們在圍繞計算機製造商建立網絡社區時使用的例子。 這是我在會議會議上使用的一小部分輸出,以幫助每個人對這個概念有一個更切實的想法。

請注意網絡社區不僅包括計算機製造商,還包括設備製造商、電纜製造商、軟件製造商等。這表明網絡社區可以有多麼廣泛和深入(以及狹窄和淺薄)。
“信任”是如何形成的
“專業知識”和“權威性”有很多內容,“信任”同樣如此。
甚至“信任”也屬於超鏈接分析和網絡結構的範疇。 在使用“專家頁面”的內容和連接性方面已經做了大量工作,這些頁面被信任以發現和清除垃圾郵件。 借助 AI 和 ML 技術,這些連接模式更容易被發現和消除。
過去,有一種被稱為“TrustRank”的算法被開發出來,這就是它的基礎。 當然,“信任”的嚴峻考驗確實發生在最終用戶身上。
搜索引擎努力清除垃圾郵件並提供真正滿足用戶信息需求的結果。 因此,用戶對頁面的訪問模式提供了大量關於哪些頁面通過了 Web 社區測試(連接性)以及哪些頁面通過了最終用戶測試(用戶訪問數據)的數據。
正如我所提到的,從其他網頁到您的網頁的鏈接可以被視為對您的內容的“投票”。 但是數以百萬計的沒有網頁給你鏈接的最終用戶怎麼辦?他們怎麼能投票呢?
他們通過單擊某些結果或不單擊其他結果來“信任”它。
這完全取決於最終用戶是否在使用您的內容——因為如果他們沒有——谷歌在查詢後的結果中返回它的意義何在?
搜索中的“專家”、“權威”和“信任”是什麼意思
總而言之,您無法在自己的頁面上宣稱自己是專家。
你可以“聲稱”自己是某個領域的專家或權威,或者世界領先的這個或那個。
但從哲學上講,谷歌和其他搜索引擎是在說:“還有誰這麼認為?”
這不是你對自己的評價。 這是其他人對您的評價(鏈接錨文本)。 這就是您在社區中建立“聲譽”的方式。
此外,Google 的質量評估員本身並不能確定您的內容是“專家”還是“權威”。 他們的工作是檢查並確定 Google 的算法是否在發揮作用。
這是一個如此引人入勝的主題,還有更多內容需要涵蓋。 但我們現在沒有時間和空間。
下一次,我將解釋結構化數據的重要性以及在您的網絡社區中“語義”連接的重要性。
在那之前,當我們滑入另一個季節時,享受秋天的金色,對搜索引擎內部運作的下一個史詩般的閱讀充滿期待。
本文中表達的觀點是客座作者的觀點,不一定是 Search Engine Land。 工作人員作者在這裡列出。
