潜在意味索引付け:LSIアルゴリズムはどのように機能しますか?
公開: 2021-11-26GoogleはLSIを使用して、ブログやWebサイトに書かれたコンテンツの意味を評価します。 潜在意味索引付けは、「潜在意味分析」の誤称です。これは、文字列を使用してテキストの意味(テキストが実際に何を意味するか)を判別できる統計分析手法です。
ここでは、キーワードやコンテンツの書き方について異なる考え方をするLSIのいくつかの側面について説明します。 Googleは、他のすべての検索エンジンを組み合わせた検索トラフィックの方が多いことに注意してください。 また、これらの他のいくつかはGoogleデータを使用しています。 それが私たちがそれに焦点を合わせる理由です。
潜在的セマンティックインデックスとは何ですか?
Googleの目的は、クライアントが検索を実行するときに可能な限り最高の情報をクライアントに提供することです。 したがって、Googleは、検索者が情報にキーワードを使用するときに何を探しているのか、また、インデックスに登録された各Webページがその情報をどの程度提供しているかを完全に理解する必要があります。
Googleの潜在的セマンティックインデックス(LSI)アルゴリズムは、ドキュメント内の文字列を使用して、使用される検索用語(キーワード)とのセマンティック関連性を確立するために開発されました。 言い換えれば、ブログ投稿またはWebページ上のテキストの真の意味を確立するのに役立ちます。
LSIアルゴリズムは、ドキュメントのテキストで使用されているすべての構成用語を考慮して、使用されているキーワードに関連する真の意味を確立します。 そのため、Googleで情報を検索するときは具体的にすることが重要です。 Googleで「Apache」という単語を検索用語として使用すると、最初の6つの結果には、Webサーバーアプリケーション、ネイティブアメリカンの部族、Apacheヘリコプター、およびその名前を使用する石油ガス探査会社が含まれます。
あなたが考えているのと同じ定義をGoogleが検索語に返すとは限りません。 mainキーワードを使用するだけでなく、その使用に関連してその定義を定義する必要があります。

同様に、テキストでLSIの概念を使用すると、使用しているコンテキストでこの検索用語にページまたはブログ投稿がリストされる可能性を高めることができます。 あなたのウェブページやブログ投稿のテキストがキーワード「apache」またはあなたが使用している他のキーワードに言及していなくても、それは真実です。 これが理由です。
LSIには文字列分析が含まれます
アルゴリズムは、私たちが知っているように辞書を使用しませんが、特定のWebページを構成するテキストで使用される個々の文字と文字列の複雑な統計的および数学的分析を含みます。 それがブログページ、投稿、Webサイトの全ページ、または投稿コメントやフォーラム文字列であるかどうかは重要ではありません。 LSIは、Web上で公開されている個々のファイルの内容を評価するために使用されます。
このため、Googleは言語、語彙、意味論を区別する非常に強力な手段を導入しました。 これらはどのように異なりますか? 方法は次のとおりです。
言語:この単語は通常、特定の国またはコミュニティに固有の書き言葉または話し言葉の形式を指します。 したがって、テキスト文字列「pain」はフランス語で「パン」を意味しますが、英語では意味しません。 Googleは、使用されている言語を理解しない限り、違いを見分けることはできません。
語彙:この単語は、特定の言語で使用される単語を指します。 また、言語内の特定の人が知っている単語の範囲を指すこともあります。 「悪い言葉」とは、言葉ではなく語彙の使用を指します。 「ボックス」は英語の語彙の単語ですが、その単語には多くの意味があり、次のようになります。
セマンティクス:同じ単語を使用して、多くのことを意味することができます。 したがって、「箱」という言葉は、コンパスまたは一種の茂みのポイントを暗唱するために戦うためのコンテナを意味することができます。 セマンティクスとは、特定の文脈における単語の意味を指します。 悪い言葉は意味を非常にうまく表現できるので、効果的なセマンティクスを形成する可能性があります!
構文: 1つの文で単語を組み合わせる方法。 したがって、「犬が男を噛んだ」という言葉は、「男が犬を噛んだ」とは異なる構文を使用して表すことができます。 'LSIの前にGoogleは違いを区別できませんでした–それはただ単語を検出しました。
GoogleのLSIアルゴリズムは、これらの各要素を考慮に入れています。 十分に深く考えると、キーワードの繰り返しが無意味である理由と、低いキーワード密度(KD)が高いKDよりも優れたランキング結果を提供できる理由を理解できます。
アルゴリズムは、セマンティクスと構文を使用してWebページまたはブログ内の単語の意味を分析し、検索を実行する人が使用するキーワードの認識された意味とこれらを照合します。
キーワードまたは意味?
読者にとってもっと重要なことは何ですか? キーワードまたは意味? 検索エンジンを使用してオンラインで情報を探しているとしましょう。 あなたはむしろ何を見つけたいですか:あなたのキーワードの多くの繰り返しを提供するが、他にはほとんどないページ、またはあなたがテキストであなたの検索語を見つけることができないとしてもあなたが探しているものをあなたに提供するページ?
あなたはその答えを知っています、そしてグーグルもそうです。 問題は、その存在の初期には、Google検索エンジンは、情報を求める人々が使用する検索用語(キーワード/フレーズ)を含むWebページのみを検索、索引付け、およびランク付けすることができたということでした。
ブログ投稿またはWebページに、検索用語内で複数回使用されたフレーズキーワードが含まれていなかった場合、そのフレーズはリストされず、そのフレーズを使用しているすべての人に表示されません。将来、キーワードは1語または複数語と呼ばれます。 だから何を推測する!
キーワードの乱用とソフトウェア
キーワードでいっぱいのウェブページを詰め込むことが一般的な習慣になりました。 より多くのメリットがあり、Googleはそのキーワードの結果ページでそれらを上位にランク付けします。 起業家は、1ページのテキストを受け取り、他の何百ものテキストを生成し、そのページに使用されているキーワードだけを変更するソフトウェア(若い人向けのアプリ)を設計することで財産を築きました。
非常に重要な情報を見つけるために検索エンジンを使用していた多くの人々は、広告だけを与え、同じものを何度も繰り返した無駄なナンセンスのページを次々と提示されていました。
ウェブマスターでさえ、そのようなページが本当に情報を提供しているページの上にどのようにリストされることができるかについてグーグルに不平を言いました。 もちろん、その理由はキーワードの繰り返しでした。 ランキングアルゴリズムの設定方法は、キーワードが多いほどランキングが高くなるというものでした。 これはやめなければなりませんでした。
グーグルはこれを見つけたので、それについて何かをすることに決めました、しかし何ですか? それは、セマンティクスを使用して特定のWebページに最適なタイプの広告を確立するAdSenseアルゴリズムを使用することから始まりました。 潜在意味解析を使用して潜在意味索引付けアルゴリズムを作成し、この概念をさらに発展させました。 これについてはまもなく詳しく説明します。
LSIは、潜在意味解析の概念を使用して、ページ上のすべての語彙、構文、および意味を調査し、その真の意味を確立します。 LSIを使用すると、Googleは顧客が使用する検索用語をインデックス付きのWebページと比較し、キーワードだけでなくページ上のすべての語彙を分析することで、その検索用語/キーワードに最も一致するものを特定できます。 それはどのようにそれをしますか?
言語と語彙の曖昧さの問題
あなたが歴史を通して発明と錠の使用についての本を書いているとしましょう。 トピックに関するオンライン情報が必要なため、「ロックとその履歴」という検索語を入力します。 または多分、「ロックの歴史」。
考慮すべき最初の質問は、「どのタイプのロックですか?」です。 あなたはセキュリティロックについて書いていますか–ロックとキー、または運河ロックについてですか? それとも、髪の毛の束について言及しているのでしょうか? ほとんどの人にとって、最初の2つのオプション、つまり運河の水門または開くために鍵が必要なものだけが考えられます。
ただし、Googleにとっては、すべて同じです。 キーワードは「ロック」または「ロックの履歴」ですが、マシンはどのようにしてあなたが話していることを認識しますか? 質問することはできません。単語を構成する文字列を取得し、インデックスに登録されたブログ投稿やWebページ内で検索するだけです。
応用意味論獲得の効果
その答えは、Googleが2003年にAppliedSemanticsとして知られるサンタモニカの会社を買収した後に出されました。 この会社は、書かれたテキストの真の意味の理解にセマンティクスを適用するアルゴリズムに取り組んでいました。 グーグルは会社を買収し、その原則をアドセンスプログラムに適用した。
これは前述のプログラムで、Googleが関連するPPC広告をWebページに配置します。 Applied Semanticsの原則を使用して、コンテンツの真の焦点に基づいて、ページに最適なタイプの広告を確立しました。
グーグルはこの数学的分析技術の開発を続け、最終的にそれが潜在意味索引付けと呼ぶものを思いついた。 LSIを使用すると、Googleは、キーワードの使用だけでなく、ページのインデックスを作成し、その意味とコンテンツ全体でランク付けすることができます。
LSIアルゴリズムはどのように機能しますか:キーワードとセマンティクス?
グーグルはあなたのページの他の語彙を見て、そのような語彙の文脈と構文の統計分析を実行します。 Googleユーザーが「セキュリティロックの履歴」を検索すると、Googleはインデックスに登録されたページの他の語彙を考慮に入れます。 ページに「キー」、「レバー」、「ドア」などの単語が含まれている場合、この語彙はセキュリティロックに関連付けられます。
他のランキング要素を考慮した後、Googleが検索者に提供すると信じている利点に従ってランク付けされたそのキーワード(セキュリティロックの履歴)の検索結果ページにページが一覧表示されます。 LSIが登場する前は、検索者には運河の水門や髪の毛に焦点を当てたページも提供されていました。
キーワードの乱用を避ける
ここで重要なのは、キーワードを過度に繰り返す必要がなくなったことです。 グーグルがLSIを導入して以来、あなたがする必要があるのはあなたが追いかけているキーワードにできるだけ多くの同義語と関連する用語を使うことを確実にすることです。
しかし、誤解しないでください。キーワードは依然として重要です。 関連するキーワードを引き続き使用する必要がありますが、GoogleはLSIの概念を使用して、Webサイトのコンテンツが実際に何であるか、つまり実際に何を言っているかを判断しています。 個々のキーワードのリストを取得するために特別に作成されたページをキャッチしていますが、キーワードの無意味な繰り返し以外に役立つコンテンツはほとんどありません。
1.5%KD以下でも十分ですが、引き続き使用できます。 キーワードは控えめに使用し、ニッチの文脈では同じことを意味する他の用語も使用してください。 それがあなたの質問への答えです– LSIアルゴリズムはどのように機能しますか–潜在意味インデックスは、GoogleがインデックスおよびランキングアルゴリズムでLSIを採用するときに使用している概念を理解して適用する限り、覚えておく必要のない用語です。
