Utajone indeksowanie semantyczne: jak działa algorytm LSI?
Opublikowany: 2021-11-26Google używa LSI do oceny znaczenia treści pisanych na Twoim blogu lub w witrynie. Utajone indeksowanie semantyczne to mylące określenie „ukrytej analizy semantycznej”, statystycznej techniki analitycznej, która może wykorzystywać ciągi znaków do określania semantyki tekstu — co to właściwie oznacza.
Tutaj omówimy niektóre aspekty LSI, które sprawiają, że myślisz inaczej o słowach kluczowych i sposobie pisania treści. Należy pamiętać, że Google jest większy w ruchu wyszukiwania, ponieważ wszystkie inne wyszukiwarki są połączone. Ponadto niektóre z tych innych korzystają z danych Google. Dlatego się na tym skupiamy.
Co to jest ukryte indeksowanie semantyczne?
Celem Google jest dostarczanie klientom najlepszych informacji podczas wyszukiwania. Google musi zatem w pełni zrozumieć, jakich informacji szukają osoby wyszukujące informacje, używając słów kluczowych w celu uzyskania informacji, a także, jak dobrze każda zindeksowana strona internetowa dostarcza te informacje.
Algorytm ukrytego indeksowania semantycznego (LSI) Google został opracowany w celu wykorzystania ciągów znaków w dokumencie do ustalenia jego znaczenia semantycznego dla użytego terminu wyszukiwania (słowa kluczowego). Innymi słowy, aby pomóc w ustaleniu prawdziwego znaczenia tekstu w poście na blogu lub na stronie internetowej.
Algorytm LSI uwzględnia wszystkie terminy składowe użyte w tekście dokumentu, aby ustalić jego prawdziwe znaczenie w odniesieniu do użytych słów kluczowych. Dlatego ważne jest, aby być konkretnym podczas wyszukiwania informacji w Google. Jeśli użyjesz słowa „Apache” jako wyszukiwanego hasła w Google, pierwsze sześć wyników obejmuje aplikację serwera WWW, plemię rdzennych Amerykanów, helikoptery Apache oraz firmę zajmującą się wydobyciem ropy i gazu używającą tej nazwy.
Nie możesz zakładać, że Google zwróci tę samą definicję wyszukiwanego hasła, o której myślisz. Musisz nie tylko użyć swojego głównego słowa kluczowego, ale także zdefiniować jego definicję w związku z jego użyciem.

W ten sam sposób, jeśli użyjesz pojęcia LSI w swoim tekście, możesz zwiększyć prawdopodobieństwo, że Twoja strona lub post na blogu zostanie umieszczony na liście dla tego wyszukiwanego hasła w kontekście, w którym go używasz. To prawda, nawet jeśli tekst na Twojej stronie internetowej lub w poście na blogu nie zawiera słowa kluczowego „apache” – ani żadnego innego słowa kluczowego, którego używasz. Oto dlaczego.
LSI obejmuje analizę ciągów znaków
Algorytm nie korzysta ze znanego nam słownika, ale polega na złożonej statystyczno-matematycznej analizie poszczególnych znaków i ciągów znaków użytych w tekście składającym się na daną stronę internetową. Nie ma znaczenia, czy jest to strona bloga, post, cała strona w witrynie, a nawet komentarz do posta lub ciąg na forum. LSI służy do oceny zawartości każdego pojedynczego pliku opublikowanego w Internecie.
Z tego powodu Google wprowadził bardzo potężny sposób rozróżniania języka, słownictwa i semantyki. Czym się one różnią? Oto jak:
Język: słowo zwykle odnosi się do form pisanych lub mówionych słów charakterystycznych dla danego kraju lub społeczności. Tak więc ciąg tekstowy „pain” oznacza „chleb” po francusku, ale nie po angielsku. Google nie może odróżnić, chyba że rozumie używany język.
Słownictwo: To słowo odnosi się do słów używanych w określonym języku. Może również odnosić się do zakresu słów znanych konkretnej osobie w danym języku. „Zły język” odnosi się do używania słownictwa, a nie języka. „Box” to słowo w angielskim słownictwie, ale to słowo ma wiele znaczeń, co prowadzi nas do:
Semantyka: to samo słowo może oznaczać wiele rzeczy. Tak więc słowo „pudełko” może oznaczać pojemnik do walki, do recytowania wskazówek cyrkla lub krzaka. Semantyka odnosi się do znaczenia słów w określonym kontekście. Zły język może bardzo dobrze wyrażać znaczenie – więc może tworzyć skuteczną semantykę!
Składnia: sposób łączenia słów w zdaniu. Tak więc słowa „pies ugryzł człowieka” można by wyrazić przy użyciu innej składni, jak „ mężczyzna ugryzł psa”. „Przed LSI Google nie potrafiło odróżnić różnicy – po prostu wykrywało słowa.
Algorytm LSI firmy Google uwzględnia każdy z tych czynników. Jeśli zastanowisz się wystarczająco głęboko, będziesz w stanie zrozumieć, dlaczego powtarzanie słów kluczowych jest bezcelowe i dlaczego niska gęstość słów kluczowych (KD) może zapewnić lepsze wyniki w rankingu niż wysokie KD.
Algorytm analizuje znaczenie słów na Twojej stronie internetowej lub blogu za pomocą semantyki i składni i dopasowuje je do postrzeganego znaczenia słów kluczowych używanych przez osobę przeprowadzającą wyszukiwanie.
Słowo kluczowe czy znaczenie?
Co jest ważniejsze dla twoich czytelników? Słowa kluczowe czy znaczenie? Załóżmy, że szukasz informacji online za pomocą wyszukiwarki. Co wolałbyś znaleźć: stronę oferującą wiele powtórzeń słów kluczowych, ale niewiele więcej, lub taką, która zapewnia to, czego szukasz, nawet jeśli nie możesz znaleźć wyszukiwanego hasła w tekście?
Znasz odpowiedź na to pytanie, podobnie jak Google. Problem polegał na tym, że na początku swojego istnienia wyszukiwarka Google była w stanie znaleźć, zindeksować i uszeregować tylko te strony internetowe, które zawierały wyszukiwane hasło (słowo kluczowe/frazę) używane przez poszukujących informacji.
Jeśli Twój post na blogu lub strona internetowa nie zawierały słowa kluczowego użytego w wyszukiwanym haśle kilka razy, to nie byłyby wymienione i widoczne dla nikogo używającego tego wyrażenia – w przyszłości słowa kluczowe będziemy określać jako jedno lub kilka słów. Zgadnij co!
Wypełnianie słów kluczowych i oprogramowanie
Powszechną praktyką stało się zapychanie stron internetowych słowami kluczowymi. Im więcej, tym lepiej, a Google umieści je wysoko na stronach wyników dla tego słowa kluczowego. Przedsiębiorcy zbili fortuny, projektując oprogramowanie (aplikacje dla młodszych ludzi), które zajmowało jedną stronę tekstu i generowało setki innych, nie zmieniając nic poza słowem kluczowym użytym dla tej strony.
Wiele osób, które korzystały z wyszukiwarki, aby znaleźć bardzo ważne informacje, otrzymywało strona po stronie bezużyteczne bzdury, które dawały im tylko reklamy i te same rzeczy powtarzane w kółko.
Nawet webmasterzy skarżyli się Google, że takie strony mogą być umieszczane nad tymi, które rzeczywiście oferowały informacje. Powodem było oczywiście powtarzanie słów kluczowych. Sposób skonfigurowania algorytmu rankingu polegał na tym, że im więcej słów kluczowych, tym wyższy ranking. To musiało się skończyć.
Google to zauważył i postanowił coś z tym zrobić, ale co? Zaczęło się od użycia algorytmu Adsense, który wykorzystywał semantykę do ustalenia najlepszego rodzaju reklam dla dowolnej strony internetowej. Zespół rozwinął tę koncepcję dalej, wykorzystując utajoną analizę semantyczną do stworzenia ukrytego algorytmu indeksowania semantycznego. Więcej na ten temat wkrótce.
LSI wykorzystuje koncepcję ukrytej analizy semantycznej do badania całego słownictwa, składni i semantyki na stronie w celu ustalenia jej prawdziwego znaczenia. Za pomocą LSI Google może porównać wyszukiwane hasło używane przez klienta z zaindeksowanymi stronami internetowymi i ustalić, które najlepiej pasują do tego wyszukiwanego hasła/słowa kluczowego, analizując całe słownictwo na stronie, a nie tylko słowa kluczowe. Jak to się robi?
Problem niejednoznaczności w języku i słownictwie
Załóżmy, że piszesz książkę o wynalezieniu i używaniu zamków na przestrzeni dziejów. Potrzebujesz pewnych informacji online na ten temat, więc wpisujesz wyszukiwane hasło „zamki i ich historia”. A może „historia zamków”.
Pierwszym pytaniem do rozważenia byłoby „jaki rodzaj zamków?” Piszesz o zamkach bezpieczeństwa – zamkach i kluczach, czy o zamkach kanałowych? A może masz na myśli kosmyki włosów? Dla większości ludzi prawdopodobne byłyby tylko dwie pierwsze opcje – zamki kanałowe lub te, które wymagają kluczy do otwarcia.
Jednak dla Google wszystkie są takie same. Słowo kluczowe to „blokady” lub nawet „historia blokad”, ale skąd maszyna ma wiedzieć, o czym mówisz? Nie może cię zapytać – wszystko, co może zrobić, to wziąć ciąg znaków, który tworzy słowa, i wyszukać go w zindeksowanych postach na blogu i stronach internetowych.
Skutki nabycia stosowanej semantyki
Odpowiedź pojawiła się po tym, jak w 2003 roku Google kupił firmę Santa Monica znaną jako Applied Semantics. Ta firma pracowała nad algorytmami, które stosowały semantykę do zrozumienia prawdziwego znaczenia tekstu pisanego. Google kupił firmę, a następnie zastosował jej zasady do swojego programu Adsense.
Jest to wspomniany wcześniej program, w którym Google umieszcza odpowiednie reklamy PPC na Twoich stronach internetowych. Zastosowano zasady Applied Semantics, aby ustalić najlepszy rodzaj reklamy dla Twojej strony, w oparciu o rzeczywisty cel jej treści.
Google kontynuował rozwój tej matematycznej techniki analitycznej i wreszcie wymyślił coś, co nazwało Latent Semantic Indexing. Korzystając z LSI, Google może indeksować, a następnie oceniać Twoją stronę pod kątem jej znaczenia i całkowitej zawartości, a nie tylko na podstawie słów kluczowych.
Jak działa algorytm LSI: słowa kluczowe i semantyka?
Google sprawdzi inne słownictwo na Twojej stronie, a następnie przeprowadzi analizę statystyczną kontekstu i składni takiego słownictwa. Jeśli użytkownik Google wyszukuje hasło „historia blokad bezpieczeństwa”, Google weźmie pod uwagę inne słownictwo jego zindeksowanych stron. Jeśli Twoja strona zawiera słowa takie jak „klucze”, „dźwignie” i „drzwi”, skojarzy to słownictwo z blokadami bezpieczeństwa.
Po uwzględnieniu innych czynników rankingowych, następnie wyświetli Twoją stronę na stronach wyników wyszukiwania dla tego słowa kluczowego (historia blokad bezpieczeństwa) uszeregowanych zgodnie z korzyściami, jakie według Google oferuje wyszukiwarce. Przed LSI poszukiwacz otrzymywałby również strony skupiające się na śluzach, a nawet na włosach.
Unikaj upychania słów kluczowych
Chodzi o to, że nie ma już potrzeby nadmiernego powtarzania słów kluczowych. Odkąd Google wprowadził LSI, wszystko, co musisz zrobić, to upewnić się, że używasz jak największej liczby synonimów i pokrewnych terminów do słowa kluczowego, którego szukasz.
Ale nie zrozum nas źle – słowa kluczowe wciąż się liczą. Powinieneś nadal używać odpowiednich słów kluczowych, ale Google używa koncepcji LSI, aby określić, o czym naprawdę jest treść witryny: co tak naprawdę mówi. Jest to wyłapywanie stron napisanych specjalnie po to, by znaleźć się na liście dla poszczególnych słów kluczowych, ale które mają niewiele użytecznej treści poza bezsensownymi powtórzeniami słowa kluczowego.
Nadal możesz z nich korzystać, chociaż nawet 1,5% KD lub mniej będzie w zupełności wystarczające. Używaj oszczędnie słów kluczowych, a także używaj innych terminów oznaczających to samo w kontekście swojej niszy. To jest odpowiedź na Twoje pytanie – Jak działa algorytm LSI – i dlaczego ukryte indeksowanie semantyczne to termin, którego nie musisz pamiętać, dopóki rozumiesz i stosujesz koncepcje, których używa Google, gdy stosuje LSI w swoich algorytmach indeksowania i rankingu.
