Indexare semantică latentă: Cum funcționează algoritmul LSI?

Publicat: 2021-11-26

Google folosește LSI pentru a evalua semnificația conținutului scris de pe blogul sau site-ul dvs. web. Indexarea semantică latentă este o denumire greșită pentru „analiza semantică latentă”, o tehnică analitică statistică care poate folosi șiruri de caractere pentru a determina semantica textului – ceea ce înseamnă de fapt textul.

Aici vom discuta câteva aspecte ale LSI care vă fac să gândiți diferit despre cuvintele cheie și despre modul în care vă scrieți conținutul. Țineți minte că Google este mai mare în traficul de căutare, devine decât toate celelalte motoare de căutare combinate. De asemenea, unii dintre aceștia folosesc datele Google. De aceea ne concentrăm asupra ei.

Ce este indexarea semantică latentă?

Obiectivul Google este de a oferi clienților săi cele mai bune informații posibile atunci când efectuează o căutare. Prin urmare, Google trebuie să înțeleagă pe deplin exact ce informații caută cei care caută atunci când folosesc cuvinte cheie pentru informații și, de asemenea, cât de bine oferă fiecare pagină web indexată aceste informații.

Algoritmul Google de indexare semantică latentă (LSI) a fost dezvoltat pentru a utiliza șirurile de caractere dintr-un document pentru a stabili relevanța sa semantică pentru termenul de căutare (cuvânt cheie) utilizat. Cu alte cuvinte, pentru a ajuta la stabilirea adevăratului sens al textului pe o postare de blog sau pe o pagină web.

Algoritmul LSI ia în considerare toți termenii constitutivi utilizați în textul unui document pentru a stabili adevărata semnificație a acestuia în raport cu cuvintele cheie folosite. De aceea este important să fii specific atunci când cauți informații pe Google. Dacă folosiți cuvântul „Apache” ca termen de căutare în Google, primele șase rezultate includ aplicația server web, tribul nativ american, elicopterele apache și o companie de explorare a petrolului și gazelor care folosește acest nume.

Nu puteți presupune că Google va returna aceeași definiție pentru termenul de căutare la care vă gândiți. Nu trebuie doar să utilizați cuvântul cheie principal, ci să definiți definiția acestuia în raport cu utilizarea acestuia.

În același mod, dacă utilizați conceptul de LSI în text, atunci puteți crește potențialul ca pagina sau postarea de blog să fie listată pentru acest termen de căutare în contextul în care îl utilizați. Acest lucru este adevărat, chiar dacă textul de pe pagina web sau de pe blogul tău nu menționează cuvântul cheie „apache” – sau orice alt cuvânt cheie pe care îl folosești. Iată de ce.

LSI implică analiza șirurilor de caractere

Algoritmul nu folosește un dicționar așa cum îl știm noi, ci implică o analiză statistică și matematică complexă a caracterelor individuale și a șirurilor de caractere utilizate în textul care alcătuiește o anumită pagină web. Nu are importanță dacă este o pagină de blog, o postare, o pagină completă pe un site web sau chiar un comentariu de postare sau un șir de forum. LSI este utilizat pentru a evalua conținutul oricărui fișier individual publicat pe web.

Din acest motiv, Google a introdus un mijloc foarte puternic de a face distincția între limbaj, vocabular și semantică. Cum diferă acestea? Iată cum:

Limbă: Cuvântul se referă de obicei la formele de cuvinte scrise sau rostite specifice unei anumite țări sau comunități. Astfel, șirul de text „pain” înseamnă „pâine” în franceză, dar nu și în engleză. Google nu poate face diferența decât dacă înțelege limba folosită.

Vocabular: Acest cuvânt se referă la cuvintele folosite într-o anumită limbă. Se poate referi și la gama de cuvinte cunoscute de o anumită persoană într-o limbă. „Limbajul prost” se referă la utilizarea vocabularului și nu a limbajului. „Cutie” este un cuvânt din vocabularul englezesc, dar acel cuvânt are multe semnificații, ceea ce ne conduce la:

Semantică: același cuvânt poate fi folosit pentru a însemna multe lucruri. Astfel, cuvântul „cutie” poate însemna un container, a lupta, a recita punctele unei busole sau un tip de tufiș. Semantica se referă la semnificația cuvintelor într-un context specific. Limbajul prost poate exprima sensul foarte bine – deci poate forma o semantică eficientă!

Sintaxă: Modul în care cuvintele sunt combinate într-o propoziție. Astfel, cuvintele „câinele a muşcat omul” ar putea fi exprimate folosind sintaxe diferite ca „ omul a muşcat câinele”. Înainte de LSI, Google nu putea distinge diferența – doar a detectat cuvintele.

Algoritmul LSI de la Google ia în considerare fiecare dintre acești factori. Dacă gândiți suficient de profund, veți putea înțelege de ce repetiția cuvintelor cheie este inutilă și de ce o densitate scăzută a cuvintelor cheie (KD) vă poate oferi rezultate de clasare mai bune decât un KD ridicat.

Algoritmul analizează semnificația cuvintelor din pagina web sau blogul dvs. folosind semantică și sintaxa și le potrivește cu sensul perceput al cuvintelor cheie utilizate de persoana care efectuează căutarea.

Cuvânt cheie sau semnificație?

Ce este mai important pentru cititorii tăi? Cuvinte cheie sau sens? Să presupunem că căutați informații online folosind un motor de căutare. Ce ați prefera să găsiți: o pagină care să ofere multe repetări ale cuvântului dvs. cheie, dar foarte puțin altceva, sau una care vă oferă ceea ce căutați, chiar dacă nu puteți găsi termenul de căutare în text?

Știți răspunsul la asta, la fel și Google. Problema a fost că, în primele zile ale existenței sale, motorul de căutare Google a fost capabil să găsească, să indexeze și să clasifice doar acele pagini web care conțineau termenul de căutare (cuvânt cheie/expresie) folosit de cei care căutau informații.

Dacă postarea de blog sau pagina dvs. web nu conținea expresia cheie folosită în termenul de căutare de mai multe ori, atunci nu ar fi listată și făcută vizibilă pentru nimeni care folosește acea expresie – în viitor ne referim la cuvintele cheie ca fiind un cuvânt sau mai multe. Deci ghici ce!

Umplutura de cuvinte cheie și software

A devenit o practică obișnuită să umpleți paginile web cu cuvinte cheie. Cu cât sunt mai mulți, cu atât mai bine, iar Google le-ar clasa pe primul loc în paginile de rezultate pentru acel cuvânt cheie. Antreprenorii și-au făcut avere prin proiectarea de software (aplicații pentru tine, tinerii) care să ia o pagină de text și să genereze alte sute, schimbând nimic altceva decât cuvântul cheie folosit pentru pagina respectivă.

Mulți oameni care foloseau motorul de căutare pentru a găsi informații foarte importante, li se prezentau pagini după pagină de prostii inutile care nu le dădeau decât reclame și aceleași lucruri repetate iar și iar.

Chiar și webmasterii s-au plâns la Google despre modul în care astfel de pagini ar putea fi enumerate deasupra celor care oferă cu adevărat informații. Motivul a fost, desigur, repetarea cuvintelor cheie. Modul în care a fost configurat algoritmul de clasare a fost că, cu cât sunt mai multe cuvinte cheie, cu atât clasarea este mai mare. Acest lucru trebuia să se oprească.

Google a descoperit asta și a decis să facă ceva în privința asta, dar ce? A început prin utilizarea algoritmului Adsense care a folosit semantica pentru a stabili cel mai bun tip de reclame pentru orice pagină web specifică. A dezvoltat acest concept în continuare, folosind analiza semantică latentă pentru a crea algoritmul de indexare semantică latentă. Mai multe despre asta în scurt timp.

LSI folosește conceptul de analiză semantică latentă pentru a analiza întregul vocabular, sintaxa și semantica dintr-o pagină pentru a stabili adevărata ei semnificație. Prin intermediul LSI, Google poate compara termenul de căutare utilizat de clientul său cu paginile web indexate și poate stabili care se potrivește cel mai bine cu acel termen de căutare/cuvânt cheie analizând tot vocabularul din pagină, nu doar cuvintele cheie. Cum face asta?

Problema ambiguității în limbaj și vocabular

Să presupunem că scrii o carte despre inventarea și utilizarea încuietorilor de-a lungul istoriei. Aveți nevoie de câteva informații online despre acest subiect, așa că introduceți termenul de căutare „încuietori și istoricul lor”. Sau poate, „istoria încuietorilor”.

Prima întrebare de luat în considerare ar fi „ce tip de încuietori?” Scrii despre încuietori de securitate – încuietori și chei, sau despre încuietori de canal? Sau poate chiar te referi la șuvițe de păr? Pentru majoritatea oamenilor, ar fi probabil doar primele două opțiuni - ecluzele de canal sau cele care au nevoie de chei pentru a se deschide.

Pentru Google, totuși, toate sunt la fel. Cuvântul cheie este „încuietori” sau chiar „istoria încuietorilor”, dar de unde știe aparatul despre ce vorbiți? Nu vă poate întreba – tot ce poate face este să ia șirul de caractere care alcătuiește cuvintele și să-l caute în postările de blog și paginile web indexate.

Efectul achiziției de semantică aplicată

Răspunsul a venit după ce Google a achiziționat o companie din Santa Monica în 2003, cunoscută sub numele de Applied Semantics. Această firmă lucra la algoritmi care aplicau semantica înțelegerii adevăratului sens al textului scris. Google a achiziționat compania și apoi și-a aplicat principiile programului său Adsense.

Acesta este programul menționat mai devreme, în care Google plasează reclame PPC relevante pe paginile dvs. web. Principiile semanticii aplicate au fost folosite pentru a stabili cel mai bun tip de reclamă pentru pagina dvs., pe baza realizării conținutului acesteia.

Google a continuat dezvoltarea acestei tehnici analitice matematice și, în cele din urmă, a venit cu ceea ce a numit indexare semantică latentă. Folosind LSI, este posibil ca Google să indexeze și apoi să clasifice pagina dvs. în funcție de sensul și conținutul total, mai degrabă decât după utilizarea cuvintelor cheie.

Cum funcționează algoritmul LSI: cuvinte cheie și semantică?

Google va analiza alt vocabular de pe pagina dvs., apoi va efectua o analiză statistică a contextului și sintaxei unui astfel de vocabular. Dacă un utilizator Google caută „istoria încuietorilor de securitate”, atunci Google va lua în considerare alt vocabular din paginile sale indexate. Dacă pagina dvs. conține cuvinte precum „chei”, „pârghii” și „uși”, atunci va asocia acest vocabular cu încuietori de securitate.

După ce ține cont de alți factori de clasare, va lista pagina ta în paginile cu rezultatele căutării pentru acel cuvânt cheie (istoria blocărilor de securitate) clasată în funcție de beneficiile pe care Google consideră că le oferă celui care caută. Înainte de LSI, cercetătorului i se vor oferi și pagini care se concentrează pe șuvițele de canal și chiar pe păr.

Vezi si

Bună cercetare de cuvinte cheie pentru a clasifica un articol

Evitați umplerea cuvintelor cheie

Întregul punct care se face aici este că nu mai este nevoie de repetarea excesivă a cuvintelor cheie. De când Google a introdus LSI, tot ce trebuie să faceți este să vă asigurați că utilizați cât mai multe sinonime și termeni înrudiți cu cuvântul cheie pe care îl urmăriți.

Dar nu ne înțelegeți greșit – cuvintele cheie încă contează. Ar trebui să folosiți în continuare cuvinte cheie relevante, dar Google folosește conceptul LSI pentru a determina despre ce este vorba de fapt conținutul site-ului web: despre ce spune cu adevărat. Este prinderea paginilor scrise special pentru a fi listate pentru cuvinte cheie individuale, dar care au puțin conținut util, în afară de repetițiile fără sens ale cuvântului cheie.

Le puteți folosi în continuare, deși chiar și 1,5% KD sau mai puțin va fi suficient. Folosiți cuvinte cheie cu moderație și, de asemenea, folosiți alți termeni care înseamnă același lucru în contextul nișei dvs. Acesta este răspunsul la întrebarea dvs. – Cum funcționează algoritmul LSI – și de ce indexarea semantică latentă este un termen pe care nu trebuie să-l amintiți atâta timp cât înțelegeți și aplicați conceptele pe care Google le folosește atunci când folosește LSI în algoritmii săi de indexare și clasare.