Indicizzazione semantica latente: come funziona l'algoritmo LSI?
Pubblicato: 2021-11-26Google utilizza LSI per valutare il significato dei contenuti scritti sul tuo blog o sito web. L'indicizzazione semantica latente è un termine improprio per "analisi semantica latente", una tecnica analitica statistica che può utilizzare stringhe di caratteri per determinare la semantica del testo, il significato effettivo del testo.
Qui discuteremo alcuni aspetti di LSI che ti fanno pensare in modo diverso sulle parole chiave e su come scrivi i tuoi contenuti. Tieni presente che Google è più grande nel traffico di ricerca che ottiene tutti gli altri motori di ricerca combinati. Inoltre, alcuni di questi altri utilizzano i dati di Google. Ecco perché ci concentriamo su di esso.
Che cos'è l'indicizzazione semantica latente?
L'obiettivo di Google è fornire ai propri clienti le migliori informazioni possibili quando effettuano una ricerca. Google deve quindi comprendere appieno cosa cercano esattamente i ricercatori di informazioni quando utilizzano le parole chiave per ottenere informazioni e anche quanto bene ciascuna pagina Web indicizzata fornisce tali informazioni.
L'algoritmo di indicizzazione semantica latente (LSI) di Google è stato sviluppato per utilizzare le stringhe di caratteri in un documento per stabilirne la rilevanza semantica rispetto al termine di ricerca (parola chiave) utilizzato. In altre parole, per aiutare a stabilire il vero significato del testo su un post di un blog o su una pagina web.
L'algoritmo LSI considera tutti i termini costitutivi utilizzati nel testo di un documento per stabilirne il vero significato in relazione alle parole chiave impiegate. Ecco perché è importante essere precisi quando si cercano informazioni su Google. Se utilizzi la parola "Apache" come termine di ricerca in Google, i primi sei risultati includono l'applicazione del server web, la tribù dei nativi americani, gli elicotteri Apache e una compagnia di esplorazione di petrolio e gas che utilizza quel nome.
Non puoi presumere che Google restituirà la stessa definizione per il termine di ricerca a cui stai pensando. Non devi solo utilizzare la tua parola chiave principale, ma definirne la definizione in relazione al tuo utilizzo.

Allo stesso modo, se utilizzi il concetto di LSI nel tuo testo, puoi aumentare la possibilità che la tua pagina o il tuo post del blog vengano elencati per questo termine di ricerca nel contesto in cui lo stai utilizzando. Questo è vero, anche se il testo della tua pagina web o del tuo post sul blog non menziona la parola chiave "apache" o qualsiasi altra parola chiave che stai utilizzando. Ecco perché.
LSI prevede l'analisi delle stringhe di caratteri
L'algoritmo non utilizza un dizionario come lo conosciamo noi, ma comporta una complessa analisi statistica e matematica dei singoli caratteri e delle stringhe di caratteri utilizzati nel testo che compone una determinata pagina web. È irrilevante se si tratta di una pagina di blog, di un post, di una pagina intera su un sito Web o anche di un commento a un post o di una stringa del forum. LSI viene utilizzato per valutare il contenuto di ogni singolo file pubblicato sul web.
Per questo motivo, Google ha introdotto un mezzo molto potente per distinguere tra linguaggio, vocabolario e semantica. In che modo questi differiscono? Ecco come:
Lingua: La parola di solito si riferisce alle forme di parole scritte o parlate specifiche di un determinato paese o comunità. Pertanto, la stringa di testo 'pain' significa 'pane' in francese, ma non in inglese. Google non può dire la differenza a meno che non capisca la lingua utilizzata.
Vocabolario: questa parola si riferisce alle parole usate all'interno di una lingua specifica. Può anche riferirsi alla gamma di parole conosciute da una persona specifica all'interno di una lingua. 'Bad language' si riferisce all'uso del vocabolario e non del linguaggio. 'Box' è una parola nel vocabolario inglese, ma quella parola ha molti significati, che ci portano a:
Semantica: la stessa parola può essere usata per significare molte cose. Così la parola 'scatola' può significare un contenitore, combattere, recitare i punti di un compasso o una specie di cespuglio. La semantica si riferisce al significato delle parole in un contesto specifico. Il linguaggio scurrile può esprimere molto bene il significato, quindi può formare una semantica efficace!
Sintassi: Il modo in cui le parole sono combinate in una frase. Pertanto, le parole "il cane ha morso l'uomo" potrebbero essere espresse utilizzando una sintassi diversa come " l'uomo ha morso il cane". ' Prima di LSI Google non riusciva a distinguere la differenza, rilevava solo le parole.
L'algoritmo LSI di Google tiene conto di ciascuno di questi fattori. Se rifletti abbastanza profondamente, sarai in grado di capire perché la ripetizione delle parole chiave è inutile e perché una bassa densità di parole chiave (KD) può fornirti risultati di ranking migliori rispetto a un KD elevato.
L'algoritmo analizza il significato delle parole nella tua pagina web o blog utilizzando la semantica e la sintassi e le abbina al significato percepito delle parole chiave utilizzate dalla persona che effettua la ricerca.
Parola chiave o significato?
Cosa è più importante per i tuoi lettori? Parole chiave o significato? Diciamo che stai cercando informazioni online utilizzando un motore di ricerca. Cosa preferiresti trovare: una pagina che offre molte ripetizioni della tua parola chiave, ma pochissime altre, o una che ti fornisce ciò che stai cercando, anche se non riesci a trovare il termine di ricerca nel testo?
Conosci la risposta e anche Google. Il problema era che nei primi giorni della sua esistenza, il motore di ricerca Google era in grado di trovare, indicizzare e classificare solo quelle pagine web che contenevano il termine di ricerca (parola chiave/frase) utilizzato da chi cercava informazioni.
Se il tuo post sul blog o la tua pagina web non contiene la parola chiave della frase utilizzata più volte all'interno del termine di ricerca, non verrebbe elencata e resa visibile a chiunque utilizzi quella frase: in futuro ci riferiremo alle parole chiave come una o più parole. Così indovinate un po!
Ripieno di parole chiave e software
È diventata una pratica comune riempire le pagine web di parole chiave. Più siamo meglio è e Google li classificherebbe in alto nelle pagine dei risultati per quella parola chiave. Gli imprenditori hanno fatto fortuna progettando software (app per voi giovani) che prendevano una pagina di testo e ne generavano centinaia di altre, senza cambiare nient'altro che la parola chiave utilizzata per quella pagina.
Molte persone che stavano usando il motore di ricerca per trovare per quelle che erano informazioni molto importanti, venivano presentate pagine su pagine di inutili sciocchezze che non davano loro altro che pubblicità e le stesse cose ripetute più e più volte.
Persino i webmaster si sono lamentati con Google di come tali pagine potessero essere elencate al di sopra di quelle che offrivano realmente informazioni. Il motivo era, ovviamente, la ripetizione delle parole chiave. Il modo in cui è stato impostato l'algoritmo di ranking era che più parole chiave, maggiore era il ranking. Questo doveva finire.
Google lo ha notato e quindi ha deciso di fare qualcosa al riguardo, ma cosa? È iniziato utilizzando l'algoritmo Adsense che utilizzava la semantica per stabilire il miglior tipo di annunci per qualsiasi pagina Web specifica. Ha sviluppato ulteriormente questo concetto, utilizzando l'analisi semantica latente per creare l'algoritmo di indicizzazione semantica latente. Maggiori informazioni su questo a breve.
LSI utilizza il concetto di analisi semantica latente per esaminare tutto il vocabolario, la sintassi e la semantica di una pagina per stabilirne il vero significato. Attraverso LSI, Google può confrontare il termine di ricerca utilizzato dal proprio cliente con le pagine web indicizzate e stabilire quale corrisponde meglio a quel termine/parola chiave di ricerca analizzando tutto il vocabolario della pagina, non solo le parole chiave. Come fa?
Il problema dell'ambiguità nel linguaggio e nel vocabolario
Diciamo che stai scrivendo un libro sull'invenzione e l'uso delle serrature nel corso della storia. Hai bisogno di alcune informazioni online sull'argomento, quindi inserisci il termine di ricerca "serrature e loro cronologia". O forse, "la storia delle serrature".
La prima domanda da considerare sarebbe "che tipo di serrature?" Stai scrivendo di serrature di sicurezza - serrature e chiavi o di serrature di canali? O forse ti riferisci anche a ciocche di capelli? Per la maggior parte delle persone, sarebbero probabili solo le prime due opzioni: le chiuse dei canali o quelle che necessitano di chiavi per aprire.
Per Google, tuttavia, sono tutti uguali. La parola chiave è "serrature" o anche "storia delle serrature", ma come fa la macchina a sapere di cosa si sta parlando? Non può chiedertelo: tutto ciò che può fare è prendere la stringa di caratteri che compone le parole e cercarla all'interno dei post indicizzati del blog e delle pagine web.
L'effetto dell'acquisizione di semantica applicata
La risposta è arrivata dopo che Google ha acquistato una società di Santa Monica nel 2003 nota come Applied Semantics. Questa azienda stava lavorando su algoritmi che applicassero la semantica alla comprensione del vero significato del testo scritto. Google ha acquistato l'azienda e poi ha applicato i suoi principi al suo programma Adsense.
Questo è il programma menzionato in precedenza, in cui Google inserisce annunci PPC pertinenti sulle tue pagine web. I principi della semantica applicata sono stati utilizzati per stabilire il miglior tipo di pubblicità per la tua pagina, in base al vero focus del suo contenuto.
Google ha continuato lo sviluppo di questa tecnica analitica matematica e alla fine ha elaborato ciò che ha definito indicizzazione semantica latente. Utilizzando LSI, è possibile per Google indicizzare e quindi classificare la tua pagina in base al significato e al contenuto totale piuttosto che in base al solo utilizzo di parole chiave.
Come funziona l'algoritmo LSI: parole chiave e semantica?
Google esaminerà altri vocaboli sulla tua pagina, quindi eseguirà un'analisi statistica del contesto e della sintassi di tale vocabolario. Se un utente di Google cerca "storia dei blocchi di sicurezza", Google terrà conto dell'altro vocabolario delle sue pagine indicizzate. Se la tua pagina contiene parole come "chiavi", "leve" e "porte", assocerà questo vocabolario ai blocchi di sicurezza.
Dopo aver preso in considerazione altri fattori di ranking, elencherà la tua pagina nelle pagine dei risultati di ricerca per quella parola chiave (storia dei blocchi di sicurezza) classificata in base ai vantaggi che Google ritiene offra al ricercatore. Prima di LSI, al ricercatore sarebbero state fornite anche pagine incentrate sulle ciocche dei canali e persino sui capelli.
Evita il ripieno di parole chiave
Il punto è che non c'è più bisogno dell'eccessiva ripetizione delle parole chiave. Da quando Google ha introdotto LSI, tutto ciò che devi fare è assicurarti di utilizzare quanti più sinonimi e termini correlati possibile per la parola chiave che stai inseguendo.
Ma non fraintenderci: le parole chiave contano ancora. Dovresti comunque utilizzare parole chiave pertinenti, ma Google sta utilizzando il concetto LSI per determinare di cosa tratta veramente il contenuto del sito web: cosa sta veramente dicendo. Sta recuperando pagine scritte appositamente per essere elencate per singole parole chiave, ma che hanno pochi contenuti utili oltre a ripetizioni senza senso della parola chiave.
Puoi ancora usarli, anche se anche l'1,5% di KD o meno sarà abbastanza sufficiente. Usa le parole chiave con parsimonia e usa anche altri termini che significano la stessa cosa nel contesto della tua nicchia. Questa è la risposta alla tua domanda - Come funziona l'algoritmo LSI - e perché l'indicizzazione semantica latente è un termine che non devi ricordare finché comprendi e applichi i concetti che Google utilizza quando utilizza LSI nei suoi algoritmi di indicizzazione e classificazione.
