Indexación semántica latente: ¿cómo funciona el algoritmo LSI?
Publicado: 2021-11-26Google utiliza LSI para evaluar el significado del contenido escrito en su blog o sitio web. La indexación semántica latente es un nombre inapropiado para 'análisis semántico latente', una técnica analítica estadística que puede usar cadenas de caracteres para determinar la semántica del texto, lo que realmente significa el texto.
Aquí discutiremos algunos aspectos de LSI que lo hacen pensar de manera diferente sobre las palabras clave y cómo escribe su contenido. Tenga en cuenta que Google es más grande en el tráfico de búsqueda que recibe que todos los demás motores de búsqueda combinados. Además, algunos de estos otros usan datos de Google. Por eso nos centramos en ello.
¿Qué es la indexación semántica latente?
El objetivo de Google es proporcionar a sus clientes la mejor información posible cuando realizan una búsqueda. Por lo tanto, Google debe comprender exactamente qué información buscan los buscadores cuando usan palabras clave para obtener información, y también qué tan bien proporciona esa información cada página web indexada.
El algoritmo de indexación semántica latente (LSI) de Google fue desarrollado para usar las cadenas de caracteres en un documento para establecer su relevancia semántica para el término de búsqueda (palabra clave) utilizado. En otras palabras, para ayudar a establecer el verdadero significado del texto en una publicación de blog o página web.
El algoritmo LSI considera todos los términos constituyentes utilizados en el texto de un documento para establecer su verdadero significado en relación con las palabras clave empleadas. Por eso es importante ser específico al buscar información en Google. Si usa la palabra 'Apache' como término de búsqueda en Google, sus primeros seis resultados incluyen la aplicación de servidor web, la tribu nativa americana, los helicópteros apache y una compañía de exploración de petróleo y gas que usa ese nombre.
No puede asumir que Google devolverá la misma definición para el término de búsqueda que está pensando. No solo debe usar su palabra clave principal, sino definir su definición en relación con el uso que haga de ella.

De la misma manera, si usa el concepto de LSI en su texto, puede aumentar el potencial de que su página o publicación de blog aparezca en la lista para este término de búsqueda en el contexto en el que lo está usando. Eso es cierto, incluso si el texto de su página web o publicación de blog no menciona la palabra clave 'apache', o cualquier otra palabra clave que esté utilizando. Aquí está el por qué.
LSI implica análisis de cadenas de caracteres
El algoritmo no utiliza un diccionario tal como lo conocemos, sino que implica un análisis matemático y estadístico complejo de los caracteres individuales y las cadenas de caracteres utilizados en el texto que compone una página web en particular. No importa si se trata de una página de blog, una publicación, una página completa en un sitio web o incluso un comentario de una publicación o una cadena de foro. LSI se utiliza para evaluar el contenido de cualquier archivo individual publicado en la web.
Debido a esto, Google ha introducido un medio muy poderoso para distinguir entre lenguaje, vocabulario y semántica. ¿Cómo difieren estos? Así es cómo:
Idioma: la palabra generalmente se refiere a las formas de palabras escritas o habladas específicas de un determinado país o comunidad. Por lo tanto, la cadena de texto 'dolor' significa 'pan' en francés, pero no en inglés. Google no puede notar la diferencia a menos que comprenda el idioma que se utiliza.
Vocabulario: Esta palabra se refiere a las palabras utilizadas dentro de un idioma específico. También puede referirse al rango de palabras conocidas por una persona específica dentro de un idioma. 'Lenguaje soez' se refiere al uso de vocabulario y no de lenguaje. 'Box' es una palabra en el vocabulario inglés, pero esa palabra tiene muchos significados, lo que nos lleva a:
Semántica: la misma palabra puede usarse para significar muchas cosas. Así la palabra 'caja' puede significar un recipiente, pelear, recitar las puntas de un compás o una especie de arbusto. La semántica se refiere al significado de las palabras en un contexto específico. El lenguaje soez puede expresar muy bien el significado, ¡así que puede formar una semántica efectiva!
Sintaxis: La forma en que se combinan las palabras en una oración. Por lo tanto, las palabras 'el perro mordió al hombre' podrían expresarse usando una sintaxis diferente a ' el hombre mordió al perro'. ' Antes de LSI, Google no podía distinguir la diferencia, solo detectaba las palabras.
El algoritmo LSI de Google tiene en cuenta cada uno de estos factores. Si piensa lo suficientemente profundo, podrá comprender por qué la repetición de palabras clave no tiene sentido y por qué una baja densidad de palabras clave (KD) puede proporcionarle mejores resultados de clasificación que un KD alto.
El algoritmo analiza el significado de las palabras en su página web o blog utilizando la semántica y la sintaxis, y las compara con el significado percibido de las palabras clave utilizadas por la persona que realiza la búsqueda.
¿Palabra clave o significado?
¿Qué es más importante para tus lectores? ¿Palabras clave o significado? Supongamos que está buscando información en línea utilizando un motor de búsqueda. ¿Qué preferiría encontrar: una página que ofrezca muchas repeticiones de su palabra clave, pero muy poco más, o una que le proporcione lo que está buscando, incluso si no puede encontrar el término de búsqueda en el texto?
Tú sabes la respuesta a eso, y Google también. El problema era que, en los primeros días de su existencia, el motor de búsqueda de Google podía encontrar, indexar y clasificar solo aquellas páginas web que contenían el término de búsqueda (palabra clave/frase) utilizado por aquellos que buscaban información.
Si su publicación de blog o página web no contiene la palabra clave de frase utilizada dentro del término de búsqueda varias veces, entonces no aparecerá en la lista ni será visible para nadie que use esa frase; en el futuro nos referiremos a las palabras clave como una palabra o varias. ¡Adivina que!
Relleno de palabras clave y software
Se convirtió en una práctica común llenar las páginas web con palabras clave. Cuantos más, mejor, y Google los clasificaría alto en las páginas de resultados para esa palabra clave. Los empresarios hicieron sus fortunas diseñando software (aplicaciones para los más jóvenes) que tomaría una página de texto y generaría cientos de otras, cambiando nada más que la palabra clave utilizada para esa página.
Muchas personas que usaban el motor de búsqueda para encontrar información muy importante, se les presentaba página tras página de tonterías inútiles que no les daban más que anuncios y las mismas cosas repetidas una y otra vez.
Incluso los webmasters se quejaron a Google de cómo esas páginas podían aparecer por encima de las que realmente ofrecían información. La razón fue, por supuesto, la repetición de palabras clave. La forma en que se configuró el algoritmo de clasificación fue que cuantas más palabras clave, mayor sería la clasificación. Esto tenía que parar.
Google vio esto y decidió hacer algo al respecto, pero ¿qué? Comenzó utilizando el algoritmo de Adsense que utilizó la semántica para establecer el mejor tipo de anuncios para cualquier página web específica. Desarrolló aún más este concepto, utilizando el análisis semántico latente para crear el algoritmo de indexación semántica latente. Más sobre esto en breve.
LSI utiliza el concepto de análisis semántico latente para examinar todo el vocabulario, la sintaxis y la semántica de una página para establecer su verdadero significado. Por medio de LSI, Google puede comparar el término de búsqueda utilizado por su cliente con páginas web indexadas y establecer cuál coincide mejor con ese término de búsqueda/palabra clave analizando todo el vocabulario de la página, no solo las palabras clave. ¿Como hace eso?
El problema de la ambigüedad en el lenguaje y el vocabulario
Digamos que estás escribiendo un libro sobre la invención y el uso de las cerraduras a lo largo de la historia. Necesita información en línea sobre el tema, por lo que ingresa el término de búsqueda 'bloqueos y su historial'. O tal vez, 'la historia de las cerraduras'.
La primera pregunta a considerar sería "¿qué tipo de cerraduras?" ¿Está escribiendo sobre esclusas de seguridad: cerraduras y llaves, o sobre esclusas de canales? ¿O tal vez incluso te estás refiriendo a mechones de cabello? Para la mayoría de las personas, solo las dos primeras opciones serían probables: esclusas de canal o aquellas que necesitan llaves para abrirse.
Para Google, sin embargo, todos son iguales. La palabra clave es 'bloqueos' o incluso 'historial de bloqueos', pero ¿cómo sabe la máquina de qué está hablando? No puede preguntarle: todo lo que puede hacer es tomar la cadena de caracteres que forman las palabras y buscarla dentro de sus publicaciones de blog y páginas web indexadas.
El efecto de la adquisición de la semántica aplicada
La respuesta llegó después de que Google comprara una empresa de Santa Mónica en 2003 conocida como Applied Semantics. Esta firma estaba trabajando en algoritmos que aplicaban la semántica a la comprensión del verdadero significado del texto escrito. Google compró la empresa y luego aplicó sus principios a su programa Adsense.
Este es el programa mencionado anteriormente, donde Google coloca anuncios PPC relevantes en sus páginas web. Se utilizaron los principios de la semántica aplicada para establecer el mejor tipo de anuncio para su página, en función del enfoque real de su contenido.
Google continuó con el desarrollo de esta técnica analítica matemática y finalmente ideó lo que denominó indexación semántica latente. Usando LSI, es posible que Google indexe y luego clasifique su página por su significado y contenido total en lugar de solo por el uso de palabras clave.
¿Cómo funciona el algoritmo LSI: palabras clave y semántica?
Google buscará otro vocabulario en su página y luego llevará a cabo un análisis estadístico del contexto y la sintaxis de dicho vocabulario. Si un usuario de Google busca 'historial de bloqueos de seguridad', Google tendrá en cuenta otro vocabulario de sus páginas indexadas. Si su página contiene palabras como "llaves", "palancas" y "puertas", asociará este vocabulario con cerraduras de seguridad.
Después de tener en cuenta otros factores de clasificación, incluirá su página en las páginas de resultados de búsqueda para esa palabra clave (historial de bloqueos de seguridad) clasificada de acuerdo con los beneficios que Google cree que ofrece al buscador. Antes de LSI, el buscador también recibía páginas centradas en mechones de canal e incluso en cabello.
Evite el relleno de palabras clave
El punto principal aquí es que ya no existe la necesidad de una repetición excesiva de palabras clave. Desde que Google introdujo LSI, todo lo que necesita hacer es asegurarse de usar tantos sinónimos y términos relacionados como pueda con la palabra clave que está buscando.
Pero no nos malinterprete: las palabras clave aún cuentan. Aún debe usar palabras clave relevantes, pero Google está usando el concepto LSI para determinar de qué se trata realmente el contenido del sitio web: lo que realmente está diciendo. Está detectando páginas escritas específicamente para aparecer en la lista de palabras clave individuales, pero que tienen poco contenido útil aparte de repeticiones sin sentido de la palabra clave.
Todavía puede usarlos, aunque incluso 1.5% KD o menos será suficiente. Use palabras clave con moderación y también use otros términos que signifiquen lo mismo en el contexto de su nicho. Esa es la respuesta a su pregunta: ¿Cómo funciona el algoritmo LSI? y por qué la indexación semántica latente es un término que no necesita recordar, siempre que comprenda y aplique los conceptos que usa Google cuando emplea LSI en sus algoritmos de indexación y clasificación.
