Robots.txt para SEO (Conceptos básicos de SEO)

Publicado: 2022-04-09
Robots.txt para SEO


Los archivos Robots.txt son elementos de sus sitios web que no desea desechar. Permiten y bloquean la entrada de visitantes de bots no deseados que intentan "fisgonear" a través del contenido de su sitio web.

Esta es más o menos una forma sencilla de definir archivos robots.txt.

En esta publicación, entraré en el archivo robots.txt para conocer los conceptos básicos de SEO .

Aprenderás:
  • Cuándo debes usarlos
  • Cómo implementarlos
  • Errores a evitar

Los bots utilizados por los motores de búsqueda son arañas que rastrean la web para indexar el contenido del sitio web de todo Internet. Esta información permite que los motores de búsqueda conozcan el contenido de las páginas web para que puedan recuperarlo cuando sea necesario.

Una vez que comprenda el proceso de rastreo web, también comprenderá por qué los archivos robots.txt son beneficiosos para su sitio web. Están aquí para protegerlo de los visitantes que husmean. Solo darán la información que deseas mostrar sobre tu sitio.

Para comprender mejor los archivos robots.txt, echemos un vistazo más de cerca a lo que son y cómo se mezclan entre sí.





¿Qué son los archivos Robots.txt?



Robots.txt. Los archivos, también conocidos como Protocolo de exclusión de robots, son archivos leídos por los motores de búsqueda que contienen reglas para otorgar o denegar el acceso a todas o ciertas partes de su sitio web. Los motores de búsqueda como Google o Bing envían rastreadores web para acceder a su sitio web y recopilar información que pueden usar para que su contenido pueda aparecer en los resultados de búsqueda.

Para imaginar cómo funcionan los archivos robot.txt, intente imaginar bots o pequeñas arañas arrastrándose por su sitio web en busca de información. Reflexiona sobre esas películas de ciencia ficción cuando un millón de arañas robot se arrastran por el lugar y husmean para encontrar la más mínima evidencia posible de la presencia del impostor.

vía GIPHY

Estos archivos de texto simples se utilizan para SEO mediante la emisión de comandos a los motores de búsqueda que indexan los bots de que una página puede rastrearse o no. Los archivos Robots.txt se utilizan principalmente para administrar el presupuesto de los rastreadores web y son útiles cuando no desea que estos rastreadores accedan a una parte de su sitio.

Robots.txt. Los archivos son muy importantes porque permiten que los motores de búsqueda sepan dónde se les permite rastrear. Básicamente, lo que hacen es bloquear su sitio web de forma parcial o total, o indexar su sitio web. En otras palabras, es una forma de permitir que los motores de búsqueda descubran su sitio web.





El proceso de rastreo en el trabajo



El proceso de rastreo de sitios web en busca de contenido se conoce como spidering. La tarea principal de los motores de búsqueda es rastrear la web para descubrir e indexar contenido siguiendo millones de enlaces. Cuando un robot accede a un sitio, lo primero que hace es buscar los archivos robots.txt para obtener información de cuánto “husmear” puede hacer.

Los motores de búsqueda cumplen con las reglas establecidas en sus archivos robots.txt. Si no hay un archivo robot.txt o el sitio web no tiene actividad prohibida, los bots rastrearán toda la información. Sin embargo, algunos motores de búsqueda como Google no son compatibles con todas las directivas dadas y lo explicaremos más adelante.





¿Por qué usar archivos Robots.txt?



Los archivos Robots.txt permiten que los sitios web hagan varias cosas como:
  • Bloquear el acceso a todo el sitio
  • Bloquear el acceso a una parte del sitio
  • Bloquear el acceso a una URL o a parámetros de URL específicos
  • Bloquear el acceso a un directorio completo
  • Permite la configuración de comodines

Los archivos Robots.txt controlan la actividad del rastreador en su sitio permitiéndoles acceder a ciertas áreas. Siempre hay razones por las que no otorgaría a Google u otros motores de búsqueda acceso a ciertas partes de su sitio web. Una podría ser que todavía está desarrollando su sitio web o desea proteger la información confidencial.

Aunque los sitios web pueden funcionar sin un archivo robots.txt, es importante recordar algunos beneficios de usarlos:
  • Evite que los motores de búsqueda rastreen carpetas o subdominios privados
  • Evite el rastreo de contenido duplicado y la visita de páginas que considere insignificantes
  • Impedir la indexación de algunas imágenes en su sitio
  • Prevenir y administrar la sobrecarga del servidor
  • Evitar la ralentización del sitio web


Tenga en cuenta que decirle a los bots que no rastreen una página no significa que no se indexará. La URL aparecerá en el motor de búsqueda, pero aparecerá sin meta descripción.





¿Cómo encontrar, crear y probar archivos Robots.txt?



El archivo robots.txt siempre se encuentra en el dominio raíz del sitio web. Por ejemplo, puede encontrarlo como https://www.example.com/robots.txt. Si desea editarlo, puede acceder al Administrador de archivos en el CPanel del host.

Si su sitio web no tiene un archivo robots.txt, crear uno es bastante sencillo porque es un archivo de texto básico creado en un editor de texto. Simplemente abra un documento .txt en blanco e inserte sus directivas. Cuando haya terminado, simplemente guarde el archivo como "robots.txt'' y ahí lo tendrá.

Si generalmente comete muchos errores al escribir, tal vez sea conveniente usar un generador de robots.txt para evitar desastres de SEO y minimizar los errores de sintaxis. Recuerde que incluso el más mínimo error de omitir o agregar una letra o un número puede causar problemas.

Una vez que se crea el archivo robots.txt, colóquelo en el directorio raíz del dominio correspondiente. Asegúrese de probar el archivo antes de publicarlo para asegurarse de que sea válido. Para hacer esto, debe ir a la página de soporte de Google y hacer clic en el botón "abrir probador de robots.txt". Desafortunadamente, esta opción de prueba solo está disponible en la versión anterior de Google Search Console.

Seleccione la propiedad que desea probar, elimine todo lo que pueda estar en el cuadro y pegue su archivo robots.txt. Si su archivo recibe el visto bueno, entonces tiene un archivo robots.txt totalmente funcional. Si no es así, debe volver atrás y buscar el error.





Implementación de directivas de rastreo



Cada archivo robots.txt se compone de directivas que dan acceso a la información a los motores de búsqueda. Cada directiva comienza especificando el agente de usuario y luego establece las reglas para ese agente de usuario. A continuación hemos compilado dos listas; uno contiene directivas admitidas y el otro directivas no admitidas por agentes de usuario.



Directivas admitidas



  • Agente de usuario : una directiva que se usa para apuntar a ciertos bots. Los motores de búsqueda buscan agentes de usuario y bloques que se aplican a ellos. Cada motor de búsqueda tiene una marca de agente de usuario. Debido a la distinción entre mayúsculas y minúsculas, asegúrese de ingresar la forma correcta de los agentes de usuario.
    Por ejemplo:
    Agente de usuario: robot de Google
    Agente de usuario: Bingbot

    • No permitir : use esta directiva si desea evitar que los motores de búsqueda rastreen ciertas áreas del sitio web. Puedes hacer lo siguiente:
    bloquear el acceso a un directorio como un todo para todos los agentes de usuario:
    agente de usuario: *
    No permitir: /
    Bloquear un determinado directorio en particular para todos los agentes de usuario
    agente de usuario: *
    No permitir: /cartera
    Bloquee el acceso a PDF o cualquier otro archivo para todos los agentes de usuario. Simplemente use la extensión de archivo adecuada.
    agente de usuario: *
    No permitir: *.pdf$

    • Permitir : esta directiva permite que los motores de búsqueda rastreen la página o el directorio. Una buena nota para recordar es que puede anular una directiva no permitida. Supongamos que no desea que los motores de búsqueda rastreen un directorio de cartera, pero les permitirá acceder a uno específico.
    agente de usuario: *
    No permitir: /cartera
    Permitir: /cartera/cartera-permitida

    • Mapa del sitio: dar a los motores de búsqueda la ubicación del mapa del sitio les facilita rastrearlo.



    Directivas no admitidas



    • Crawl Delay : esta es una buena directiva para usar cuando desea que los bots disminuyan la velocidad y se retrasen entre rastreos para no abrumar a sus servidores. Esta directiva es bastante útil para sitios web pequeños en lugar de grandes. Solo una nota de que Google y Baidu ya no admiten la directiva de demora de rastreo, pero Yandex y Bing aún la admiten.
    • Noindex : una directiva utilizada para excluir un sitio web o un archivo de los motores de búsqueda. Google nunca admitió este comando. Por lo tanto, si desea evitar los motores de búsqueda, debe usar el encabezado HTTP de x-robots o robots de etiquetas meta.
    • Nofollow : otra directiva nunca respaldada por Google y utilizada para ordenar a los motores de búsqueda que no sigan los enlaces en las páginas. Use el encabezado de x-robots o robots de etiquetas meta para usar la directiva nofollow en todos los enlaces.
    • Directiva de host : se usa para decidir si desea mostrar www. antes de una URL ( ejemplo.com o www.ejemplo.com ). Esta directiva actualmente solo es compatible con Yandex, por lo que se recomienda no confiar en ella.



    Uso de comodines



    Los comodines son caracteres que se utilizan para simplificar las instrucciones de robots.txt. Los comodines se pueden utilizar para abordar y aplicar directivas a todos los agentes de usuario o para abordar agentes de usuario específicos individualmente. Estos son los comodines comúnmente utilizados:

    • Astérix (*): en directivas, corresponde a "aplicar a todos los agentes de usuario". También puede usarse para corresponder a "coincidir con patrones de URL o cualquier secuencia de caracteres". Si tiene URL que siguen el mismo patrón, esto le hará la vida mucho más fácil.
    • Un signo de dólar ($) - se usa para marcar el final de una URL.

    Veamos cómo se verá esto en un ejemplo. Si decide que todos los motores de búsqueda no deberían tener acceso a sus archivos PDF, entonces el archivo robots.txt debería verse así:
    agente de usuario: *
    No permitir: /*.pdf$

    Por lo tanto, las URL que terminan en .pdf no serán accesibles. Pero tenga en cuenta que si su URL tiene texto adicional después de la terminación .pdf, entonces se podrá acceder a esa URL. Por lo tanto, al escribir sus archivos robots.txt, asegúrese de haber considerado todos los aspectos.





    Errores a evitar



    El uso de archivos robot.txt es útil y hay muchas formas de operarlos. Pero profundicemos más y analicemos los errores que deben evitarse al usar el archivo robots.txt.

    Los beneficios son inmensos, pero también se pueden causar muchos daños si los archivos robot.txt no se utilizan de la manera correcta.

    • Nueva línea : use una nueva línea para cada directiva para no confundir a los motores de búsqueda
    • Preste atención a la distinción entre mayúsculas y minúsculas : cree los archivos robots.txt correctamente, ya que distinguen entre mayúsculas y minúsculas. Presta mucha atención a esto o no funcionarán.
    • Evite bloquear contenido : asegúrese de revisar varias veces las etiquetas no permitidas y no indexadas porque podrían estar perjudicando los resultados de SEO. Tenga cuidado de no bloquear buen contenido que debería presentarse públicamente
    • Proteja los datos privados : para proteger la información privada, es aconsejable pedir a los visitantes que inicien sesión. De esta manera, estará seguro de que los PDF u otros archivos estarán seguros.
    • Uso excesivo de la demora de rastreo : un buen consejo es no abusar de ninguna directiva, especialmente la demora de rastreo. Si tiene un sitio web grande, el uso de esta directiva puede ser contraproducente. Estarás limitando el rastreo de los bots al número máximo de URL por día, lo que no es recomendable.



    Contenido duplicado



    Hay varias razones por las que su sitio puede contener contenido duplicado. Puede ser una versión para imprimir, una página a la que se puede acceder desde varias URL o diferentes páginas con contenido similar. Los motores de búsqueda no pueden reconocer si se trata de una versión duplicada o no.

    En casos como estos, el usuario debe marcar la URL como canónica. Esta etiqueta se utiliza para informar al motor de búsqueda cuál es la ubicación original del duplicado. Si el usuario no hace esto, entonces el agente de usuario elegirá cuál es canónico o, lo que es peor, puede etiquetar ambos contenidos como canónicos. Otra forma de evitar esto es reescribir el contenido.





    Deja que el índice de ojos rastreros



    Cuando los motores de búsqueda rastrean o rastrean su sitio web, revisan todo el contenido del sitio web para indexarlo. Este proceso permite que los sitios web rastreados aparezcan en la sección de resultados de los motores de búsqueda.

    Al usar robots.txt, le dices a los motores de búsqueda dónde tienen o no acceso. Básicamente, los está limitando al establecer reglas apropiadas. El uso de robots.txt es bastante simple y útil. Una vez que aprenda las reglas de asignación de directivas, hay muchas cosas que puede hacer con su sitio web.

    Se recomienda que vigile sus archivos robots.txt para asegurarse de que estén configurados correctamente y funcionen como están codificados. Si nota algún mal funcionamiento, reaccione rápidamente para evitar desastres.

    Considere los archivos robots.txt como una herramienta esencial para controlar con éxito la indexación de su sitio web.