Por qué los registros del servidor son importantes para el SEO
Publicado: 2022-01-11La mayoría de los operadores de sitios web desconocen la importancia de los registros del servidor web. No registran, y mucho menos analizan, los registros del servidor de su sitio web. Las grandes marcas, en particular, no logran capitalizar el análisis de registros del servidor y pierden irremediablemente los datos de registro del servidor no registrados.
Las organizaciones que eligen adoptar el análisis de registros del servidor como parte de sus esfuerzos continuos de SEO a menudo se destacan en la Búsqueda de Google. Si su sitio web consta de 100 000 páginas o más y desea saber cómo y por qué los registros del servidor representan una gran oportunidad de crecimiento, siga leyendo.
Por qué son importantes los registros del servidor
Cada vez que un bot solicita una URL alojada en un servidor web, se crea automáticamente una entrada de registro que refleja la información intercambiada en el proceso. Cuando cubren un período de tiempo prolongado, los registros del servidor se vuelven representativos del historial de solicitudes recibidas y de las respuestas devueltas.
La información retenida en los archivos de registro del servidor generalmente incluye la dirección IP del cliente, la fecha y hora de la solicitud, la URL de la página solicitada, el código de respuesta HTTP, el volumen de bytes servidos, así como el agente de usuario y la referencia.
Si bien los registros del servidor se crean en cada instancia en que se solicita una página web, incluidas las solicitudes del navegador del usuario, la optimización del motor de búsqueda se enfoca exclusivamente en el uso de los datos de registro del servidor bot. Esto es relevante con respecto a las consideraciones legales relacionadas con los marcos de protección de datos como GDPR/CCPA/DSGVO. Debido a que nunca se incluyen datos de usuario con fines de SEO, el análisis de registro de servidor web sin procesar y anónimo permanece libre de las regulaciones legales potencialmente aplicables.
Vale la pena mencionar que, hasta cierto punto, es posible obtener información similar según las estadísticas de Google Search Console Crawl. Sin embargo, estas muestras están limitadas en volumen y tiempo cubierto. A diferencia de Google Search Console con sus datos que reflejan solo los últimos meses, son exclusivamente los archivos de registro del servidor los que brindan una imagen clara y general que describe las tendencias de SEO a largo plazo.
Los datos valiosos dentro de los registros del servidor
Cada vez que un bot solicita una página alojada en el servidor, se crea una instancia de registro que registra una serie de puntos de datos, que incluyen:
- La dirección IP del cliente solicitante.
- La hora exacta de la solicitud, a menudo basada en el reloj interno del servidor.
- La URL que se solicitó.
- El HTTP se utilizó para la solicitud.
- El código de estado de respuesta devuelto (por ejemplo, 200, 301, 404, 500 u otro).
- La cadena de agente de usuario de la entidad solicitante (p. ej., un nombre de bot de motor de búsqueda como Googlebot/2.1).
Una muestra típica de registro de registro del servidor puede tener este aspecto:
150.174.193.196 - - [15/Dec/2021:11:25:14 +0100] "GET /index.html HTTP/1.0" 200 1050 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)" "www.example.ai"
En este ejemplo:
-
150.174.193.196es la IP de la entidad solicitante.
-
[15/Dec/2021:11:25:14 +0100]es la zona horaria y la hora de la solicitud.
-
"GET /index.html HTTP/1.0"es el método HTTP utilizado (GET), el archivo solicitado (index.html) y la versión del protocolo HTTP utilizado.
-
200es la respuesta de código de estado HTTP del servidor devuelta.
-
1050es el tamaño en bytes de la respuesta del servidor.
-
"Googlebot/2.1 (+http://www.google.com/bot.html)"es el agente de usuario de la entidad solicitante.
-
"www.example.ai"es la URL de referencia.
Cómo usar los registros del servidor
Desde una perspectiva de SEO, hay tres razones principales por las que los registros del servidor web brindan información sin precedentes:
- Ayudar a filtrar el tráfico de bots no deseado sin importancia SEO del tráfico de bots de motores de búsqueda deseable que se origina en bots legítimos como Googlebot, Bingbot o YandexBot.
- Proporcionar información de SEO sobre la priorización de rastreo y, por lo tanto, permitir que el equipo de SEO tenga la oportunidad de modificar y ajustar de manera proactiva su gestión del presupuesto de rastreo.
- Permitiendo monitorear y proporcionar un registro de seguimiento de las respuestas del servidor enviadas a los motores de búsqueda.
Los bots de motores de búsqueda falsos pueden ser una molestia, pero rara vez afectan a los sitios web. Hay una serie de proveedores de servicios especializados como Cloudflare y AWS Shield que pueden ayudar a administrar el tráfico de bots no deseados. En el proceso de análisis de los registros del servidor web, los bots de motores de búsqueda falsos tienden a desempeñar un papel subordinado.
Para medir con precisión qué partes de un sitio web se están priorizando además de los principales motores de búsqueda, el tráfico de bots debe filtrarse al realizar un análisis de registro. Dependiendo de los mercados objetivo, el enfoque puede estar en los robots de motores de búsqueda como Google, Apple, Bing, Yandex u otros.
Especialmente para los sitios web donde la actualización del contenido es clave, la frecuencia con la que se vuelven a rastrear esos sitios puede tener un impacto crítico en su utilidad para los usuarios. En otras palabras, si los cambios de contenido no se detectan con la suficiente rapidez, es poco probable que las señales de la experiencia del usuario y las clasificaciones de búsqueda orgánica alcancen su máximo potencial.

Si bien Google se inclina por rastrear toda la información disponible y volver a rastrear patrones de URL ya conocidos con regularidad, sus recursos de rastreo no son ilimitados. Por eso, para los sitios web grandes que constan de cientos de miles de páginas de destino, los ciclos de rastreo dependen de los algoritmos de asignación de prioridades de rastreo de Google.
Esa asignación se puede estimular positivamente con servicios web confiables y de alta capacidad de respuesta, optimizados específicamente para una experiencia rápida. Estos pasos por sí solos son propicios para el SEO. Sin embargo, solo mediante el análisis de registros completos del servidor que cubran un período prolongado de tiempo es posible identificar el grado de superposición entre el volumen total de todas las páginas de destino rastreables, el número típicamente menor de páginas de destino SEO relevantes, optimizadas e indexables representadas en el mapa del sitio y lo que Google prioriza regularmente para rastrear, indexar y clasificar.
Tal análisis de registro como parte integral de una auditoría técnica de SEO y el único método para descubrir el grado de desperdicio del presupuesto de rastreo. Y si el filtrado rastreable, el marcador de posición o las páginas de contenido reducido, un servidor de prueba abierto u otras partes obsoletas del sitio web continúan afectando el rastreo y, en última instancia, las clasificaciones. En determinadas circunstancias, como una migración planificada, son específicamente los conocimientos obtenidos a través de una auditoría de SEO, incluido el análisis de registros del servidor, los que a menudo marcan la diferencia entre el éxito y el fracaso de la migración.

Además, el análisis de registros ofrece información crítica de SEO para sitios web grandes. Puede proporcionar una respuesta a cuánto tiempo necesita Google para volver a rastrear todo el sitio web . Si esa respuesta es decisivamente larga (meses o más), se puede justificar la acción para asegurarse de que se rastreen las páginas de destino de SEO indexables. De lo contrario, existe un gran riesgo de que cualquier mejora de SEO en el sitio web pase desapercibida para los motores de búsqueda durante meses después del lanzamiento, lo que a su vez es una receta para clasificaciones deficientes.

Las respuestas del servidor son críticas para una gran visibilidad en la Búsqueda de Google. Si bien Google Search Console ofrece una visión importante de las respuestas recientes de los servidores, cualquier dato que Google Search Console ofrezca a los operadores de sitios web debe considerarse una muestra representativa pero limitada. Aunque esto puede ser útil para identificar problemas graves, con un análisis de registro del servidor es posible analizar e identificar todas las respuestas HTTP, incluidas las respuestas cuantitativamente relevantes que no sean 200 OK que puedan poner en peligro las clasificaciones. Las posibles respuestas alternativas pueden indicar problemas de rendimiento (p. ej., 503 Servicio no disponible tiempo de inactividad programado) si son excesivos.

Dónde empezar
A pesar del potencial que ofrece el análisis de registros del servidor, la mayoría de los operadores de sitios web no aprovechan las oportunidades que se presentan. Los registros del servidor no se registran en absoluto o se sobrescriben regularmente o están incompletos. La gran mayoría de los sitios web no conservan los datos de registro del servidor durante un período de tiempo significativo. Esta es una buena noticia para cualquier operador que desee, a diferencia de sus competidores, recopilar y utilizar archivos de registro del servidor para la optimización de motores de búsqueda.
Al planificar la recopilación de datos de registro del servidor, vale la pena señalar qué campos de datos deben conservarse como mínimo en los archivos de registro del servidor para que los datos puedan utilizarse. La siguiente lista puede considerarse una guía:
- dirección IP remota de la entidad solicitante.
- cadena de agente de usuario de la entidad solicitante.
- esquema de solicitud (por ejemplo, fue la solicitud HTTP para http o https o wss o algo más).
- nombre de host de la solicitud (p. ej., para qué subdominio o dominio se realizó la solicitud HTTP).
- ruta de solicitud, a menudo esta es la ruta del archivo en el servidor como una URL relativa.
- parámetros de solicitud, que pueden ser parte de la ruta de solicitud.
- solicitar la hora, incluida la fecha, la hora y la zona horaria.
- método de solicitud.
- código de estado de respuesta http.
- tiempos de respuesta.
Si la ruta de la solicitud es una URL relativa, los campos que a menudo se pasan por alto en los archivos de registro del servidor son el registro del nombre de host y el esquema de la solicitud. Por eso es importante consultar con su departamento de TI si la ruta de la solicitud es una URL relativa para que el nombre de host y el esquema también se registren en los archivos de registro del servidor. Una solución sencilla es registrar la URL de solicitud completa como un campo, que incluye el esquema, el nombre de host, la ruta y los parámetros en una cadena.
Al recopilar archivos de registro del servidor, también es importante incluir registros que se originen en CDN y otros servicios de terceros que el sitio web pueda estar utilizando. Consulte con estos servicios de terceros sobre cómo extraer y guardar los archivos de registro periódicamente.
Superación de obstáculos para el análisis de registros del servidor
A menudo, se presentan dos obstáculos principales para contrarrestar la necesidad urgente de conservar los datos de registro del servidor: el costo y las preocupaciones legales. Si bien ambos factores están determinados en última instancia por circunstancias individuales, como el presupuesto y la jurisdicción legal, ninguno tiene que representar un obstáculo serio.
El almacenamiento en la nube puede ser una opción a largo plazo y es probable que el almacenamiento de hardware físico también limite el costo. Con precios minoristas para discos duros de aproximadamente 20 TB por debajo de $ 600 USD, el costo del hardware es insignificante. Dado que el precio del hardware de almacenamiento ha estado en declive durante años, en última instancia, es poco probable que el costo del almacenamiento represente un desafío serio para la grabación de registros del servidor.
Además, habrá un costo asociado con el software de análisis de registros o con el proveedor de auditoría SEO que preste el servicio. Si bien estos costos deben tenerse en cuenta en el presupuesto, una vez más es fácil de justificar a la luz de las ventajas que ofrece el análisis de registros del servidor.
Si bien este artículo pretende describir los beneficios inherentes del análisis de registros del servidor para SEO, no debe considerarse como una recomendación legal. Dicho asesoramiento legal solo puede ser brindado por un abogado calificado en el contexto del marco legal y la jurisdicción pertinente. Una serie de leyes y reglamentos como GDPR/CCPA/DSGVO pueden aplicarse en este contexto. Especialmente cuando se opera desde la UE, la privacidad es una preocupación importante. Sin embargo, a los efectos de un análisis de registro del servidor para SEO, cualquier dato relacionado con el usuario no es relevante. Cualquier registro que no se pueda verificar de manera concluyente en función de la dirección IP debe ignorarse.
Con respecto a las preocupaciones de privacidad, cualquier dato de registro que no se valide y no sea un bot de motor de búsqueda confirmado no debe usarse y, en su lugar, puede eliminarse o anonimizarse después de un período de tiempo definido según las recomendaciones legales pertinentes. Algunos de los operadores de sitios web más grandes están aplicando este enfoque probado y probado de manera regular.
Cuándo empezar
La pregunta principal que queda es cuándo comenzar a recopilar datos de registro del servidor. ¡La respuesta es ahora!
Los datos de registro del servidor solo se pueden aplicar de manera significativa y dar lugar a consejos prácticos si están disponibles en un volumen suficiente. La utilidad de la masa crítica de los registros del servidor para las auditorías de SEO suele oscilar entre seis y treinta y seis meses, según el tamaño de un sitio web y sus señales de priorización de rastreo.
Es importante tener en cuenta que los registros del servidor no registrados no se pueden adquirir en una etapa posterior. Lo más probable es que cualquier esfuerzo por retener y preservar los registros del servidor que se inicie hoy dé sus frutos el próximo año. Por lo tanto, la recopilación de datos de registro del servidor debe comenzar lo antes posible y continuar sin interrupciones mientras el sitio web esté en funcionamiento y tenga como objetivo funcionar bien en la búsqueda orgánica.
Las opiniones expresadas en este artículo pertenecen al autor invitado y no necesariamente a Search Engine Land. Los autores del personal se enumeran aquí.
