Robots.txt para SEO (Noções básicas de SEO)

Publicados: 2022-04-09

Os arquivos Robots.txt são elementos em seus sites que você não deseja descartar. Eles permitem e bloqueiam a entrada de visitantes indesejados de bots que tentam "bisbilhotar" o conteúdo do seu site.

Esta é mais ou menos uma maneira simples de definir arquivos robots.txt.

Neste post, entrarei no robots.txt para noções básicas de SEO .

Você vai aprender:

Quando você deve usá-los
Como implementá-los
Erros a evitar

Os bots usados pelos mecanismos de pesquisa são aranhas que rastreiam a web para indexar o conteúdo do site de toda a Internet. Essas informações permitem que os mecanismos de pesquisa conheçam o conteúdo das páginas da Web para que possam ser recuperados quando necessário.

Depois de entender o processo de rastreamento da Web, você também entenderá por que os arquivos robots.txt são benéficos para o seu site. Eles estão aqui para protegê-lo de visitantes bisbilhotando. Eles apenas fornecerão as informações que você deseja mostrar sobre seu site.

Para entender melhor os arquivos robots.txt, vamos dar uma olhada mais de perto no que eles são e como eles se misturam.

O que são arquivos Robots.txt?

Robots.txt. Os arquivos, também conhecidos como Protocolo de Exclusão de Robôs, são arquivos lidos por mecanismos de pesquisa que contêm regras sobre como conceder ou negar acesso a todas ou algumas partes do seu site. Mecanismos de pesquisa como Google ou Bing enviam rastreadores da Web para acessar seu site e coletar informações que eles podem usar para que seu conteúdo apareça nos resultados de pesquisa.

Para imaginar como os arquivos robot.txt funcionam, tente imaginar bots ou pequenas aranhas rastejando pelo seu site em busca de informações. Reflita sobre esses filmes de ficção científica quando um milhão de aranhas-robô rastejam pelo lugar e bisbilhotam para encontrar até mesmo a menor evidência possível da presença do impostor.

via GIPHY

Esses arquivos de texto simples são usados para SEO emitindo comandos para os bots de indexação de mecanismos de pesquisa que uma página pode ou não ser rastreada. Os arquivos Robots.txt são usados principalmente para gerenciar o orçamento dos rastreadores da Web e são úteis quando você não deseja que esses rastreadores acessem uma parte do seu site.

Robots.txt. os arquivos são muito importantes porque permitem que os mecanismos de pesquisa saibam onde podem rastrear. Basicamente, o que eles fazem é bloquear seu site parcial ou totalmente, ou indexar seu site. Em outras palavras, é uma forma de permitir que seu site seja descoberto pelos mecanismos de busca.

O processo de rastreamento no trabalho

O processo de rastreamento de sites em busca de conteúdo é conhecido como spidering. A principal tarefa dos mecanismos de pesquisa é rastrear a web para descobrir e indexar conteúdo seguindo milhões de links. Quando um robô acessa um site, a primeira coisa que ele faz é procurar os arquivos robots.txt para obter informações de quanto "bisbilhotagem" ele pode fazer.

Os mecanismos de pesquisa obedecem às regras definidas em seus arquivos robots.txt. Se não houver arquivo robot.txt ou se o site não tiver atividade proibida, os bots rastrearão todas as informações. No entanto, alguns mecanismos de pesquisa, como o Google, não suportam todas as diretivas fornecidas e elaboraremos isso mais adiante.

Por que usar arquivos Robots.txt?

Os arquivos Robots.txt permitem que os sites façam várias coisas, como:

Bloqueie o acesso a todo o site
Bloquear o acesso a uma parte do site
Bloquear o acesso a um URL ou parâmetros de URL específicos
Bloquear o acesso a um diretório inteiro
Permite a configuração de curingas

Os arquivos Robots.txt controlam a atividade do rastreador em seu site, permitindo que eles acessem determinadas áreas. Sempre há motivos para você não conceder ao Google ou a outros mecanismos de pesquisa acesso a determinadas partes do seu site. Uma pode ser que você ainda esteja desenvolvendo seu site ou deseje proteger informações confidenciais.

Embora os sites possam funcionar sem um arquivo robots.txt, é importante lembrar alguns benefícios de usá-los:

Impedir que os mecanismos de pesquisa rastreiem pastas ou subdomínios privados
Impedir o rastreamento de conteúdo duplicado e visitas a páginas que você considera insignificantes
Impedir a indexação de algumas imagens em seu site
Prevenir e gerenciar a sobrecarga do servidor
Evite a lentidão do site

Observe que dizer aos bots para não rastrear uma página não significa que ela não será indexada. A URL aparecerá no mecanismo de pesquisa, mas aparecerá sem uma meta descrição.

Como encontrar, criar e testar arquivos Robots.txt?

O robots.txt sempre é encontrado no domínio raiz do site. Por exemplo, você pode encontrá-lo como https://www.example.com/robots.txt. Se desejar editá-lo, você pode acessar o Gerenciador de Arquivos no CPanel do host.

Se o seu site não tiver um arquivo robots.txt, criar um é bastante simples porque é um arquivo de texto básico criado em um editor de texto. Basta abrir um documento .txt em branco e inserir suas diretivas. Quando terminar, basta salvar o arquivo como "robots.txt'' e pronto.

Se você geralmente comete muitos erros de digitação, talvez seja aconselhável usar um gerador de robots.txt para evitar desastres de SEO e minimizar erros de sintaxe. Lembre-se de que mesmo o menor erro de faltar ou adicionar uma letra ou número pode causar problemas.

Depois que o arquivo robots.txt for criado, coloque-o no diretório raiz do domínio apropriado. Certifique-se de testar o arquivo antes de ir ao ar para ter certeza de que é válido. Para fazer isso, você precisa acessar a página de suporte do Google e clicar no botão "abrir testador de robots.txt". Infelizmente, essa opção de teste está disponível apenas na versão antiga do Google Search Console.

Selecione a propriedade que deseja testar, remova qualquer coisa que possa estar na caixa e cole o arquivo robots.txt. Se o seu arquivo receber o OK, você terá um arquivo robots.txt totalmente funcional. Se não, você precisa voltar e procurar o erro.

Implementando diretivas de rastreamento

Cada arquivo robots.txt é composto de diretivas, dando aos motores de busca acesso às informações. Cada diretiva começa especificando o agente do usuário e, em seguida, definindo as regras para esse agente do usuário. Abaixo compilamos duas listas; uma contém diretivas suportadas e as outras diretivas não suportadas por agentes de usuário.

Diretivas compatíveis

User-agent - uma diretiva usada para direcionar determinados bots. Os mecanismos de pesquisa procuram agentes de usuário e blocos que se aplicam a eles. Todo mecanismo de pesquisa tem uma marca de agente do usuário. Devido à diferenciação de maiúsculas e minúsculas, certifique-se de inserir a forma correta dos agentes do usuário.

Por exemplo:
Agente do usuário: Googlebot
Agente do usuário: Bingbot

Disallow - use esta diretiva se você quiser impedir que os mecanismos de pesquisa rastreiem certas áreas do site. Você pode fazer o seguinte:

bloquear o acesso a um diretório como um todo para todos os agentes de usuário:
agente de usuário: *
Não permitir: /
Bloqueie um determinado diretório em particular para todos os agentes do usuário
agente de usuário: *
Não permitir: /portfolio
Bloqueie o acesso a PDF ou qualquer outro arquivo para todos os agentes de usuário. Basta usar a extensão de arquivo apropriada.
agente de usuário: *
Não permitir: *.pdf$

Permitir - Esta diretiva permite que os mecanismos de pesquisa rastreiem a página ou o diretório. Uma boa observação a ser lembrada é que você pode substituir uma diretiva não permitida. Digamos que você não queira que os mecanismos de pesquisa rastreiem um diretório de portfólio, mas permitirá que eles acessem um diretório específico.

agente de usuário: *
Não permitir: /portfolio
Permitir: /portfolio/allowed-portfolio

Mapa do site - fornecer aos mecanismos de pesquisa a localização do mapa do site facilita o rastreamento.

Diretivas sem suporte

Atraso de rastreamento - essa é uma boa diretiva para usar quando você deseja que os bots diminuam a velocidade e atrasem entre os rastreamentos para não sobrecarregar seus servidores. Esta diretiva é bastante útil para sites pequenos em vez de grandes. Apenas uma observação de que a diretiva de atraso de rastreamento não é mais suportada pelo Google e pelo Baidu, mas o Yandex e o Bing ainda a suportam.
Noindex - uma diretiva usada para excluir um site ou um arquivo dos mecanismos de pesquisa. Este comando nunca foi suportado pelo Google. Portanto, se você quiser evitar os mecanismos de pesquisa, precisará usar o cabeçalho HTTP x-robots ou os robôs de metatag.
Nofollow - outra diretiva nunca suportada pelo Google e usada para comandar os mecanismos de pesquisa a não seguir links nas páginas. Use x-robots header ou meta tag robots para usar a diretiva nofollow em todos os links.
Diretiva de host - é usada para decidir se você deseja mostrar www. antes de um URL ( example.com ou www.example.com ). Esta diretiva é atualmente suportada apenas pelo Yandex, por isso é aconselhável não confiar nela.

Uso de curingas

Curingas são caracteres usados para simplificar as instruções do robots.txt. Os curingas podem ser usados para endereçar e aplicar diretivas a todos os agentes de usuário ou para endereçar agentes de usuário específicos individualmente. Aqui estão os curingas comumente usados:

Asterix (*) - em diretivas, corresponde a "aplicar a todos os agentes de usuário". Também pode ser usado para corresponder a "combinar padrões de URL ou qualquer sequência de caracteres". Se você tiver URLs que sigam o mesmo padrão, isso facilitará muito sua vida.
Um cifrão ($) - é usado para marcar o final de uma URL.

Vamos ver como isso ficará em um exemplo. Se você decidir que todos os mecanismos de pesquisa não devem ter acesso aos seus arquivos PDF, o arquivo robots.txt deve ficar assim:
agente de usuário: *
Não permitir: /*.pdf$

Portanto, URLs que terminam com .pdf não estarão acessíveis. Mas observe que, se o seu URL tiver texto adicional após o final .pdf, esse URL estará acessível. Assim, ao escrever seus arquivos robots.txt, certifique-se de ter considerado todos os aspectos.

Erros a evitar

O uso de arquivos robot.txt é útil e há muitas maneiras de operá-los. Mas vamos nos aprofundar e analisar os erros que precisam ser evitados ao usar o arquivo robots.txt.

Os benefícios são imensos, mas também há muitos danos que podem ser causados se os arquivos robot.txt não forem utilizados da maneira correta.

Nova linha - use uma nova linha para cada diretiva para não confundir os mecanismos de pesquisa
Preste atenção à distinção entre maiúsculas e minúsculas - crie os arquivos robots.txt corretamente, pois eles diferenciam maiúsculas de minúsculas. Preste muita atenção a isso ou eles não funcionarão
Evite bloquear conteúdo - Certifique-se de revisar as tags disallow e noindex várias vezes, pois elas podem prejudicar os resultados de SEO. Tenha cuidado para não bloquear conteúdo bom que deve ser apresentado publicamente
Proteja os dados privados - para proteger as informações privadas, é aconselhável pedir aos visitantes que efetuem login. Dessa forma, você terá certeza de que os PDFs ou outros arquivos estarão seguros
Uso excessivo de atraso de rastreamento - um bom conselho é não usar demais nenhuma diretiva, especialmente o atraso de rastreamento. Se você estiver executando um site grande, o uso desta diretiva pode ser contraproducente. Você limitará o rastreamento dos bots ao número máximo de URLs por dia, o que não é aconselhável.

Conteúdo duplicado

Há vários motivos pelos quais seu site pode conter conteúdo duplicado. Pode ser uma versão para impressão, uma página acessível a partir de vários URLs ou páginas diferentes com conteúdo semelhante. Os mecanismos de pesquisa não conseguem reconhecer se é uma versão duplicada ou não.

Em casos como esses, o usuário precisa marcar a URL como canônica. Essa tag é usada para informar ao mecanismo de busca qual é a localização original da duplicata. Se o usuário não fizer isso, o agente do usuário escolherá qual é canônico, ou o que é ainda pior, ele pode rotular ambos os conteúdos como canônicos. Outra maneira de evitar isso é reescrever o conteúdo.

Deixe o índice de olhos rastejantes

Quando os mecanismos de pesquisa fazem o rastreamento da Web ou o spidering do seu site, eles percorrem todo o conteúdo do site para indexá-lo. Esse processo permite que sites rastreados apareçam na seção de resultados dos mecanismos de pesquisa.

Ao usar o robots.txt, você informa aos mecanismos de pesquisa onde eles têm ou não acesso. Você está basicamente limitando-os definindo regras apropriadas. O uso do robots.txt é bastante simples e útil. Depois de aprender as regras de atribuição das diretivas, há muitas coisas que você pode fazer com seu site.

É recomendável que você fique de olho nos arquivos robots.txt para garantir que eles estejam configurados corretamente e funcionando conforme codificado. Se você notar algum mau funcionamento, reaja rapidamente para evitar desastres.

Considere os arquivos robots.txt como uma ferramenta essencial para controlar com sucesso a indexação do seu site.