robots.txt

O robots.txt é um arquivo de texto que fica na raiz do site (http://exemplo.com/robots.txt) e informa aos robôs dos mecanismos de busca as páginas e diretórios que eles devem e não devem rastrear e mostrar nos resultados de pesquisa. Você pode utilizar o robots.txt para evitar que os robôs rastreiem áreas internas do site ou arquivos que podem prejudicar a estratégia de SEO.

Importante: Você não deve utilizar o robots.txt para bloquear arquivos privados, já que pode ser facilmente acessado e, consequentemente, denunciar a localização do arquivo nos diretórios do seu site. Além disso, o robots.txt consiste de regras, e não é garantido que todos os rastreadores irão segui-las.

Alguns exemplos de páginas que podem ser bloqueadas utilizando o robots.txt: páginas de carrinho e login, páginas com conteúdo repetido ou similar (landing pages rodando em anúncios, por exemplo) ou páginas de impressão.

Navegação

Entendendo a sintaxe do robots.txt

Para criar um robots.txt, é só abrir um editor de texto e começar a digitar. Além disso, também é possível utilizar algumas plataformas que automatizam a criação do arquivo, como Yoast SEO e F1 Commerce.

De qualquer maneira, algumas regras de sintaxe sempre devem ser seguidas para que os robôs interpretem corretamente as instruções do arquivo.

User-agent

O primeiro passo é definir um user-agent, ou seja, qual ou quais dos robôs irão seguir as suas diretrizes.

Por definição, o asterisco pode ser utilizado como caractere curinga, abrangendo todos os robôs. Você pode conferir a maior parte dos user agents existentes na Web Robots Database e na lista de rastreadores do Google.

Preste atenção: a exceção a essa regra são os rastreadores Google AdsBot, que devem ser nomeados explicitamente e ter instruções específicas para eles. Por exemplo:

User-agent: * (se direciona a todos os bots, menos os Google AdsBot)

User-agent: Googlebot (se direciona apenas ao Googlebot)

User-agent: Google AdsBot (se direciona apenas ao Google AdsBot)

Além disso, quando há uma regra direcionada a um rastreador específico, é esta que ele irá seguir, mesmo que outra regra utilize o asterisco para abranger todos os rastreadores. Por exemplo:

User-agent: *
Disallow: /diretorio1

User-agent: Googlebot
Allow: /
(apenas o Googlebot tem acesso a todo o site, incluindo o diretorio1)

Disallow

O disallow é geralmente o comando mais utilizado na criação de robots.txt, já que define as páginas que os robôs serão impedidos de acessar. Por exemplo:

Disallow: /pagina1.html (impede o rastreamento da pagina1.html)

Disallow: /exemplo1 (impede o rastreamento de arquivos ou pastas que comecem com exemplo1)

Disallow: /pasta1/ (impede o rastreamento da pasta1)

Disallow: /*.JPG$ (impede o rastreamento de arquivos .JPG)

Allow

O allow executa o comando contrário do disallow, orientando os robôs sobre quais conteúdos devem ser rastreados. Como todos os arquivos de um site já são permitidos por padrão, o allow é utilizado se deseja que um arquivo ou diretório específico seja rastreado mesmo dentro de um diretório bloqueado. Por exemplo:

Disallow: /pasta1/
Allow: /pasta1/arquivo1
(mesmo dentro da pasta1, o arquivo1 será rastreado)

É imprescindível notar que os bots reconhecem as últimas instruções como as mais importantes. Por isso, se houver uma exceção como a acima, ela sempre deve estar posicionada abaixo da regra.

Sitemap

Por último, o robots.txt permite informar ao Google a localização do sitemap. Por exemplo:

Sitemap: http://exemplo.com/sitemap.xml

Formatação

No robots.txt, deve-se aplicar as regras acima e listar os elementos na seguinte ordem: user-agent, allow/disallow e sitemap. Um arquivo padrão, sem quaisquer restrições, se parece com o seguinte:

User-agent: *
Allow: /

Sitemap: site.com/sitemap.xml

Outras regras úteis do robots.txt estão disponíveis na Ajuda do Search Console.

Testando o robots.txt

Antes de aplicar o robots.txt no site, é possível testá-lo através de ferramenta incluída no Search Console. É só colar o novo robots.txt na caixa de texto e inserir as URLs que devem ser testadas abaixo, uma de cada vez. Pronto!

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Conheça a Mateada
acessar