Tudo sobre Robots.txt

Na área de SEO, uma dúvida muito comum é como bloquear páginas para indexação. Afinal, nem todas as páginas são válidas para indexação, não é mesmo? Pensando nisso, vamos explorar um pouco mais sobre o robots.txt, o arquivo que permite indicar aos buscadores o que deve ou não ser rastreado em seu website.

O que é robots.txt?

O robots é um arquivo de texto que informa aos buscadores quais páginas estão permitidas para serem rastreadas. Desta forma, é possível impedir que páginas específicas sejam indexadas pelos buscadores.

De forma simples, os robôs dos buscadores leem esse arquivo ao acessar ao seu site e identificam o que pode ou não ser rastreado, respeitando assim as instruções disponibilizadas no arquivo.

Algumas informações importantes sobre o robots.txt:

Deve existir apenas um robots.txt por site;
O arquivo robots.txt deve ser inserido na raiz do domínio;
Bloquear uma página no robots, só indica que os buscadores não devem lê-la e indexá-la, entretanto, os usuários continuam podendo acessar aquelas páginas normalmente.

Como criar um arquivo robots.txt?

Existem diversas ferramentas que permitem a geração desse arquivo de forma bastante simples, entretanto, uma das maneiras mais comuns é a criação através do bloco de notas.

Basta criar um bloco de notas chamado robots e inserir as orientações para os buscadores do que deve ou não ser indexado. Para isso, é necessário entender as formatações mais comuns utilizadas:

User-agent: *
Essa é a primeira formatação que deve ser inserida no bloco de notas. Essa formatação indica para qual robô são válidas as regras de liberação de URLS. Desta forma, você pode ter regras específicas para robôs de buscas diferentes.

User-agent: *: Indica que a regra serve para todos os robôs de busca;
User-agent: Googlebot: indica que a regra serve apenas para o robô do Google;
User-agent: Googlebot-images: indica que a regra serve para a busca de imagem do Google;
User-agent: Slurp: indica que a regra serve apenas para o robô do Yahoo;
User-agent: Bingbot: indica que a regra serve apenas para o robô do Bing.

Allow:
Essa formatação indica para o robô quais páginas ou pastas estão liberadas para indexação.

Disallow:
Essa formatação indica para o robô quais páginas ou pastas estão bloqueadas para indexação.

Comandos para robots.txt

Agora que entendemos os comandos mais comuns, vamos aos exemplos práticos para as mais variadas situações:

Não permitir que todo o site seja indexado:
Disallow: /

Não permitir que uma página seja indexada:
Disallow: /meu_arquivo.html

Não permitir que uma pasta específica seja indexada:
User-agent: *
Disallow: /pasta-exemplo-1/

Não permitir que uma pasta específica seja indexada, com exceção de um arquivo:
Disallow: /pasta-exemplo-1/
Allow: /pasta-exemplo-1/arquivo.html

Importante: os robôs leem o arquivo na ordem, portanto, não é correto liberar um arquivo que está dentro de uma pasta específica e depois bloquear a pasta como um todo. Fazendo desta forma, você estará bloqueando a pasta como um todo, inclusive aquele arquivo específico. Sempre seguir a ordem indicada acima.

Indicar qual o caminho do sitemap:
Sitemap: http://www.meusite.com.br/sitemap.xml

Correspondência por padrão GoogleBot

O robô do Google utiliza algumas correspondências por padrão para entender arquivos que possuem similaridades e que devem ser bloqueados através de um único comando. É importante ressaltar que essas correspondências são feitas somente pelo robô do Google e não pelos demais, portanto, crie regras específicas para o Googlebot. Veja os comandos mais comuns:

Utilize * para desabilitar arquivos específicos:
Por exemplo, não permitir que todos os arquivos que tenham “busca=” em qualquer parte da URL sejam indexados.
User-agent: Googlebot
Disallow: /*busca=

Use $ para desabilitar correspondências do final de uma URL:
Por exemplo, para bloquear todas as URLs que terminam com .pdf:
User-agent: Googlebot
Disallow: /*.pdf$

Como testar meu arquivo robots.txt?

Após criar e subir seu arquivo, é normal ter receio se alguma URL errada não está sendo “bloqueada”, entretanto, há uma forma bem simples para fazer essa verificação: utilizando Google Webmaster Tools.

Na Google Webmaster, em “Rastreamento” > “Testar Robots”, você pode visualizar seu robots.txt e inserir uma URL do seu site para verificar se ela está ou não sendo bloqueada por algum comando do seu arquivo.

Ainda com dúvidas? Conheça os serviços de consultoria SEO e saiba como podemos ajudá-lo!

O que é robots.txt?

Como criar um arquivo robots.txt?

Comandos para robots.txt

Correspondência por padrão GoogleBot

Como testar meu arquivo robots.txt?

Por Jessica Marcelino