Robots.txt, um arquivo importante

Fevereiro 2017


No seu site: o arquivo robots.txt


No seu site, você tenta, sempre que possível, garantir que suas páginas sejam indexadas, no mínimo, pelos robôs (spiders) dos motores de busca. Mas também pode acontecer que algumas de suas páginas sejam confidenciais (ou em construção) ou, pelo menos, que o seu objetivo não seja o de divulgar amplamente nestes motores. Um site ou uma página em construção, por exemplo, não precisa ser o alvo de tal aspiração. Então, é preciso impedir certos spiders de levá-las em conta.

Isto pode ser feito com um arquivo de texto chamado robots.txt, presente no seu alojamento, na raiz do seu site. Este arquivo vai te dar as indicações ao spider (robô de indexação) do motor, que vai querer explorar o seu site, sobre o que ele pode, ou não, fazer no site. Assim que o spider de motor de busca chega num site (ex: http://www.meusite.informacao/), ele procura o documento presente no endereço robots.txt antes de fazer qualquer "aspiração de documento". Se este arquivo existir, ele o lê e segue as instruções indicadas. Se não, ele começa o seu trabalho de reprodução e registro da página que ele veio visitar, assim como aquelas que podem estar relacionadas, considerando que nada lhe é proibido.

Estrutura


Só deve haver um arquivo robots.txt em um site, e ele deve ficar na raiz do site. O nome do arquivo (robots.txt) deve sempre ser criado em minúsculas. A estrutura de um arquivo robots.txt é a seguinte:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tempo/
Disallow: /pessoal/
Disallow: /emconstrucao/
Disallow: /assinantes/prix.html

Neste exemplo:
  • User-agent: * significa que o acesso foi dado a todos os agentes (todos os spiders), sejam quais forem.
  • O robô não irá explorar os diretórios /cgi-bin/, /temp/, /pessoal/ e /emconstrucao/ do servidor nem o arquivo /assinantes/preço.html.

O diretório /temp/, por exemplo, corresponde ao endereço http://www.meusite.informacao/temp/. Cada diretório a ser excluído da aspiração do spider deve fazer objeto de uma linha Disallow: específica. O comando Disallow: indica que "tudo que começa pela" expressão indicada não deve ser indexado.

Assim :
Disallow: /pessoal não permitirá a indexação nem do http://www.meusite.informacao/pessoal/index.html, nem do http://www.meusite.informacao/pessoal.html

Disallow: /pessoal/ não indexará http://www.meusite.informacao/pessoal/index.html,, mas não se aplicará ao endereço http://www.meusite.informacao/pessoal.html

Por outro lado, o arquivo robots.txt não deve conter linhas virgens (brancas).
O asterisco (*) só é aceito no campo User-agent.
Ela não pode servir como coringa (ou operador de truncamento) como no exemplo: Disallow: /emconstrucao/*.

Não há campo correspondente ) à permissão, do tipo Allow:.

Enfim, o campo de descrição (User-agent Disallow) pode ser digitado em maiúsculas ou minúsculas.


As linhas que começam com o sinal "#", ou seja, tudo o que está à direita deste sinal em uma linha, é considerado um comentário.

Veja alguns comandos tradicionais e importantes do arquivo robots.txt :


Disallow:/ Exclui todas as páginas do servidor (nenhuma aspiração possível).
Disallow: Não exclui nenhuma página do servidor (nenhum problema).
Um arquivo robots.txt vazio ou inexistente terá uma consequência idêntica.
User-Agent: googlebot Identifica um robô particular (aqui, o do Google).
User-agent: googlebot
Disallow:
User-agent: *
Disallow:/ Permite que o spider do Google aspire tudo, mas recuse os outros robôs.

Sitemap e robots.txt


Para ajudar o Google, Yahoo e outros motores e, principalmente, não dando interface com a possibilidade de revelar o arquivo do mapa do site, você pode adicionar a indicação no arquivo, usando a seguinte sintaxe:
Sitemap: http://www.meusite.informacao/sitemap.xml
(mas, se houver vários arquivos sitemap ...)
Para o Google ou o Bing
ou também:
Sitemap: informação/urllist.txt
Mais específico para o Yahoo...

Gerador de arquivo robots.txt


Se você quiser criar um arquivo robots.txt, com facilidade, e tiver certeza de que é válido, utilize gerador de robots.txt, como neste link:
Gerador de arquivos robots.txt

Explicações on-line


O site de referência
Ou, para mais definições de 'base':
no wikipedia

Veja também esta indicação recente encontrada na Net :


<ital> Um usuário acabou de descobrir que o Google leva em conta uma diretiva chamada "noindex", ao ser inserida no arquivo "robots.txt" de um site, como por exemplo:


User-agent: Googlebot
Disallow:/pessoal/
Disallow:/emconstrucao/
Noindex:/clientes/

Enquanto que a diretiva "Disallow" diz aos robôs para não considerar o conteúdo de um diretório (sem indexação, nem acompanhamento de links), "Noindex" se destinaria à não indexação das páginas, mas identificando os links que elas contêm. Um "primo" da tag meta "Robots", que conteria as informações "Noindex, Follow", de uma certa forma. O Google indicaria que esta menção é um teste atualmente, que ela só é suportada pelo Google , mas que nada comprova que ela será adotada no final. Para ser usado e testado com cautela, então... </ Ital>


Tradução feita por Lucia Maurity y Nouira

Veja também

Artigo original publicado por . Tradução feita por pintuda. Última modificação: 4 de julho de 2011 às 07:44 por pintuda.
Este documento, intitulado 'Robots.txt, um arquivo importante', está disponível sob a licença Creative Commons. Você pode copiar e/ou modificar o conteúdo desta página com base nas condições estipuladas pela licença. Não se esqueça de creditar o CCM (br.ccm.net) ao utilizar este artigo.