Robots.txt, um arquivo importante

No seu site : o arquivo robots.txt


Em seu site, você tenta, na medida do possível, fazer com que suas páginas sejam indexadas pelos robos (spiders) dos motores de pesquisa. Mas pode também acontecer que algumas de suas páginas sejam confidenciais, (ou em trabalhos) ou em todos os casos que seu objetivo não seja de divulgá-las nestes motores. Um site ou uma página em construção, por exemplo, não devem obrigatoriamente ser o alvo de uma tal inspiração. É preciso, desta forma, impedir alguns spiders de considerá-los.
Isto pode ser feito com ajuda de um arquivo texto, chamado robots.txt, presente em seu host, na raiz de seu site. Este arquivo vai dar indicações ao spider do motor que vai querer explorar seu site. A patir do omento em que o spider de um motor chega em um site (por exemplo www.monsite.info/), ele vai buscar o documento presente no endereço http://www.monsite.info/robots.txt, antes de efetuar a menor "aspiração de documento". Se este arquivo existe, ele o lê e segue as indicações inscritas. Se ele não encontra, ele começa seu trabalho de leitura e de registro da pagina que ele veio visitar bem como aquelas que podem estar ali ligadas, considerando que nada lhe seja proibido.

Estrutura

Deve existir somente um arquivo robots.txt em um site, e ele deve se encontrar ao nível da raiz do site. O nome do arquivo (robots.txt) deve sempre ser criado em minúsculas. A estrutura de um arquivo robots.txt é a seguinte :

User-agent: *
Disallow: /cgi-bin/
Disallow: /tempo/
Disallow: /perso/
Disallow: /entravaux/
Disallow: /abonnes/prix.html

Neste exemplo:

  • User-agent: * significa que o acesso é dado â todos os agentes (todos os spiders), sem importar quais.
  • O robot não irá explorar os diretórios /cgi-bin/, /tempo/, /perso/ e /em trabalhos/ do servidor nem o arquivo /inscritos/prix.html.

O diretório /temp/, por exemplo, corresponde ao endereço https://monsite.info/ Cada diretório à excluir da aspiração do spider deve ser objeto de uma linha Disallow: especifica. O comando Disallow: permite indicar que « tudo aquilo que começa por « a expressão nao deve ser indexada ».

Assim:
Disallow: /perso não permitirá a indexação nem de https://monsite.info/ ni de https://monsite.info/

Disallow: /perso/ não indexará https://monsite.info/ mas não se aplicará ao endereço https://monsite.info/

Por outro lado, o arquivo robots.txt não deve conter linhas virgens (brancas).
A estrela (*) somente é aceita no campo User-agent.
Ela não pode servir-se de joker (ou de operador de troncadura) como no exemplo: Disallow: /em trabalhos/*.
Não existe campo correspondente à permissão, de tipo Allow:.
Enfim, o campo de descrição (User-agent, Disallow) pode ser indiferentemente digitado em minúsculas ou em maiúsculas.
As linhas que começam por um signo " # ", quer dizer tudo aquilo que se encontra à direita deste signo, è considerado como sendo um comentário.

Eis alguns comandos bastante clássicos e importantes do arquivo robots.txt :

Disallow:/ Permite excluir todas as páginas do servidor (nenhuma aspiração possível).
Disallow: Permite não excluir nenhuma página do servidor (nenhum impedimento).
Um arquivo robots.txt vazio ou inexistente terá uma consequência idêntica.
User-Agent : googlebot Permite identificar um robot particular (aqui, aquele de google).
User-agent: googlebot
Disallow:
User-agent: *
Disallow:/ Permite ao spider de google aspirar tudo, mas se recusa aos outros robots.

Sitemap e robots.txt

Para ajudar Google, Yahoo ou autros, e sobretudo os motores que não dão interface tendo a possibilidade de lhe indicar o arquivo de um site, pode-se agregar no arquivo, com a ajuda da seguinte sintaxe :
Sitemap: https://monsite.info/
(mais se diversos arquivos sitemap ...)
para Google ou Bing
ou igualmente:
Sitemap: https://monsite.info/
mais especificamente à Yahoo ...

Gerador de arquivo robots.txt

Se você criou um arquivo robots.txt facilmente, simplesmente, e estar seguro de que ele é válido, você pode também utilizar um gerador de robots.txt, como este aqui por exemplo:: Gerador de arquivo robots.txt em francês

Todas as explicação online

O site de referência
ou para mais definições de 'base':
em português no Wikipédia

A notar também esta indicação toda recente encontrada na Net:

Um internauta acaba de descobrir que Google considerava uma diretiva nomeada "noindex" quando ela estava inserida no arquivo "robots.txt" de um site, como por exemplo:

User-agent:Googlebot
Disallow:/perso/
Disallow:/entravaux/
Noindex:/clients/
Mesmo que a diretiva "Disallow" indique aos robôs não considerar o conteúdo de um diretório (sem índice, não seguir os links), "noindex" seria reduzido a não indexação de páginas, mas identificando os links que elas contêm. Equivalente da baliza"robots" que conteriam as informações "Noindex, follow" de qualquer jeito. Google indicou que esta referência está atualmente sendo testada e é suportada apenas pelo Google, e mada garante que será adotada in fina. Para ser usado, assim sendo, com cautela e como teste para ...!

Tradução feita por Ana Spadari

Nosso conteúdo é produzido em colaboração com especialistas em tecnologia da informação sob o comando de Jean-François Pillou, fundador do CCM.net. CCM é um site sobre tecnologia líder em nível internacional e está disponível em 11 idiomas.
Este documento, intitulado 'Robots.txt, um arquivo importante ', está disponível sob a licença Creative Commons. Você pode copiar e/ou modificar o conteúdo desta página com base nas condições estipuladas pela licença. Não se esqueça de creditar o CCM (br.ccm.net) ao utilizar este artigo.

Assine nossa newsletter!

Assine nossa newsletter!