Faça uma pergunta »

Robots.txt, um arquivo importante

Julho 2015


No seu site : o arquivo robots.txt



Em seu site, você tenta, na medida do possível, fazer com que suas páginas sejam indexadas pelos robos (spiders) dos motores de pesquisa. Mas pode também acontecer que algumas de suas páginas sejam confidenciais, (ou em trabalhos) ou em todos os casos que seu objetivo não seja de divulgá-las nestes motores. Um site ou uma página em construção, por exemplo, não devem obrigatoriamente ser o alvo de uma tal inspiração. É preciso, desta forma, impedir alguns spiders de considerá-los.
Isto pode ser feito com ajuda de um arquivo texto, chamado robots.txt, presente em seu host, na raiz de seu site. Este arquivo vai dar indicações ao spider do motor que vai querer explorar seu site. A patir do omento em que o spider de um motor chega em um site (por exemplo www.monsite.info/), ele vai buscar o documento presente no endereço http://www.monsite.info/robots.txt, antes de efetuar a menor "aspiração de documento". Se este arquivo existe, ele o lê e segue as indicações inscritas. Se ele não encontra, ele começa seu trabalho de leitura e de registro da pagina que ele veio visitar bem como aquelas que podem estar ali ligadas, considerando que nada lhe seja proibido.

Estrutura


Deve existir somente um arquivo robots.txt em um site, e ele deve se encontrar ao nível da raiz do site. O nome do arquivo (robots.txt) deve sempre ser criado em minúsculas. A estrutura de um arquivo robots.txt é a seguinte :

User-agent: *
Disallow: /cgi-bin/
Disallow: /tempo/
Disallow: /perso/
Disallow: /entravaux/
Disallow: /abonnes/prix.html

Neste exemplo:
  • User-agent: * significa que o acesso é dado â todos os agentes (todos os spiders), sem importar quais.
  • O robot não irá explorar os diretórios /cgi-bin/, /tempo/, /perso/ e /em trabalhos/ do servidor nem o arquivo /inscritos/prix.html.

O diretório /temp/, por exemplo, corresponde ao endereço http://www.monsite.info/temp/. Cada diretório à excluir da aspiração do spider deve ser objeto de uma linha Disallow: especifica. O comando Disallow: permite indicar que « tudo aquilo que começa por « a expressão nao deve ser indexada ».

Assim:
Disallow: /perso não permitirá a indexação nem de http://www.monsite.info/perso/index.html, ni de http://www.monsite.info/perso.html

Disallow: /perso/ não indexará http://www.monsite.info/perso/index.html, mas não se aplicará ao endereço http://www.monsite.info/perso.html

Por outro lado, o arquivo robots.txt não deve conter linhas virgens (brancas).
A estrela (*) somente é aceita no campo User-agent.
Ela não pode servir-se de joker (ou de operador de troncadura) como no exemplo: Disallow: /em trabalhos/*.
Não existe campo correspondente à permissão, de tipo Allow:.
Enfim, o campo de descrição (User-agent, Disallow) pode ser indiferentemente digitado em minúsculas ou em maiúsculas.
As linhas que começam por um signo " # ", quer dizer tudo aquilo que se encontra à direita deste signo, è considerado como sendo um comentário.

Eis alguns comandos bastante clássicos e importantes do arquivo robots.txt :


Disallow:/ Permite excluir todas as páginas do servidor (nenhuma aspiração possível).
Disallow: Permite não excluir nenhuma página do servidor (nenhum impedimento).
Um arquivo robots.txt vazio ou inexistente terá uma consequência idêntica.
User-Agent : googlebot Permite identificar um robot particular (aqui, aquele de google).
User-agent: googlebot
Disallow:
User-agent: *
Disallow:/ Permite ao spider de google aspirar tudo, mas se recusa aos outros robots.

Sitemap e robots.txt


Para ajudar Google, Yahoo ou autros, e sobretudo os motores que não dão interface tendo a possibilidade de lhe indicar o arquivo de um site, pode-se agregar no arquivo, com a ajuda da seguinte sintaxe :
Sitemap: http://www.monsite.info/sitemap.xml
(mais se diversos arquivos sitemap ...)
para Google ou Bing
ou igualmente:
Sitemap: http://www.monsite.info/urllist.txt
mais especificamente à Yahoo ...

Gerador de arquivo robots.txt


Se você criou um arquivo robots.txt facilmente, simplesmente, e estar seguro de que ele é válido, você pode também utilizar um gerador de robots.txt, como este aqui por exemplo:: Gerador de arquivo robots.txt em francês

Todas as explicação online


O site de referência
ou para mais definições de 'base':
em português no Wikipédia

A notar também esta indicação toda recente encontrada na Net:


Um internauta acaba de descobrir que Google considerava uma diretiva nomeada "noindex" quando ela estava inserida no arquivo "robots.txt" de um site, como por exemplo:

User-agent:Googlebot
Disallow:/perso/
Disallow:/entravaux/
Noindex:/clients/
Mesmo que a diretiva "Disallow" indique aos robôs não considerar o conteúdo de um diretório (sem índice, não seguir os links), "noindex" seria reduzido a não indexação de páginas, mas identificando os links que elas contêm. Equivalente da baliza"robots" que conteriam as informações "Noindex, follow" de qualquer jeito. Google indicou que esta referência está atualmente sendo testada e é suportada apenas pelo Google, e mada garante que será adotada in fina. Para ser usado, assim sendo, com cautela e como teste para ...!

Tutoriais em português






Tradução feita por Ana Spadari


Para uma leitura offline, é possível baixar gratuitamente este artigo no formato PDF:
Robots-txt-um-arquivo-importante.pdf

Veja também

Na mesma categoria

La importancia del fichero robots.txt
Por Carlos-vialfa em 6 de novembro de 2009
Robots.txt, un fichier important
Por bg62 em 25 de abril de 2008
Artigo original publicado por bg62. Tradução feita por ninha25.
Este documento, intitulado « Robots.txt, um arquivo importante  »a partir de CCM (br.ccm.net) está disponibilizado sob a licença Creative Commons. Você pode copiar, modificar cópias desta página, nas condições estipuladas pela licença, como esta nota aparece claramente.