Em seu site, você tenta, na medida do possível, fazer com que suas páginas sejam indexadas pelos robos (spiders) dos motores de pesquisa. Mas pode também acontecer que algumas de suas páginas sejam confidenciais, (ou em trabalhos) ou em todos os casos que seu objetivo não seja de divulgá-las nestes motores. Um site ou uma página em construção, por exemplo, não devem obrigatoriamente ser o alvo de uma tal inspiração. É preciso, desta forma, impedir alguns spiders de considerá-los.
Isto pode ser feito com ajuda de um arquivo texto, chamado robots.txt, presente em seu host, na raiz de seu site. Este arquivo vai dar indicações ao spider do motor que vai querer explorar seu site. A patir do omento em que o spider de um motor chega em um site (por exemplo www.monsite.info/), ele vai buscar o documento presente no endereço http://www.monsite.info/robots.txt, antes de efetuar a menor "aspiração de documento". Se este arquivo existe, ele o lê e segue as indicações inscritas. Se ele não encontra, ele começa seu trabalho de leitura e de registro da pagina que ele veio visitar bem como aquelas que podem estar ali ligadas, considerando que nada lhe seja proibido.
Deve existir somente um arquivo robots.txt em um site, e ele deve se encontrar ao nível da raiz do site. O nome do arquivo (robots.txt) deve sempre ser criado em minúsculas. A estrutura de um arquivo robots.txt é a seguinte :
User-agent: *
Disallow: /cgi-bin/
Disallow: /tempo/
Disallow: /perso/
Disallow: /entravaux/
Disallow: /abonnes/prix.html
Neste exemplo:
O diretório /temp/, por exemplo, corresponde ao endereço https://monsite.info/ Cada diretório à excluir da aspiração do spider deve ser objeto de uma linha Disallow: especifica. O comando Disallow: permite indicar que « tudo aquilo que começa por « a expressão nao deve ser indexada ».
Assim:
Disallow: /perso não permitirá a indexação nem de https://monsite.info/ ni de https://monsite.info/
Disallow: /perso/ não indexará https://monsite.info/ mas não se aplicará ao endereço https://monsite.info/
Por outro lado, o arquivo robots.txt não deve conter linhas virgens (brancas).
A estrela (*) somente é aceita no campo User-agent.
Ela não pode servir-se de joker (ou de operador de troncadura) como no exemplo: Disallow: /em trabalhos/*.
Não existe campo correspondente à permissão, de tipo Allow:.
Enfim, o campo de descrição (User-agent, Disallow) pode ser indiferentemente digitado em minúsculas ou em maiúsculas.
As linhas que começam por um signo " # ", quer dizer tudo aquilo que se encontra à direita deste signo, è considerado como sendo um comentário.
Disallow:/ Permite excluir todas as páginas do servidor (nenhuma aspiração possível).
Disallow: Permite não excluir nenhuma página do servidor (nenhum impedimento).
Um arquivo robots.txt vazio ou inexistente terá uma consequência idêntica.
User-Agent : googlebot Permite identificar um robot particular (aqui, aquele de google).
User-agent: googlebot
Disallow:
User-agent: *
Disallow:/ Permite ao spider de google aspirar tudo, mas se recusa aos outros robots.
Para ajudar Google, Yahoo ou autros, e sobretudo os motores que não dão interface tendo a possibilidade de lhe indicar o arquivo de um site, pode-se agregar no arquivo, com a ajuda da seguinte sintaxe :
Sitemap: https://monsite.info/
(mais se diversos arquivos sitemap ...)
para Google ou Bing
ou igualmente:
Sitemap: https://monsite.info/
mais especificamente à Yahoo ...
Se você criou um arquivo robots.txt facilmente, simplesmente, e estar seguro de que ele é válido, você pode também utilizar um gerador de robots.txt, como este aqui por exemplo:: Gerador de arquivo robots.txt em francês
O site de referência
ou para mais definições de 'base':
em português no Wikipédia
Um internauta acaba de descobrir que Google considerava uma diretiva nomeada "noindex" quando ela estava inserida no arquivo "robots.txt" de um site, como por exemplo:
User-agent:Googlebot
Disallow:/perso/
Disallow:/entravaux/
Noindex:/clients/
Mesmo que a diretiva "Disallow" indique aos robôs não considerar o conteúdo de um diretório (sem índice, não seguir os links), "noindex" seria reduzido a não indexação de páginas, mas identificando os links que elas contêm. Equivalente da baliza"robots" que conteriam as informações "Noindex, follow" de qualquer jeito. Google indicou que esta referência está atualmente sendo testada e é suportada apenas pelo Google, e mada garante que será adotada in fina. Para ser usado, assim sendo, com cautela e como teste para ...!
Tradução feita por Ana Spadari