Robots.txt

Agosto 2015

Apresentação do ficheiro robots.txt

O ficheiro robots.txt é um ficheiro texto que contém comandos dirigidos aos robots de indexação dos motores de busca, para lhe indicar as páginas que podem ou não ser indexadas. Assim, qualquer motor de busca começa a exploração de um site procurando o ficheiro robots.txt na raiz do site.

Formato do ficheiro robots.txt

O ficheiro robots.txt (escrito em minúsculas e no plural) é um ficheiro ASCII que se encontra na raiz do site, podendo conter os seguintes comandos:

  • User-Agent: permite definir o robot a quem se dirigem os comandos seguintes. O valor * significa “todos os motores de busca”.
  • Disallow : permite indicar as páginas a excluir da indexação. Cada página ou caminho a excluir deve estar numa linha à parte e deve começar por/. O valor/, sem mais nada, significa “todas as páginas do site”.



Attention
O ficheiro robots.txt não deve conter nenhuma linha vazia!



Eis exemplos de ficheiro robots.txt :

  • Exclusão de todas as páginas :
    User-Agent: * 
Disallow: /
  • Exclusão de nenhuma página (equivale à ausência de ficheiro robots.txt, i.e. todas as páginas são visitadas):
    User-Agent: * 
Disallow:
  • Autorização de um só robot :
    User-Agent: nomDuRobot 
Disallow : User-Agent: * Disallow: /
  • Exclusão de um robot :
    User-Agent: NomDuRobot 
Disallow: / User-Agent: * Disallow:
  • Exclusão de uma página :
    User-Agent: * 
Disallow: /repertoire/chemin/page.html
  • Exclusão de várias páginas :
    User-Agent: * 
Disallow: /repertoire/chemin/page.html Disallow: /repertoire/chemin/page2.html Disallow: /repertoire/chemin/page3.html
  • Exclusão de todas as páginas de um directório e os seus sobprocessos :
    User-Agent: * 
Disallow: /repertoire/

Exemplos de User-Agents


Eis alguns exemplos de User-Agents para os motores de busca mais populares :


Nome do motorUser-Agent
Alta VistaScooter
ExciteArchitextSpider
GoogleGooglebot
HotBotSlurp
InfoSeekInfoSeek Sidewinder
LycosT-Rex
VoilàEcho

Para mais informações


The web robots page

Para uma leitura offline, é possível baixar gratuitamente este artigo no formato PDF:
Robots-txt .pdf

Veja também


Robots.txt
Robots.txt
Robots.txt
Robots.txt
Robots.txt
Robots.txt
Robots.txt
Robots.txt
Robots.txt
Robots.txt
Este documento, intitulado « Robots.txt »a partir de CCM (br.ccm.net) está disponibilizado sob a licença Creative Commons. Você pode copiar, modificar cópias desta página, nas condições estipuladas pela licença, como esta nota aparece claramente.