O que é o robots.txt?
Robots.txt é um ficheiro de texto que os webmasters criam para instruir os robots web (tipicamente robots de motores de busca) a rastejar páginas no seu sítio web.
O ficheiro robots.txt dá directivas aos robots dos motores de busca sobre quais as páginas que devem ser seguidas e quais não devem (por exemplo, não quer que o seu painel de administração seja seguido, pois pode ser indexado no Google, tornando mais fácil ser hackeado, etc...).
Como é que eu monto robots.txt?
Pode utilizar um gerador em linha como este ou criar a sua própria com o seguinte formato:
Aqui estão alguns exemplos de robots.txt em acção:
Começaríamos por carregar um ficheiro Robots.txt, para o nosso directório raiz, para que apareça aqui: yourdomain.com/robots.txt
Como bloquear todos os rastejadores da web de todo o conteúdo
Agente-utilizador: * Não autorizar: /
Usando esta sintaxe no nosso ficheiro robots.txt diríamos a todos os web crawlers que não rastejassem nenhuma página, de todo. Provavelmente não quer usar esta opção.
Como permitir o acesso de todos os rastejadores da web ao seu conteúdo
Agente-utilizador: * Não autorizar:
Usando esta sintaxe diz aos web crawlers para rastejarem todas as páginas em yourdomain.com, incluindo a página inicial.
Bloqueio de um rastejador da web específico a partir de uma pasta específica
Agente-utilizador: Googlebot Não autorizar: /exemplo-subfolha/
Esta sintaxe diz apenas ao rastreador do Google (nome do agente-utilizador Googlebot) para não rastrear quaisquer páginas que contenham a cadeia URL yourdomain.com/example-subfolder/.
Bloqueio de um rastreador específico de uma página web específica
Agente-utilizador: Bingbot Não autorizar: /example-subfolder/blocked-page.html
Esta sintaxe diz apenas ao crawler de Bing (nome do agente-utilizador Bing) para evitar o crawling da página específica em yourdomain.com/example-subfolder/block-page.