O arquivo robots.txt é uma forma de informarmos aos webcrawlers (robôs dos mecanismos de busca) o que devem ou não indexar de nosso site.
Para que todos os arquivos do seu site sejam indexados crie um arquivo robots.txt com o seguinte conteúdo:
User-agent: * Disallow:
Agora se você deseja que nenhum arquivo do seu site seja indexado utilize:
User-agent: * Disallow: /
Se você quiser que uma pasta específica não seja indexada crie a seguinte regra:
User-agent: * Disallow: /Pasta1/
Caso exista um único arquivo dentro desta mesma pasta que você gostaria que o webcrawler encontrasse, utilize a este comando:
User-agent: * Disallow: /Pasta1/ Allow: /Pasta1/MeuArquivo.html
Existe também a possibilidade de você criar regras específicas para cada mecanismo de busca. Abaixo segue um exemplo com uma parte com regras gerais para todos os webcrawlers e uma parte com regras específicas para o Googlebot:
User-agent: * Disallow: /Pasta1/ Allow: /Pasta1/MeuArquivo.html User-agent: Googlebot Disallow: /Adm/
Desta forma o Googlebot irá ignorar o primeiro bloco de regras, ou seja, com base no exemplo acima o Google só não indexaria a pasta Adm.
Mesmo bloqueando URLs para que elas não sejam indexadas no Google pelo robots.txt, o Google pode ainda mostrá-las nos resultados das pesquisas. Para garantir que isso não ocorra podemos utilizar a Meta Tag abaixo:
<meta name=”robots” content=”noindex”>
Você também pode criar regras utilizando caracteres especiais, desta maneira é possível criar uma regra que abranja diversas páginas. Se você não quiser que os arquivos .php não sejam indexados você pode criar uma regra seguinte este padrão:
User-agent: * Disallow: /*.php$
Se sua busca gera uma parâmetros que você não quer que os mecanismos de busca indexem, crie uma regra similar ao exemplo abaixo:
User-agent: * Disallow: /?busca=
Você pode ter se perguntado durante todas as explicações: Como eu crio este arquivo?
A primeira opção é abrir o Bloco de notas e criar o arquivo manualmente. A segunda opção é utilizar uma ferramenta para auxiliá-lo.
Se você utiliza as Ferramentas para Webmasters (Webmaster Tools) pode utilizar o seu assistente para gerar arquivos robots.txt.
Para acessar é muito simples:
- Clique em Configuração do site
- Depois clique em Acesso do rastreador
- Na página que abrir clique em Gerar robots.txt
Quando terminar de criar suas regras você poderá fazer o download do arquivo robots.txt.
Com o arquivo em mãos é só subir na raiz do seu site.
Caso você deseje saber mais sobre o assunto recomendo você acessar o este post sobre Meta Robots ou ainda o site http://www.robotstxt.org/