Robots.txt na indexação de sites - Qual sua importância

Existe um arquivo específico que é procurado pelas ferramentas de busca para saber quais partes do site não devem ser indexados. É o “robots.txt“. Ele deve ser colocar no diretório raiz do site e é o primeiro arquivo que os bots de busca procuram em um site. Nele você pode escolher os diretórios e arquivos que você deseja excluir das ferramentas de busca. O uso mais comum é evitar indexação de páginas logadas ou que possuam arquivos privados.

Este é um exemplo de arquivo que impediria a indexação do site inteiro por todas as ferramentas de busca:
User-agent: *
Disallow: /

O asterisco significa “tudo”, ou seja, todos os bots de busca devem seguir as regras abaixo.

Um exemplo prático seria evitar a indexação de pastas do seu site que tem programas ou partes privadas. O exemplo abaixo evitaria a indexação de quatro diretórios.

User-agent: *
Disallow: /cgi-bin/ #scripts e programas
Disallow: /logado/
Disallow: /tmp/ #parte de testes
Disallow: /private/ #arquivos da empresa

O sinal de tralha serve para comentários como informar o motivo da exclusão. O comentário não influencia em nada o bot, porém serve para facilitar o entendimento do motivo da exclusão para a equipe que administra o site.

Se um site não tiver este arquivo, a ferramenta de busca irá indexar normalmente o seu site. Se preferir, você pode criar o arquivo “robots.txt” que permite a indexação total:
User-agent: *
Disallow:

Você pode criar regras específicas para cada bot de busca. Para isto basta trocar o asterisco do User-agent pelo nome do bot. Cada bot ou spider tem um nome específico. Eles também são conhecidos como agentes. O agente do Google é o Googlebot, o do Yahoo! é o Slurp e o da MSN Busca é o MSNBot. Existem bots também para imagens por exemplo. O do Google é o Googlebot-Image, o do Yahoo é o yahoo-mmcrawler e o da MSN Busca o psbot. Um exemplo para excluir a indexação do Google seria:
User-agent: Googlebot
Disallow: /

Com isto, nada do site seria indexado pelo Google, mas outras ferramentas poderiam indexar normalmente.

O Robots.txt é extremamente útil, pois permite a retirada automatizada de páginas e do conteúdo de um site das páginas de resultado dos sites de busca. Ele também é bastante flexível permitindo que várias regras sejam aplicadas no mesmo arquivo garantindo comportamento distinto entre os bots.

  • 11646 Usuários acharam útil
Esta resposta lhe foi útil?

Related Articles

Teste de Ping no Mac

Para verificar a conectividade de uma rede, servidor DNS ou gateway, fazer um teste de envio de...

O que é e como fazer um tracert (traceroute)?

O Traceroute é uma ferramenta que permite observar a trajetória de um pacote de dados até um...

Qual a Diferença entre Site Responsivo e Site Mobile?

A escolha do tipo de site que mais agrada os usuários fica a seu critério, porém segue abaixo...

Troca de porta de email 25 para porta 587

Informamos a nossos clientes de HOSPEDAGEM que, de acordo com medidas de segurança que serão...

Tenha Eficiência na comunicação com clientes

Muitas empresas não mantêm nenhum tipo de comunicação com seus clientes ou têm dificuldades em...