Robots.txt
O trabalho dos robôs dos buscadores é passear pela floresta web colhendo frutos links. E quando o link vai pra cestinha do robô, é a glória: quer dizer que Google indexou o site, e todos comemoram e se abraçam.
Porém, existem algumas páginas dos nossos sites que não gostaríamos que os robôs olhassem, já que não interessa para nós que eles indexem aquilo. Páginas de administração, diretórios com códigos, essas coisas que mostram muito os bastidores e que faz com que o glamour se perca. Não precisamos de mostrar nada disso.
Por isso, fazemos uma espécie de cartinha endereçada aos robôs, explicando para ele quais páginas não valerão a pena ir. Essa cartinha é um arquivo em formato txt, e se chama Robots. É lá também que mostramos onde estão os sitemaps do site. É quase um vídeo de orientação da Dharma em formato texto.
Como fazer um robots.txt?
É simples. Você tem que ter em mente que estará dando instruções, então tem que ser claro. Você pode orientar todo mundo ou dar recados para indexadores específicos. Mas esteja ciente que, se for dar o recado para alguém específico, esse alguém irá ignorar o que estiver escrito para todo mundo. Muito confuso? Exemplificarei.
User-agent: *
Disallow: /js
Disallow: /admin
Disallow: /categorias.aspxUser-agente:Googlebot
Disallow: /css
Aqui nesse exemplo, o robô do Google vai bloquear somente a pasta “css”, enquanto o robô do Bing, por exemplo, bloqueará as pastas “js” e “admin”, e o página “categorias.aspx”. Se você escreveu isso esperando que o Google bloqueasse todas as páginas mencionadas, deverá escrever assim:
User-agent: *
Disallow: /js
Disallow: /admin
Disallow: /categorias.aspxUser-agente:Googlebot
Disallow: /js
Disallow: /admin
Disallow: /categorias.aspx
Disallow: /css
Ainda confuso? Existem bons geradores de robots.txt por aí. Digo três: o do site Marketing de Busca, do Mestre SEO e o do Google Webmasters Tools. É só escolher um e dizer o que você quer, e eles traduzem em “robolês” para você. Aí é só jogar no servidor e pronto.
Última coisa: é importante lembrar que o “Disallow” não “desindexa” páginas, apenas fala para o robô que não é recomendado ir lá. E se ela estiver linkada em alguma outra página, ela irá para a cesta e será indexada. Se existir algum link para “categorias.aspx” do exemplo em alguma outra página na web, não terá adiantado nada ter escrito no arquivo que essa era uma “página proibida”. Não dá pra fazer milagre com apenas uma carta, né.
Não há posts relacionados.
3 Comentários
Show, Ana! Como sempre, rápida e objetiva! Falou pouco mas falou tudo! E tinha q ser sobre robots mesmo, né, depois daquela nossa super básica descoberta da semana passada! hahaha!
Parabens mais uma vez!
[Reply]
É, menina, a gente olhou bastante sobre isso semana passada, né? Na hora de escrever, tinha que ser sobre robots!
[Reply]
Isso é mto bom! ^^
[Reply]
Ana Martins Reply:
January 11th, 2010 at 11:33 am
^^
[Reply]
Um Trackback
[...] os títulos, o que está em destaque no texto, essas coisas. É preciso que ele entenda o seu site antes de colocá-lo na cestinha. Não adianta nada um monte de “foto01.jpg”, onde não é possível descobrir se essa [...]