El archivo robots.txt en la práctica ni mejora el posicionamiento ni aporta nada en aquellos casos en los que no existen directorios restringidos a los que se pueda acceder de forma pública, esto es, que llegue el robot de Google y te indexe tus descargas por poner un ejemplo.
De hecho, muchos fallos de seguridad vienen por darle pistas a los atacantes de los directorios que no quieres que se indexen, ya que el archivo robots.txt sí puede ser accesible por cualquiera, ejemplo: http://www.casadellibro.com/robots.txt)
La falta del archivo, no debería ocasionar problemas, asi lo afirma la guia de ayuda de webmasters de Google:
Aunque algunos servidores no responden con un código 404 ante la falta del archivo y producen la siguiente advertencia en la Herramientas para webmasters de Google:
Otras directivas útiles:
Sitemap: indica la ruta donde se encuentra un mapa del sitio en formato XML.
Ej:
sitemap: http://www.dominio.com/sitemap.xml
Crawl-delay: Indica a los bots los segundos que deben esperar entre cada página indexada para no saturar el servidor con peticiones y consumir recursos.
Nota: Google no reconoce este comando.
Ej para intervalo de 30 segundos:
crawl-delay: 30
EJEMPLO PARA PERMITIR INDEXACIÓN SÓLO A GOOGLE, BING Y YAHOO
#Habilito a Google
User-Agent: Googlebot
Allow: /*
#Habilito a Bing
User-Agent: MSNbot
Allow: /*
#Habilito a Yahoo
User-Agent: SLURP
Allow: /*
La falta del archivo, no debería ocasionar problemas, asi lo afirma la guia de ayuda de webmasters de Google:
Un archivo
robots.txt
solo es necesario si el sitio
incluye contenido que no quieres que Google ni otros motores de búsqueda
indexen.Antes de que Googlebot rastree tu sitio, este accede a tu archivo robots.txt para determinar si el sitio está impidiendo que Google arrastre las páginas o las URL. Si existe un archivo robots.txt, pero no se puede acceder a él (es decir, no muestra un código de error HTTP 200 o 404), el rastreo se pospone para evitar que se rastreen las URL que no quieras que se rastreen.
Por eso es
recomendable crear un archivo robots.txt aunque no lo utilicemos, con las
siguientes líneas:
User-Agent: *
Allow:
Allow:
Sitemap: indica la ruta donde se encuentra un mapa del sitio en formato XML.
Ej:
sitemap: http://www.dominio.com/sitemap.xml
Crawl-delay: Indica a los bots los segundos que deben esperar entre cada página indexada para no saturar el servidor con peticiones y consumir recursos.
Nota: Google no reconoce este comando.
Ej para intervalo de 30 segundos:
crawl-delay: 30
EJEMPLO PARA PERMITIR INDEXACIÓN SÓLO A GOOGLE, BING Y YAHOO
#Habilito a Google
User-Agent: Googlebot
Allow: /*
#Habilito a Bing
User-Agent: MSNbot
Allow: /*
#Habilito a Yahoo
User-Agent: SLURP
Allow: /*
Fuentes y enlaces
relacionados:
- http://www.imagenesis.com.ar/seo-posicionamiento/robots-txt-si-o-no/
- https://developers.google.com/webmasters/control-crawl-index/docs/getting_started?csw=1
- http://userstrend.com/seo/configurar-robot-txt/
- https://support.cdmon.com/entries/24127448-C%C3%B3mo-configurar-el-fichero-robots-txt
- http://www.webempresa.com/blog/item/1295-como-bloquear-los-robots-indeseables-en-tu-wordpress.html
No hay comentarios:
Publicar un comentario