José Luis Torres Revert: ¿Es necesario el archivo robots.txt?

El archivo robots.txt en la práctica ni mejora el posicionamiento ni aporta nada en aquellos casos en los que no existen directorios restringidos a los que se pueda acceder de forma pública, esto es, que llegue el robot de Google y te indexe tus descargas por poner un ejemplo.

De hecho, muchos fallos de seguridad vienen por darle pistas a los atacantes de los directorios que no quieres que se indexen, ya que el archivo robots.txt sí puede ser accesible por cualquiera, ejemplo: http://www.casadellibro.com/robots.txt)

La falta del archivo, no debería ocasionar problemas, asi lo afirma la guia de ayuda de webmasters de Google:

Un archivo robots.txt solo es necesario si el sitio incluye contenido que no quieres que Google ni otros motores de búsqueda indexen.

Aunque algunos servidores no responden con un código 404 ante la falta del archivo y producen la siguiente advertencia en la Herramientas para webmasters de Google:

Antes de que Googlebot rastree tu sitio, este accede a tu archivo robots.txt para determinar si el sitio está impidiendo que Google arrastre las páginas o las URL. Si existe un archivo robots.txt, pero no se puede acceder a él (es decir, no muestra un código de error HTTP 200 o 404), el rastreo se pospone para evitar que se rastreen las URL que no quieras que se rastreen.

Por eso es recomendable crear un archivo robots.txt aunque no lo utilicemos, con las siguientes líneas:

User-Agent: *
Allow:

Otras directivas útiles:

Sitemap: indica la ruta donde se encuentra un mapa del sitio en formato XML.

Ej:

sitemap: http://www.dominio.com/sitemap.xml

Crawl-delay: Indica a los bots los segundos que deben esperar entre cada página indexada para no saturar el servidor con peticiones y consumir recursos.

Nota: Google no reconoce este comando.

Ej para intervalo de 30 segundos:

crawl-delay: 30

EJEMPLO PARA PERMITIR INDEXACIÓN SÓLO A GOOGLE, BING Y YAHOO

#Habilito a Google
User-Agent: Googlebot
Allow: /*

#Habilito a Bing
User-Agent: MSNbot
Allow: /*

#Habilito a Yahoo
User-Agent: SLURP
Allow: /*

Fuentes y enlaces relacionados:

José Luis Torres Revert

Páginas

jueves, 16 de abril de 2015

¿Es necesario el archivo robots.txt?

No hay comentarios:

Publicar un comentario