Archivo robots.txt y su función e importancia para Google

archivo robots.txt y Google sitemap

El archivo robots.txt le indica al buscador de Google que archivos y directorios deseas que sean considerados para ser indexados. Ahora veamos las funciones básicas del archivo robots.txt.

El archivo robots.txt se basa en un protocolo denominado Robots Exclusion Protocol, que es un estándar universal que consta de un pequeño pequeño grupo de comandos que indican a los robots de los buscadores que deben considerar y que debe excluir al llegar a tu sitio.

Comandos más importantes del archivo robots.txt

Aunque existen algunos más, los comandos más usuales en cuanto a archivos robots.txt son los siguientes:

  • Disallow. Se utiliza para denegar el acceso a un directorio o una página concreta.
  • Allow. Sirve permitir que los robots rastreadores de Google y otros buscadores sí accedan a determinados enlaces.
  • User-agent. Hace referencia a qué tipo de robots, también denominados crawlers, deben seguir las indicaciones de los comandos.
  • Sitemap. Este comando indica la ruta exacta en la que se encuentra el mapa del sitio que es una archivo XML.
  • Crawl-delay. Es una indicación sobre el tiempo, expresado en segundos, que debe esperar el robot entre cada página.

Las reglas de sintaxis del contenido robots.txt

Siguiendo el protocolo establecido, los comandos nombrados anteriormente deben seguir las siguientes reglas:

  • Se deben respetar: las mayúsculas y minúsculas, la puntuación y los espacios establecidos.
  • Cada grupo User-agent/Disallow ha de ir separado por una línea en blanco.
  • Existe la posibilidad de incluir comentarios, utilizando para ello la almohadilla o símbolo de hash (#).
  • En principio, únicamente pueden utilizarse los comandos citados anteriormente.

Algunas cosas a considerar sobre los archivos robots.txt

  • Es necesario tener acceso a la raíz del dominio para poder crear un archivo robots.txt. Si no la conoces o tienes problemas con esta cuestión, deberás ponerte en contacto con tu proveedor de alojamiento web.
  • Hay que tener en cuenta que las instrucciones de los robots.txt son solamente indicaciones o recomendaciones. Es decir, aunque los rastreadores suelen hacerles caso, no están obligados a cumplirlas. Por otro lado, puede haber algunas discrepancias o interpretaciones distintas de las instrucciones de los comandos entre los diferentes rastreadores de Google.
  • El archivo robots.txt proporciona información pública, por lo que para proteger información de carácter privado es conveniente utilizar otros métodos, como la protección con contraseña de determinados directorios desde el propio servidor.
  • Existe una herramienta de Google, denominada probador de robots.txt, que te servirá para comprobar si estás consiguiendo el efecto que deseas con los comandos que has implementado.

¿Qué puede aportar a mi página el archivo robots.txt?

Aunque, como hemos comentado, no existe una ley que obligue a los rastreadores a seguir las indicaciones de los archivos robots.txt, se sabe que, normalmente, lo primero que hacen las arañas de Google cuando aterrizan en tu página es buscar el archivo robots.txt y tener en cuenta sus indicaciones a la hora de realizar el análisis y la valoración de tu sitio.

Por lo tanto, los robots.txt facilitan el trabajo a los rastreadores, lo que nos puede ayudar a conseguir un mejor posicionamiento SEO. En definitiva, la inclusión de este tipo de comandos debe entenderse como una acción más para conseguir estar lo más arriba posible en las entradas de Google. Y ya se sabe que el éxito del SEO está en ir sumando puntos para, al final, lograr ventaja frente a las páginas de la competencia.

En conclusión, la gran ventaja de estos comandos es que posibilitan restringir el acceso de los robots a tu página de una forma selectiva, teniendo tú el control en cuestiones como:

  • Evitar que determinados enlaces de nuestra página que no nos interesan (aunque sea de forma temporal) sean accesibles para los buscadores.
  • Bloquear también el acceso a archivos sin utilidad para los robots y los usuarios, como pueden ser ciertos códigos de programación.
  • Evitar ser penalizados por Google porque sus robots lleguen a indexar contenido duplicado en tu sitio.
  • Facilitar el acceso al sitemap y, de esta forma, provocar que Google conozca rápidamente la estructura y los contenidos básicos de nuestra web.
Etiquetas: