Qué es el archivo robots.txt

¿Qué es el archivo robots.txt?

Según Google la definición oficial de que es un archivo robots.txt es:

«Un archivo robots.txt es un archivo que se encuentra en la raíz de un sitio e indica a qué partes no quieres que accedan los rastreadores de los motores de búsqueda. El archivo utiliza el Estándar de exclusión de robots, que es un protocolo con un pequeño conjunto de comandos que se puede utilizar para indicar el acceso al sitio web por sección y por tipos específicos de rastreadores web (como los rastreadores móviles o los rastreadores de ordenador)».

Es decir, es un archivo público que usamos para indicar a esos rastreadores o arañas qué parte o partes no deben entrar a rastrear e indexar de nuestra página web.

Los robots son muy usados por los motores de búsqueda para organizar y categorizar los contenidos de un sitio web.

¿Cómo funciona el archivo robots.txt?

El robots.txt es un archivo de texto plano, como el que creas con un editor de texto normal. Además, el funcionamiento de los robots.txt está limitado y hay otros sistemas para que nuestras direcciones web sean encontradas en la web.

los robots de Google llamados Googlebots sí obedecen las órdenes del archivo robots.txt, pero otros buscadores (Yandex, Alltheweb, bing o Altavista) no tienen por qué hacerlo.

Dado que el archivo se guarda directamente en la carpeta raíz del sitio, acceder a los archivos robots.txt desde otras páginas es bastante simple: basta con escribir la dirección de la página en su navegador y agregue el comando “/robots.txt” al final de la URL.

Google diferencia varios tipos de robots:

User-agent: Se emplea para buscar y dar instrucciones, usar este robot se debe añadir el siguiente comando: User-agent: *
Googlebots: estos son los bots más comunes de Google, existen varios, como el bot de imágenes, mobile (para móviles)…

¿Cómo crear el archivo robots.txt?

Para su creación es necesario darle acceso a la raíz del dominio y subir al archivo en formato texto (txt) con nombre «robots.txt. Crear un archivo robots.txt es muy simple, solo requiere el conocimiento de unos pocos comandos específicos. También necesitarás acceso a la carpeta raíz de tu dominio. Los principales comandos que emplearemos en un robots.txt serán:

User-agent: [nombre del robot al que aplicaremos la regla].
Disallow: [directorio que quieres bloquear].
Allow: [URL de un directorio o subdirectorio bloqueado que quieres desbloquear].

El primer bot que se necesita emplear es el user-agent con el «*» para indicar que el usuario administrador pueda acceder a todos los contenidos, directorios etc.

user-agent:*

Después hay que especificar los lugares donde no quieres que entren los bots de Google. Para ello existen principalmente dos comandos: «Allow» y «Disallow».

Disallow: indica al user agent que no debe acceder, rastrear ni indexar una URL, subdirectorio o directorio concreto.
Allow: con él indicas al rastreador una URL, subdirectorio o directorio al que sí debe entrar, rastrear o indexar.

– Declarar la dirección del Sitemap:

«url donde se encuentra tu sitemap.xml».

Es muy recomendable indicar en el robots.txt cual es la dirección de tu sitemaps. Con ello, ayudas a que Google pueda reconocer toda la estructura de tu web más fácilmente y en primera instancia, antes de que entre realmente a tu sitio web.

EJEMPLO DE ROBOTS.TXT

User-agent: *
Disallow: /página1.html
Disallow: /página2.php
Disallow: /documentos/página3.html

Sitemap: https://tudominio.com/sitemap.xml

Si necesitas ayuda para crear tu robots.txt, en webymarketingdigital estaremos encantados de poder ayudarte.