¿Qué es el archivo robots.txt?
Robots.txt es un archivo de texto que los webmasters crean para instruir a los robots de la web (normalmente los robots de los motores de búsqueda) sobre cómo rastrear las páginas de su sitio web.
El archivo robots.txt da directivas a los bots de los motores de búsqueda sobre qué páginas deben ser seguidas y cuáles no (por ejemplo, usted no quiere que su panel de administración sea seguido, ya que esto puede ser indexado en Google, haciendo más fácil que sea hackeado, etc.).
¿Cómo se configura el archivo robots.txt?
Puede utilizar un generador en línea como este o configure el suyo propio con el siguiente formato:
Aquí hay algunos ejemplos de robots.txt en acción:
Empezaríamos subiendo un archivo Robots.txt, a nuestro directorio raíz, de forma que aparezca aquí: sudominio.com/robots.txt
Cómo bloquear todos los rastreadores web de todos los contenidos
Agente de usuario: * Disallow: /
El uso de esta sintaxis en nuestro archivo robots.txt le diría a todos los rastreadores web que no rastreen ninguna página, en absoluto. Probablemente no quieras utilizar esta opción.
Cómo permitir que todos los rastreadores web accedan a su contenido
Agente de usuario: * Disallow:
El uso de esta sintaxis indica a los rastreadores web que rastreen todas las páginas de sudominio.com, incluida la página de inicio.
Bloqueo de un rastreador web específico de una carpeta específica
Agente de usuario: Googlebot Disallow: /ejemplo-subcarpeta/
Esta sintaxis sólo indica al rastreador de Google (nombre de agente de usuario Googlebot) que no rastree ninguna página que contenga la cadena de URL sudominio.com/ejemplo-subcarpeta/.
Bloqueo de un rastreador web específico de una página web específica
Agente de usuario: Bingbot Disallow: /ejemplo-subcarpeta/página-bloqueada.html
Esta sintaxis sólo indica al rastreador de Bing (nombre de agente de usuario Bing) que evite rastrear la página específica en sudominio.com/ejemplo-subcarpeta/página-bloqueada.