Qu'est-ce que le fichier robots.txt ?
Le fichier Robots.txt est un fichier texte que les webmasters créent pour indiquer aux robots web (généralement les robots des moteurs de recherche) comment explorer les pages de leur site web.
Le fichier robots.txt donne des directives aux robots des moteurs de recherche sur les pages qui doivent être suivies et celles qui ne doivent pas l'être (par exemple, vous ne voulez pas que votre panneau d'administration soit suivi, car il pourrait être indexé dans Google, ce qui faciliterait son piratage, etc...).
Comment configurer le fichier robots.txt ?
Vous pouvez soit utiliser un générateur en ligne comme celui-ci ou créez le vôtre au format suivant :
Voici quelques exemples de robots.txt en action :
Nous commencerions par télécharger un fichier Robots.txt dans notre répertoire racine, de sorte qu'il apparaisse ici : yourdomain.com/robots.txt
Comment bloquer l'accès de tous les crawlers à tous les contenus ?
Agent utilisateur : * Disallow : /
L'utilisation de cette syntaxe dans notre fichier robots.txt indiquerait à tous les robots d'exploration du Web de ne pas explorer les pages, du tout. Vous ne souhaitez probablement pas utiliser cette option.
Comment permettre à tous les crawlers web d'accéder à votre contenu ?
Agent utilisateur : * Disallow :
L'utilisation de cette syntaxe indique aux robots d'exploration du Web qu'ils doivent explorer toutes les pages de yourdomain.com, y compris la page d'accueil.
Bloquer l'accès d'un crawler spécifique à un dossier spécifique
Agent utilisateur : Googlebot Disallow : /exemple-sous-dossier/
Cette syntaxe indique uniquement au robot d'exploration de Google (nom de l'agent utilisateur Googlebot) de ne pas explorer les pages contenant la chaîne URL yourdomain.com/example-subfolder/.
Bloquer l'accès d'un crawler spécifique à une page web spécifique
Agent utilisateur : Bingbot Disallow : /exemple-sous-dossier/page-bloquée.html
Cette syntaxe indique uniquement au robot d'exploration de Bing (nom de l'agent utilisateur Bing) d'éviter d'explorer la page spécifique de yourdomain.com/example-subfolder/blocked-page.