Wat is robots.txt?
Robots.txt is een tekstbestand dat webmasters maken om webrobots (meestal zoekmachinerobots) te instrueren hoe ze pagina's op hun website moeten crawlen.
Het robots.txt bestand geeft richtlijnen aan zoekmachine bots over welke pagina's moeten worden gevolgd en welke niet. (U wilt bijvoorbeeld niet dat uw admin paneel wordt gevolgd, omdat dit kan worden geïndexeerd in Google, waardoor het gemakkelijker kan worden gehackt etc...).
Hoe stel ik robots.txt in?
U kunt een online generator zoals deze of stel uw eigen exemplaar op met het volgende formaat:
Hier zijn enkele voorbeelden van robots.txt in actie:
We zouden beginnen met het uploaden van een Robots.txt bestand, naar onze root directory, zodat het hier verschijnt: yourdomain.com/robots.txt
Hoe alle webcrawlers te blokkeren voor alle inhoud
User-agent: * Disallow: /
Met deze syntaxis in ons robots.txt-bestand zouden we alle webcrawlers vertellen dat ze helemaal geen pagina's mogen crawlen. U wilt deze optie waarschijnlijk niet gebruiken.
Hoe u alle webcrawlers toegang geeft tot uw inhoud
User-agent: * Disallow:
Deze syntax vertelt webcrawlers om alle pagina's op yourdomain.com te crawlen, inclusief de homepage.
Een specifieke webcrawler blokkeren voor een specifieke map
User-agent: Googlebot Disallow: /voorbeeld-submap/
Deze syntaxis vertelt alleen de crawler van Google (user-agent naam Googlebot) om geen pagina's te crawlen die de URL-string yourdomain.com/voorbeeld-subfolder/ bevatten.
Een specifieke webcrawler blokkeren voor een specifieke webpagina
User-agent: Bingbot Disallow: /voorbeeld-submap/blocked-page.html
Deze syntaxis vertelt alleen de crawler van Bing (user-agent naam Bing) om het crawlen van de specifieke pagina op yourdomain.com/voorbeeld-submap/blocked-page te vermijden.