Was ist robots.txt?
Robots.txt ist eine Textdatei, die Webmaster erstellen, um Webrobotern (in der Regel Suchmaschinenrobotern) mitzuteilen, wie sie die Seiten ihrer Website crawlen sollen.
Die robots.txt-Datei gibt den Suchmaschinen-Bots Anweisungen, welche Seiten verfolgt werden sollen und welche nicht (z. B. möchten Sie nicht, dass Ihr Admin-Panel verfolgt wird, da dies von Google indiziert werden könnte, was es leichter macht, gehackt zu werden usw...).
Wie richte ich robots.txt ein?
Sie können entweder eine Online-Generator wie dieser oder erstellen Sie eine eigene mit dem folgenden Format:
Hier sind ein paar Beispiele für robots.txt in Aktion:
Wir beginnen mit dem Hochladen einer Robots.txt-Datei in unser Stammverzeichnis, so dass sie hier erscheint: yourdomain.com/robots.txt
Wie man alle Web-Crawler für alle Inhalte blockiert
Benutzer-Agent: * Nicht zulassen: /
Die Verwendung dieser Syntax in unserer robots.txt-Datei würde alle Web-Crawler anweisen, keine Seiten zu crawlen. Wahrscheinlich möchten Sie diese Option nicht verwenden.
Wie Sie allen Webcrawlern Zugang zu Ihren Inhalten gewähren
Benutzer-Agent: * Nicht zulassen:
Mit dieser Syntax werden Webcrawler angewiesen, alle Seiten von yourdomain.com zu crawlen, einschließlich der Homepage.
Blockieren eines bestimmten Web-Crawlers für einen bestimmten Ordner
Benutzer-Agent: Googlebot Nicht zulassen: /beispiel-unterordner/
Diese Syntax weist nur den Crawler von Google (User-Agent-Name Googlebot) an, keine Seiten zu crawlen, die die URL-Zeichenfolge yourdomain.com/example-subfolder/ enthalten.
Blockieren eines bestimmten Web-Crawlers für eine bestimmte Webseite
Benutzer-Agent: Bingbot Nicht zulassen: /beispiel-unterordner/blockierte-seite.html
Diese Syntax weist nur den Crawler von Bing (Name des Benutzeragenten Bing) an, das Crawlen der spezifischen Seite yourdomain.com/example-subfolder/blocked-page zu vermeiden.