Mi az a robots.txt?
A Robots.txt egy olyan szöveges fájl, amelyet a webmesterek hoznak létre, hogy utasítsák a webrobotokat (általában a keresőmotorok robotjait), hogyan kutassák át a webhelyük oldalait.
A robots.txt fájl utasításokat ad a keresőmotorok botjainak, hogy mely oldalakat kell követni, és melyeket nem (pl. nem akarja, hogy az adminisztrációs panelt kövessék, mivel ezt a Google indexelheti, ami megkönnyíti a hackelést stb...).
Hogyan állíthatom be a robots.txt fájlt?
Használhat egy online generátor, mint ez vagy állítsa be a sajátját a következő formátumban:
Íme néhány példa a robots.txt működésére:
Kezdjük egy Robots.txt fájl feltöltésével a gyökérkönyvtárunkba, így az itt jelenik meg: yourdomain.com/robots.txt
Hogyan lehet blokkolni az összes webkúszót minden tartalomtól
Felhasználó-ügynök: * Letiltás: /
Ha ezt a szintaxist használjuk a robots.txt fájlunkban, akkor minden webes lánctalpas programnak megmondjuk, hogy egyáltalán ne lásson be semmilyen oldalt. Valószínűleg nem szeretné használni ezt a lehetőséget.
Hogyan engedélyezheti az összes webkúszónak a tartalomhoz való hozzáférést?
Felhasználó-ügynök: * Letiltás:
Ezzel a szintaxissal a webes lánctalpasok a yourdomain.com összes oldalát feltérképezik, beleértve a kezdőlapot is.
Egy adott webkúszó letiltása egy adott mappából
Felhasználó-ügynök: Googlebot Letiltás: /example-subfolder/
Ez a szintaxis csak a Google lánctalpas programjának (a Googlebot nevű felhasználó-ügynöknek) mondja meg, hogy ne láncoljon le olyan oldalakat, amelyek a yourdomain.com/example-subfolder/ URL-címsorozatot tartalmazzák.
Egy adott webkúszó letiltása egy adott weboldalról
Felhasználó-ügynök: Bingbot Letiltás: /example-subfolder/blocked-page.html
Ez a szintaxis csak a Bing lánctalpas programjának (Bing user-agent névvel) mondja meg, hogy ne láncolja le a yourdomain.com/example-subfolder/blocked-page címen található oldalt.