Mis on robots.txt?
Robots.txt on tekstifail, mille veebimeistrid loovad, et anda veebirobotitele (tavaliselt otsingumootorite robotitele) juhiseid, kuidas nende veebisaidi lehekülgi krabada.
Robots.txt fail annab otsingumootorite robotitele juhised, milliseid lehekülgi tuleks jälgida ja milliseid mitte (nt te ei taha, et teie halduspaneeli jälgitakse, kuna see võib olla Google'is indekseeritud, mistõttu seda on lihtsam häkkida jne...).
Kuidas seadistada robots.txt?
Võite kasutada kas online generaator nagu see või seadistada oma enda jaoks järgmine vorming:
Siin on mõned näited robots.txt faili toimimisest:
Alustaksime Robots.txt faili üleslaadimisega meie juurkataloogi, nii et see ilmuks siia: yourdomain.com/robots.txt
Kuidas blokeerida kõik veebi roomikud kogu sisust
Kasutaja-agent: * Keelata: /
Selle süntaksi kasutamine meie robots.txt failis ütleb kõigile veebiuurijatele, et nad ei tohi üldse ühtegi lehekülge uurida. Tõenäoliselt ei soovi te seda võimalust kasutada.
Kuidas lubada kõigile veebimatkajatele juurdepääsu teie sisule
Kasutaja-agent: * Keelata:
Selle süntaksi kasutamine annab veebimadarale käsu uurida kõiki teiedomeen.com lehekülgi, sealhulgas kodulehekülge.
Konkreetse veebimadru blokeerimine konkreetsest kaustast
Kasutaja-agent: Googlebot Keelata: /example-subfolder/
See süntaks ütleb ainult Google'i roomikprogrammile (kasutaja-agent Googlebot), et ta ei roomiks ühtegi lehekülge, mis sisaldavad URL-stringi yourdomain.com/example-subfolder/.
Konkreetse veebimadru blokeerimine konkreetselt veebilehelt
Kasutaja-agent: Bingbot Keelata: /example-subfolder/blocked-page.html
See süntaks ütleb ainult Bingi roomikprogrammile (kasutaja-agent Bing), et ta ei roomiks konkreetset lehekülge aadressil yourdomain.com/example-subfolder/blocked-page.