Che cos'è il robots.txt?
Il file Robots.txt è un file di testo che i webmaster creano per istruire i robot del web (in genere i robot dei motori di ricerca) su come effettuare il crawling delle pagine del loro sito web.
Il file robots.txt dà delle direttive ai bot dei motori di ricerca su quali pagine devono essere seguite e quali no (ad esempio, non volete che il vostro pannello di amministrazione sia seguito, perché potrebbe essere indicizzato da Google, rendendo più facile l'hackeraggio, ecc.)
Come si imposta il file robots.txt?
È possibile utilizzare un generatore online come questo oppure impostarne uno proprio con il seguente formato:
Ecco alcuni esempi di robots.txt in azione:
Inizieremo caricando un file Robots.txt nella nostra directory principale, in modo che appaia qui: yourdomain.com/robots.txt
Come bloccare tutti i crawler web da tutti i contenuti
User-agent: * Disallow: /
Utilizzando questa sintassi nel nostro file robots.txt, tutti i crawler del Web non effettueranno la scansione di alcuna pagina. Probabilmente non si vuole usare questa opzione.
Come consentire a tutti i web crawler di accedere ai vostri contenuti
User-agent: * Disallow:
L'uso di questa sintassi indica ai web crawler di effettuare il crawling di tutte le pagine di yourdomain.com, compresa la homepage.
Blocco di un web crawler specifico da una cartella specifica
User-agent: Googlebot Disallow: /esempio-sottocartella/
Questa sintassi indica solo al crawler di Google (nome dell'agente utente Googlebot) di non eseguire il crawling di tutte le pagine che contengono la stringa URL yourdomain.com/example-subfolder/.
Blocco di uno specifico web crawler da una specifica pagina web
User-agent: Bingbot Disallow: /esempio-sottocartella/pagina-bloccata.html
Questa sintassi indica solo al crawler di Bing (nome utente Bing) di evitare il crawling della pagina specifica yourdomain.com/example-subfolder/blocked-page.