Що таке robots.txt?
Robots.txt - це текстовий файл, який веб-майстри створюють для інструктажу веб-роботів (як правило, роботів пошукових систем) щодо сканування сторінок на своєму веб-сайті.
Файл robots.txt дає ботам пошукових систем вказівки, які сторінки слід відвідувати, а які ні (наприклад, ви не хочете, щоб вашу адмін-панель відвідували, оскільки вона може бути проіндексована в Google, що полегшить її злом і т.д...).
Як налаштувати файл robots.txt?
Ви можете використовувати або онлайн генератор на кшталт цього або створіть власний за наступним форматом:
Ось кілька прикладів robots.txt в дії:
Почнемо з завантаження файлу Robots.txt в наш кореневий каталог, щоб він виглядав так: yourdomain.com/robots.txt
Як заблокувати всіх пошукових роботів від усього контенту
Користувач-агент: * Заборонити: /
Використання цього синтаксису в нашому файлі robots.txt скаже всім веб-сканерам не сканувати жодної сторінки взагалі. Ви, ймовірно, не захочете використовувати цю опцію.
Як дозволити всім пошуковим роботам доступ до вашого контенту
Користувач-агент: * Заборонити:
Використання цього синтаксису дозволяє веб-сканерам сканувати всі сторінки на yourdomain.com, включаючи домашню сторінку.
Блокування певного веб-сканера з певної папки
User-agent: Googlebot Заборонити: /example-subfolder/
Цей синтаксис вказує лише пошуковому роботу Google (користувацькому агенту Googlebot) не сканувати сторінки, які містять рядок URL-адреси yourdomain.com/example-subfolder/.
Блокування певного веб-сканера з певної веб-сторінки
User-agent: Bingbot Заборонити: /example-subfolder/blocked-page.html
Цей синтаксис вказує лише сканеру Bing (ім'я користувача-агента Bing) уникати сканування певної сторінки за адресою yourdomain.com/example-subfolder/blocked-page.