Что такое robots.txt?
Robots.txt - это текстовый файл, который веб-мастера создают, чтобы проинструктировать веб-роботов (обычно роботов поисковых систем), как просматривать страницы на их сайте.
Файл robots.txt дает указания ботам поисковых систем, какие страницы следует посещать, а какие нет (например, вы не хотите, чтобы ваша панель администратора посещалась, так как она может быть проиндексирована в Google, что облегчит ее взлом и т.д.).
Как настроить robots.txt?
Вы можете либо использовать онлайн-генератор, подобный этому или создать свой собственный, используя следующий формат:
Вот несколько примеров robots.txt в действии:
Мы начнем с загрузки файла Robots.txt в наш корневой каталог, чтобы он выглядел следующим образом: yourdomain.com/robots.txt
Как заблокировать все веб-краулеры от всего контента
User-agent: * Запретить: /
Использование этого синтаксиса в файле robots.txt запрещает всем веб-краулерам просматривать какие-либо страницы. Скорее всего, вы не захотите использовать эту опцию.
Как разрешить всем веб-краулерам доступ к вашему контенту
User-agent: * Запретить:
Использование этого синтаксиса указывает веб-краулерам на то, что нужно просмотреть все страницы сайта yourdomain.com, включая домашнюю страницу.
Блокирование определенного веб-краулера из определенной папки
Пользовательский агент: Googlebot Disallow: /example-subfolder/
Этот синтаксис указывает только краулеру Google (имя пользовательского агента Googlebot) не просматривать страницы, содержащие строку URL yourdomain.com/example-subfolder/.
Блокирование определенной веб-краулера на определенной веб-странице
Пользовательский агент: Bingbot Disallow: /example-subfolder/blocked-page.html
Этот синтаксис указывает только краулеру компании Bing (имя пользовательского агента Bing) не просматривать конкретную страницу по адресу yourdomain.com/example-subfolder/blocked-page.