什么是robots.txt?
Robots.txt是网站管理员创建的一个文本文件,用于指示网络机器人(通常是搜索引擎机器人)如何抓取他们网站上的网页。
robots.txt文件向搜索引擎机器人发出指令,说明哪些页面应该被跟踪,哪些不应该被跟踪(例如,你不希望你的管理面板被跟踪,因为这可能被谷歌索引,使其更容易被黑客攻击等)。
如何设置 robots.txt?
你可以使用一个 像这样的在线生成器 或用以下格式设置你自己的一个。
这里有几个Robots.txt的实例。
我们将首先上传一个Robots.txt文件,到我们的根目录,这样它将出现在这里:yourdomain.com/robots.txt
如何阻止所有网络爬虫进入所有内容
用户-代理。* 不允许。/
在我们的robots.txt文件中使用这种语法,将告诉所有的网络爬虫不要抓取任何页面,根本不需要。 你可能不希望使用这个选项。
如何允许所有网络爬虫访问你的内容
用户-代理。* 不允许。
使用这种语法,网络爬虫就会抓取yourdomain.com上的所有页面,包括主页。
阻止一个特定的网络爬虫进入一个特定的文件夹
用户-代理。Googlebot 不允许。/example-subfolder/
这种语法只告诉谷歌的爬虫(用户代理名称为Googlebot)不要抓取任何包含URL字符串yourdomain.com/example-subfolder/的页面。
阻止一个特定的网络爬虫进入一个特定的网页
用户-代理。Bingbot 不允许。/example-subfolder/blocked-page.html
这个语法只告诉Bing的爬虫(用户代理名称为Bing),避免爬行yourdomain.com/example-subfolder/blocked-page的特定页面。