如何设置Robots.txt文件

什么是robots.txt?

Robots.txt是网站管理员创建的一个文本文件,用于指示网络机器人(通常是搜索引擎机器人)如何抓取他们网站上的网页。

robots.txt文件向搜索引擎机器人发出指令,说明哪些页面应该被跟踪,哪些不应该被跟踪(例如,你不希望你的管理面板被跟踪,因为这可能被谷歌索引,使其更容易被黑客攻击等)。

如何设置 robots.txt?

你可以使用一个 像这样的在线生成器 或用以下格式设置你自己的一个。

这里有几个Robots.txt的实例。

我们将首先上传一个Robots.txt文件,到我们的根目录,这样它将出现在这里:yourdomain.com/robots.txt

如何阻止所有网络爬虫进入所有内容
用户-代理。*
不允许。/

在我们的robots.txt文件中使用这种语法,将告诉所有的网络爬虫不要抓取任何页面,根本不需要。 你可能不希望使用这个选项。

如何允许所有网络爬虫访问你的内容
用户-代理。*
不允许。

使用这种语法,网络爬虫就会抓取yourdomain.com上的所有页面,包括主页。

阻止一个特定的网络爬虫进入一个特定的文件夹
用户-代理。Googlebot
不允许。/example-subfolder/

这种语法只告诉谷歌的爬虫(用户代理名称为Googlebot)不要抓取任何包含URL字符串yourdomain.com/example-subfolder/的页面。

阻止一个特定的网络爬虫进入一个特定的网页
用户-代理。Bingbot
不允许。/example-subfolder/blocked-page.html

这个语法只告诉Bing的爬虫(用户代理名称为Bing),避免爬行yourdomain.com/example-subfolder/blocked-page的特定页面。

更新于 9月 9, 2020

这篇文章有帮助吗?

相关文章

仍然没有运气?
找不到你要找的答案吗?不要担心,让#039;我们来开一张支持票!
打开支持票