云虚拟主机被爬虫访问耗费大量流量的解决方法【恒创科技吧】

恒创科技吧关注：91贴子：296

0回复贴，共1页

云虚拟主机被爬虫访问耗费大量流量的解决方法

在站点根目录下创建 robots.txt 文件，搜索引擎抓取网站数据时，首先就是抓取的该文件，根据里面的内容决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下，从而有效的控制爬虫的抓取路径。
根据更多信息中的搜索引擎和其对应的 User-Agent，Robots.txt 代码样例如下所示：
　　• 禁止所有搜索引擎访问网站的任何位置。
User-agent:
Disallow: /
　　• 允许所有的搜索引擎访问网站的任何位置。
　　User-agent:
　　Disallow:
　　• 仅禁止Baiduspider搜索引擎访问您的网站。
User-agent: Baiduspider
　　Disallow: /
　　• 仅允许Baiduspider访问您的网站。
User-agent: Baiduspider
　　Disallow:
　　• 禁止spider搜索引擎访问特定目录。
User-agent: *
　　Disallow: /cgi-bin/
　　Disallow: /tmp/
　　Disallow: /data/
说明：特定三个目录需要分别并列写。请注意最后需要带斜杠。
　　• 允许访问特定目录中的部分URL，实现a目录下只有b.htm允许访问。
User-agent: *
　　Allow: /a/b.htm
　　Disallow: /a/

送TA礼物

1楼2021-11-15 16:26回复

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

0回复贴，共1页

<返回恒创科技吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

云虚拟主机被爬虫访问耗费大量流量的解决方法

登录百度账号

扫二维码下载贴吧客户端