恒创科技吧 关注:91贴子:296
  • 0回复贴,共1

云虚拟主机被爬虫访问耗费大量流量的解决方法

只看楼主收藏回复

在站点根目录下创建 robots.txt 文件,搜索引擎抓取网站数据时,首先就是抓取的该文件,根据里面的内容决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制爬虫的抓取路径。
根据更多信息中的搜索引擎和其对应的 User-Agent,Robots.txt 代码样例如下所示:
  • 禁止所有搜索引擎访问网站的任何位置。
User-agent:
Disallow: /
  • 允许所有的搜索引擎访问网站的任何位置。
  User-agent:
  Disallow:
  • 仅禁止Baiduspider搜索引擎访问您的网站。
User-agent: Baiduspider
  Disallow: /
  • 仅允许Baiduspider访问您的网站。
User-agent: Baiduspider
  Disallow:
  • 禁止spider搜索引擎访问特定目录。
User-agent: *
  Disallow: /cgi-bin/
  Disallow: /tmp/
  Disallow: /data/
说明:特定三个目录需要分别并列写。请注意最后需要带斜杠。
  • 允许访问特定目录中的部分URL,实现a目录下只有b.htm允许访问。
User-agent: *
  Allow: /a/b.htm
  Disallow: /a/


1楼2021-11-15 16:26回复