集搜客gooseeker吧 关注:91贴子:363
  • 4回复贴,共1

网页信息抓太快导致封锁IP的情况,集搜客网络爬虫如何处理?

只看楼主收藏回复

RT


1楼2016-09-14 16:47回复
    采集一个网站太频繁,能够采集的网页越来越少,甚至会被封杀IP,只有控制好采集速度和频率才能持续地获得数据,并且,要定期清理浏览器的cookies。


    IP属地:广东2楼2016-09-14 16:49
    回复
      1、每天清理完cookies后请重启浏览器和爬虫


      IP属地:广东5楼2016-09-14 16:54
      回复
        2、控制采集速度的方法如下:
        (1)爬虫群采集的话,可以把调度中的一轮停歇时间设为大于0,线索间等待最短时间和线索间等待最长时间设大点,但线索间等待最短时间要小于线索间最长时间,延迟抓取时间可以调大点,滚屏次数设为一个较大的正整数,定时器触发默认为否,每个调度参数的意义见http://www.gooseeker.com/doc/article-112-1.html
        (2)手工采集的话,通过DS打数机的配置菜单->滚屏参数来控制抓取速度,滚屏次数设为一个较大的正整数,滚屏速度设为负整数,采集速度就会放慢,不要勾定时器触发,不要禁止图片加载、不要紧张JS加载
        (3)自己编写爬虫调度程序的话,类似方法1修改crontab中控制速度的参数就可以了


        IP属地:广东6楼2016-09-14 16:54
        回复
          控制采集频度+更换IP


          8楼2016-09-20 17:39
          回复