网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
可签
7
级以上的吧
50
个
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
12月05日
漏签
0
天
太阳http吧
关注:
44
贴子:
218
看贴
图片
吧主推荐
游戏
1
回复贴,共
1
页
<返回太阳http吧
>0< 加载中...
爬虫是怎样处理ip不足的问题的?
只看楼主
收藏
回复
小柠檬与老柠檬
高级粉丝
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
在爬虫工作过程中,时常会被目标网站禁止访问,但又找不到缘故,这是让人十分郁闷的事情。通常情况下,目标网站的反爬虫策略全是依靠IP来标识爬虫的,许多情况下,我们访问网站的IP地址会被记录,当服务器指出这个IP是爬虫,那么便会限制或是禁止此IP访问。被限制IP最普遍的一个缘故是抓取频率过快,超出了目标网站所设置的阈值,将会被服务器禁止访问。因此,许多爬虫工作者会选择运用代理IP来辅助爬虫工作的正常的运行。
送TA礼物
1楼
2020-07-15 15:49
回复
小柠檬与老柠檬
高级粉丝
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
但有时迫不得已面对这样一个问题,代理IP不够用,该怎么办?有人说,不足用就去买呀。这里有两个问题,一是成本问题,二是高效代理IP并不是随处都有。
一般 ,爬虫工程师会采取这样两个手段来处理问题:
一、放慢抓取速度,降低IP或是其他资源的消耗,但这样会降低单位时间的抓取量,有可能会影响到任务是否能按时完成。
二、优化爬虫程序,减少一些不必要的程序,提供程序的工作效率,降低对IP或是其余资源的消耗,这就需要资深爬虫工程师了。如果说这两个办法都已经做到极致了,依然难以解决问题,那么只有加大投入继续购买高效的代理IP来保障爬虫工作的高效、持续、稳定的进行。
2楼
2020-07-15 15:49
回复
收起回复
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧热议榜
1
韩国执政党反对弹劾尹锡悦
2445090
2
琼瑶因一氧化碳中毒窒息离世
1948075
3
春节申遗成功
1481116
4
曼城3-0森林终结七场不胜
1196343
5
韩国总统尹锡悦戒严闹剧起因
922220
6
韩国特战队翻墙不如李在明
681150
7
姆巴佩为失点道歉
551280
8
保安火场救人吧友求助锦旗文案
442750
9
高达动画新作公开
318934
10
如何评价WBG新赛季阵容
296352
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示