网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
成为超级会员,使用一键签到
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
02月19日
漏签
0
天
python吧
关注:
471,221
贴子:
1,957,490
看贴
图片
吧主推荐
视频
游戏
28
回复贴,共
1
页
<<返回python吧
>0< 加载中...
爬虫网站求助:
只看楼主
收藏
回复
hitzsf
探花
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
要求不用 浏览器方式[selenium, drission]等浏览器模块
仅限 requests httpx
hitzsf
探花
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
网站1 :
https://www.xsobiquge.org/book/118960/
这个网站,看上去很简单,但是我只能下载到目录页, 子章节下载不成功,求指导
Dragon1573
榜眼
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
网站2(一周内有效):
https://pastebin.com/NxtB267N
你安装 httpx 的时候,这个库要写成 httpx[http2] ,在安装的时候才会附带 HTTP/2 支持。这个站点也是同时支持 HTTP/2 的,但 httpx 默认不开启 HTTP/2 ,你需要添加参数 http2=True 手动打开它。lxml 是用来解析页面的,这里用的是 XPath 语法定位元素。mimesis 是一个数据生成器,这里用来随机选取浏览器 User-Agent 。
Dragon1573
榜眼
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
网站1(一周内有效):
https://pastebin.com/hLRFpcPz
hitzsf
探花
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
🪼🪼
白丁
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
网站2: 五秒盾,用curl_cffi
🪼🪼
白丁
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
网站1:scrapy,自带异步
吧匪特
贡士
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
爬取遇到什么问题了吗?在线转个代码,套层循环就行了,链接地址很有规律98781.html、98782.html........如果有限制,加sleep降速
远方的付亲
白丁
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
不用发那些没用的 直接说金额就可以 没金额 你发的看都不看
哈哈哈肚啦啦
白丁
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
天啊,谢谢你,确实是被注释掉了,太感谢了,我那个不知道为啥被删了,谢谢你!
SuNanY
白丁
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
来个爬虫哥 价格好说
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示