网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
可签
7
级以上的吧
50
个
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
02月08日
漏签
0
天
殁涩吧
关注:
21
贴子:
3,533
看贴
图片
吧主推荐
游戏
1
2
3
下一页
尾页
47
回复贴,共
3
页
,跳到
页
确定
<返回殁涩吧
>0< 加载中...
Python 爬取多玩图库
只看楼主
收藏
回复
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
发现跟着视频做完成功了,但是完全不记得自己做了什么,遂开贴总结
送TA礼物
IP属地:福建
1楼
2017-10-29 20:26
回复
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
首先将需要爬取的网页链接保存到变量
IP属地:福建
3楼
2017-10-29 20:34
回复
收起回复
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
喵喵喵???我楼呢???
IP属地:福建
4楼
2017-10-29 20:34
回复
收起回复
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
好吧无所谓了,只是一张网页的截图...
IP属地:福建
5楼
2017-10-29 20:36
回复
收起回复
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
接着为了模拟浏览器访问页面来获取页面内容
使用requests模块里的get方法
IP属地:福建
6楼
2017-10-29 20:39
回复(1)
收起回复
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
接着使用print(r.content),尝试打印出所获取的网页源代码
成功
IP属地:福建
7楼
2017-10-29 20:43
回复(1)
收起回复
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
print(r.text)获得更美观的格式,
但直接以文本模式显示可能会出现字符编码不匹配而产生乱码
IP属地:福建
8楼
2017-10-29 20:52
回复(1)
收起回复
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
乱码的问题并不难解决,在定义r之后r.coding='utf-8' 设定网页字符编码就能看到情切的汉字了
IP属地:福建
9楼
2017-10-29 20:57
回复(1)
收起回复
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
回去研究网页,Ctrl+U查看网页源代码,可以发现网页中对应的组图信息都在源代码里了
IP属地:福建
10楼
2017-10-29 21:09
回复
收起回复
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
data = []
创建一个储存标签号的空列表
从上一楼可以发现每个标签都是以<li xxxx开头,</li>结尾,于是可以利用正则表达式匹配出所有符合条件的字符串
然后打印出其中第一个查看是否获取成功.
使用正则表达式re模块需要import re
IP属地:福建
11楼
2017-10-29 21:21
回复(2)
收起回复
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
上图其实没能表现清楚,但每个<lixxxxx...</li>的信息都被以[1, 2, 3, 4]这样的格式存在lis列表里了.
然后for循环单独取出lis内每一个内容再使用正则表达式进行提取
打印之后发现每个数字都有重复,因为之前每个<lixxxxx...</li>的信息里,套路url都出现了两次
只需要一个于是加上[0],获得每次获取的列表内第一个获得的值
IP属地:福建
12楼
2017-10-29 21:43
回复(1)
收起回复
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
之后随便进入一个套图链接,Ctrl+U发现并没有图片链接,说明图片是动态加载的.(并不知道动态加载是什么)
F12进入开发者模式,找到图片所在行.
需要的是.jpg之前的图片编号
IP属地:福建
13楼
2017-10-29 21:59
回复
收起回复
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
恩获取到的东西和一个月前的不一样呢...之前可没有这样乱七八糟...
IP属地:福建
14楼
2017-10-29 22:05
回复(1)
收起回复
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
恩反正需要的也只是这个网址,这个网址内存着所有套图信息呢...
IP属地:福建
15楼
2017-10-29 22:12
回复(1)
收起回复
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
之后继续用requests.get()获取之前得到url内的信息
之后print(r2.text)看一下获取到的信息
恩完全不懂呢,但是老湿说是json那就json格式吧
IP属地:福建
16楼
2017-10-29 22:16
回复
收起回复
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧热议榜
1
哪吒2海外票房可能多少
2476620
2
黑神话vs哪吒2谁更出圈
1943812
3
电竞版胖猫网恋对象被抓
1785420
4
国防科技工业局招聘行星防御岗
1663173
5
大S的遗产和孩子会归汪小菲吗?
1608256
6
素食吧头像变长崎素世
1177000
7
小S请假半年暂停节目录制
1029816
8
当DeepSeek下棋学会盘外招
839454
9
GTA6秋季发售不跳票
733964
10
票房前十交接贺图谁更用心
613809
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示