【图片】来个python的简单爬虫和数据清洗【大数据吧】

11月16日漏签0天

大数据吧关注：165,755贴子：207,408

10回复贴，共1页

<返回大数据吧

来个python的简单爬虫和数据清洗

只看楼主收藏回复

爬取的网站是这个，该网站没有任何反爬措施。

送TA礼物

IP属地:广西

1楼2024-09-22 19:28回复

在开发者工具可以得到url,爬取方法为post,User-Agent和payload参数。

IP属地:广西

2楼2024-09-22 19:32

潍坊茆又松教育有限公司

人人都在用的征信查询工具，在哪查询大数据信息，风险一目了然!点击查询吧!

2024-11-16 01:14广告

立即查看

得到参数后，用requests.post方法爬取。（current表示数据页数，size表示每页20行数据）获得json文件后插入列表里。

IP属地:广西

3楼2024-09-22 19:35

前面的代码只爬取了第一页，接下来把每页都爬了。

IP属地:广西

4楼2024-09-22 19:37

数据有一千多页，要爬蛮久的，先等等。

IP属地:广西

5楼2024-09-22 19:40

额......爬取有点问题，一共就1649页，它竟然显示爬到1700页还没结束，不过既然都知道有1649页了，就这样改吧。

IP属地:广西

6楼2024-09-22 19:54

又要重新等一次。

IP属地:广西

7楼2024-09-22 19:56

爬取完成后，该清洗一下爬取的数据了，提取GetData每个字典中的data的records，因为数据就在那里面。

IP属地:广西

8楼2024-09-22 20:10

到达未来（海南）元宇宙..

几秒拥有NFT，数字大数据，就来BlockCity区块城市，不只是元宇宙地产了解数字大数据，加入去中心化的元宇宙，成为永久居民

2024-11-16 01:14广告

立即查看

然后用pandas处理一下，转换为dataframe框架，只显示网站显示的列，删去其它列，再把要显示的列的列名翻译一下。
删除多余列：

翻译列名：

IP属地:广西

9楼2024-09-22 20:14

存入csv中，查看一下结果吧。

感觉还行。

IP属地:广西

10楼2024-09-22 20:17

代码都不到100行，还是挺容易的，都不需要什么算法，都是基本逻辑。

IP属地:广西

来自Android客户端11楼2024-09-22 20:25

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

10回复贴，共1页

<返回大数据吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

来个python的简单爬虫和数据清洗

登录百度账号

扫二维码下载贴吧客户端