大数据吧 关注:165,755贴子:207,408
  • 10回复贴,共1

来个python的简单爬虫和数据清洗

只看楼主收藏回复

爬取的网站是这个,该网站没有任何反爬措施。


IP属地:广西1楼2024-09-22 19:28回复
    在开发者工具可以得到url,爬取方法为post,User-Agent和payload参数。



    IP属地:广西2楼2024-09-22 19:32
    回复
      得到参数后,用requests.post方法爬取。(current表示数据页数,size表示每页20行数据)获得json文件后插入列表里。


      IP属地:广西3楼2024-09-22 19:35
      回复
        前面的代码只爬取了第一页,接下来把每页都爬了。


        IP属地:广西4楼2024-09-22 19:37
        回复
          数据有一千多页,要爬蛮久的,先等等。


          IP属地:广西5楼2024-09-22 19:40
          回复
            额......爬取有点问题,一共就1649页,它竟然显示爬到1700页还没结束,不过既然都知道有1649页了,就这样改吧。


            IP属地:广西6楼2024-09-22 19:54
            回复
              又要重新等一次。


              IP属地:广西7楼2024-09-22 19:56
              回复
                爬取完成后,该清洗一下爬取的数据了,提取GetData每个字典中的data的records,因为数据就在那里面。



                IP属地:广西8楼2024-09-22 20:10
                回复
                  然后用pandas处理一下,转换为dataframe框架,只显示网站显示的列,删去其它列,再把要显示的列的列名翻译一下。
                  删除多余列:

                  翻译列名:



                  IP属地:广西9楼2024-09-22 20:14
                  回复
                    存入csv中,查看一下结果吧。

                    感觉还行。



                    IP属地:广西10楼2024-09-22 20:17
                    回复
                      代码都不到100行,还是挺容易的,都不需要什么算法,都是基本逻辑。


                      IP属地:广西来自Android客户端11楼2024-09-22 20:25
                      回复