殁涩吧 关注:21贴子:3,533

回复:Python 爬取多玩图库

只看楼主收藏回复

import json
img_dic = json.loads(r2.text)
导入json模块
使用json.loads读取r2的信息,就简单易懂了,下面是打印结果


IP属地:福建17楼2017-10-29 22:23
收起回复
    标题信息在gallery_title内,可以print(img_dict['gallery_title'])打印出来
    r2的类型为dict字典类型,所以访问img_dict['gallery_title']会返回 gallery_title 对应的值


    IP属地:福建18楼2017-10-29 22:33
    回复
      import os
      os.mkdir(img_dict['gallery_title'])
      导入os模块,os能进行文件管理
      创建一个文件夹,名字是img_dict字典里gallery_title键的对应值.讲人话就是套图标题
      分析楼上上的信息可以发现,图片信息存放在picInfo内,
      之后要做的就是获取图片信息并保存到本地了


      IP属地:福建19楼2017-10-29 22:50
      回复
        继续循环获取每个图片信息,
        然后之中有个明明为url的键是储存图片链接的,可以使用requests.get()直接获取图片数据(二进制)

        然后使用with open() as f以写入二进制模式创建一个文件,
        写入之前获取的图片数据


        IP属地:福建20楼2017-10-29 22:54
        回复
          楼上代码和注释都有错


          IP属地:福建21楼2017-10-29 23:08
          收起回复
            接下来需要利用到12L获取到的编号,再利用循环就可以爬取整个美女图片页面的套图了
            把之前代码中gid=和_=部分改为可变的,gid就是data列表内储存的各个页面编号,_=则是时间戳

            获取时间戳还需要import time模块


            IP属地:福建22楼2017-10-29 23:21
            回复
              之后选择其后的内容,Tab让他们归入上面的for循环


              IP属地:福建23楼2017-10-29 23:23
              回复
                运行一遍之后发现只获取了一份套图信息和一个空文件夹


                IP属地:福建25楼2017-10-30 20:43
                回复
                  恩貌似只是第二个文件夹某两张图片坏掉了,后面还出现因命名问题程序找不到相应文件夹,不过算基本成功(撒花



                  IP属地:福建26楼2017-10-30 21:06
                  收起回复
                    之后是函数运行封装,下面这段if __name__ == 'main':是啥我也不懂,反正别人运行都有这个,


                    IP属地:福建27楼2017-10-30 21:28
                    回复
                      要做的很简单,将之前的代码分步骤装进函数内就可以


                      IP属地:福建28楼2017-10-30 21:36
                      收起回复
                        之后使用上一个函数返回的套图链接id信息,获取每个套图网页内的图片信息


                        IP属地:福建29楼2017-10-30 21:43
                        收起回复
                          最后将新建文件+获取图片的过程封包


                          IP属地:福建30楼2017-10-30 21:50
                          回复
                            将楼上三个函数装入run()函数内


                            IP属地:福建31楼2017-10-30 21:54
                            回复