scrapy吧 关注:365贴子:558
  • 3回复贴,共1

scrapy第二个回调函数循环终止问题 外加一个xpath匹配?

只看楼主收藏回复

初学scrapy,想爬取某论坛所有用户的回帖数据,结果各种受挫。。。

第一个parse函数用了上图所示的循环进行把当页每个帖子的url爬下来传递给下一个parse_url函数进行处理

第二个parse_url函数用了上图所示进行做每个帖子翻页的处理,并把下一页的url提交给parse_url进行回调,这里判断回掉的依据是因为每页的回帖上限是20,我就设置了当回帖数刚好20的时候就翻页,但是也有可能最后一页刚好20个回帖,这个时候我要怎么判断终止呢?(parse_url函数第一行已经设置了self.num+=1用来翻页)

还有一个关于xpath匹配的问题,td标签下着两句话是一个回帖内容,但是我response.xpath提取的话会自动分配成列表里的两段,怎么样能存在一起?


IP属地:广东1楼2018-05-23 09:20回复
    先谢谢各位了!


    IP属地:广东2楼2018-05-23 09:20
    收起回复
      这么久之前的了,肯定好了


      IP属地:江苏来自Android客户端3楼2020-03-19 11:05
      回复