初学scrapy,想爬取某论坛所有用户的回帖数据,结果各种受挫。。。
第一个parse函数用了上图所示的循环进行把当页每个帖子的url爬下来传递给下一个parse_url函数进行处理
第二个parse_url函数用了上图所示进行做每个帖子翻页的处理,并把下一页的url提交给parse_url进行回调,这里判断回掉的依据是因为每页的回帖上限是20,我就设置了当回帖数刚好20的时候就翻页,但是也有可能最后一页刚好20个回帖,这个时候我要怎么判断终止呢?(parse_url函数第一行已经设置了self.num+=1用来翻页)
还有一个关于xpath匹配的问题,td标签下着两句话是一个回帖内容,但是我response.xpath提取的话会自动分配成列表里的两段,怎么样能存在一起?
第一个parse函数用了上图所示的循环进行把当页每个帖子的url爬下来传递给下一个parse_url函数进行处理
第二个parse_url函数用了上图所示进行做每个帖子翻页的处理,并把下一页的url提交给parse_url进行回调,这里判断回掉的依据是因为每页的回帖上限是20,我就设置了当回帖数刚好20的时候就翻页,但是也有可能最后一页刚好20个回帖,这个时候我要怎么判断终止呢?(parse_url函数第一行已经设置了self.num+=1用来翻页)
还有一个关于xpath匹配的问题,td标签下着两句话是一个回帖内容,但是我response.xpath提取的话会自动分配成列表里的两段,怎么样能存在一起?