-
-
0
-
2git@gitee.com:Ac1998/myscrapy.git
-
1由于某个网站用的动态加载需要不停滚轮才能获取所有我想要的urls,所以我索性把所有urls的关键信息直接人工整理到了某个excel表格里面。问题就是如何让scrapy从这个excel表格里面获取url信息并拼接成我想要的url进行访问呢?求大神
-
0不过是一个下载图片的小程序,我作为一个新手实在是无能为力。。请大佬帮吗 import scrapy from scrapy import Request from avdownloads.items import (AvdownloadsItem) class AvSpider(scrapy.Spider): name = "av" allowed_domains = ["bejav.net"] start_urls = ["https://bejav.net"] def parse(self, response): for titles in response.xpath('//*[@id="main"]/div/div[1]/div[2]'): img_urls = titles.xpath('./div/ div[1]/a/img/@src').extract() for img_url in img_urls: yield Request(url=img_url, callback=self.download_pic) def
-
4今早用scrapy爬取东西,在将数据写入my sql的时候,报了错,大家帮忙看看什么原因: __init__() takes 1 positional argument but 6 positional arguments (and 1 keyword-only argument) were given
-
0网上各种版本,安照教程做了不成功 哪位大佬给个项目看看
-
4import scrapy class FirstSpider(scrapy.Spider): name = 'first' # allowed_domains = ['careers.tencent.com'] start_urls = ['https://careers.tencent.com/search.html?pcid=40001'] def parse(self, response): r = response.xpath('//div[@class="correlation-degree"]/div').extract() print(r)
-
2高级Python web逆向工程师师测试题 (请本文件发送到: SpiderTestQuestion@163.com 并附带简历) 1、 用yield写一个斐波那契数列的生成器函数。 2、 放一段scrapy项目parse函数的代码(解析列表页,使用分组提取,解析字段)。 3、 遇到过哪些反爬策略,如果突破? 4、 scrapy各个模块启动顺序(Spider, Middleware, Pipeline的加载、实例化、Open、Close的顺序)。 5、 使用过哪些抓包工具,各有什么优点。 6、 有没有自己博客,贴一下网址。 7、 字体加密反爬机制及分类。 8、 遇到
-
3
-
1root@ubuntu:~# scrapy startproject ZhipinSpider Traceback (most recent call last): File "/data/tools/Python3.9/bin/scrapy", line 5, in <module> from scrapy.cmdline import execute File "/data/tools/Python3.9/lib/python3.9/site-packages/scrapy/__init__.py", line 12, in <module> from scrapy.spiders import Spider File "/data/tools/Python3.9/lib/python3.9/site-packages/scrapy/spiders/__init__.py", line 116, in <module> from scrapy.spiders.crawl import CrawlSpider, Rule File "/data/tools/Python3.9/lib/python3.9/site-packages/scrapy/spiders/crawl.p
-
1我想用css类选择器爬一个标签,用response.css(".someClass")爬不到内容,用xpath选择器response.xpath("//*[@class='someClass']")就爬到了这个标签,哪位大佬见过类似的问题,是怎么回事?
-
1*** 已写入如下代码 进 scrapy settings ***** import os import sys import django sys.path.append(os.path.dirname(os.path.abspath('.'))) os.environ['DJANGO_SETTINGS_MODULE'] = 'index00.settings' # index00 为django项目名 django.setup() 但运行爬虫后,仍出现错误 : ModuleNotFoundError: No module named 'index00' 求解
-
0
-
0关于scrapy使用xpath的问题。 这几天写了个爬京东商品的程序,事先用txt保存好了一些待搜索项用readlines读取搜索。 在程序运行过程中用xpath搜同一个位置的同个标签里的值(商品页数)有的时候会返回空值,而且每一轮循环返回空值的搜索项并不是同一个。(如某个商品第一次页数为空,第二次又有值) 一开始以为是response的问题,再返回空值的时候就print了response的body 但是打印结果是正常界面,能在里面找到xpath路径的值而且核对路径没有出错(//*[
-
0
-
3
-
3
-
0学习scrapy可以加我的公主号,每周不定期更新python和scrapy小知识,从零开始没有基础也可以学。 公众号名称:凡大哥随笔
-
7
-
0有没有大佬会爬取卖花网站的文字和内容,以及本地存储和mysql存储,求代码,呜呜😭
-
4本人刚学习scrapy爬虫,准备爬取企查查企业信息 链接都获取到了,但是访问却报405 日志如下: 我在请求时更改了method还是不行,懵逼状态 yield SplashRequest(self.start_urls[0], args={'images': 0, 'timeout': 3}, meta={"cookiejar":"chrome"}, method="get") 希望大神指导一下,感谢!!!
-
3
-
1scrapy+xpath如何实现爬取网页的时候点击进入词条查看详情?
-
0反扒 post 浏览器可获取数据 scrapy数据为空 目标地址:http://www.ccgp-gansu.gov.cn/web/article/128/0/index.htm 此网站为post提交,返回html文本,详细的可以看我的代码 想爬取的内容:列表中的项目 问题:scrapy获取的body中没有列表的数据 ul中没有li 曾尝试解决,用cookiejar:True,还是没有数据 希望有能力的小伙伴,能给予一点提示,不胜感激 spider源文件 ``` # -*- coding: utf-8 -*- import re import scrapy import scrapy_splash from demo.items import DemoItem from datetime import datetime class GgzyfwSpider(scrapy.Spider)
-
0有毒吧?不让提问题吗?
-
0不就是放个源文件吗?怎么了?
-
0python scrapy 怎么判断是否需要输入验证码
-
0scrapy如何获取跟浏览器一样的临时cookie? 比如lv都官网,他的单品页面数据需要首先获取临时cookie才能访问到数据。但是scrapy和requests获取到的cookie跟浏览器的不一样,访问会被拒绝。有没有大神知道他们cookie之间的差别,怎么解决
-
0
-
5
-
0
-
0请问一下,scrapy,怎么让它一直执行。不关闭呢? start_urls有很多网址,想结束后,重新自动爬
-
5
-
0scrapy css如何选取标签内容为"下一页"的标签
-
0关于vscode调试scrapy的问题,我已经用命令行建好了项目,也写了一点代码,然后用命令行是可以运行的,但是用vscode就提示,Unknown command:crawl怎么搞啊
-
0有人做过ntlm吗? 给个样子 也好让我这样初学者学习一下。
-
0http://tieba.baidu.com/p/6318324774?share=9105&fr=share&