Scrapy

使用deathbycaptcha服务处理Google recaptcha v2时如何控制scrapy中的请求流？

你好我正在使用 python 使用 scrapy 网络爬行框架抓取网站并使用 Deathbycaptcha 服务解决我在其页面上遇到的验证码我的下载延迟设置为 30 秒我只抓取几页来获取基本信息这样我就不会过多地占用网站带宽或任何

python API webscraping Scrapy reCAPTCHA

如何用Scrapy爬取整个网站？

我无法抓取整个网站 Scrapy 只能抓取表面我想抓取得更深过去 5 6 个小时一直在谷歌搜索但没有任何帮助我的代码如下 from scrapy contrib spiders import CrawlSpider Rule fro

python Web webscraping Scrapy

使用scrapy提取XHR请求？

我正在尝试抓取使用 javascript 生成的社交点赞计数如果我绝对引用 XHR url 我就能够抓取所需的数据但是我尝试抓取的网站动态生成这些 XMLHttpRequest 其中包含我不知道如何提取的查询字符串参数例如您可以看到

XMLHttpRequest webscraping Scrapy

scrapy项目加载器返回列表不是单个值

我正在使用 scrapy 0 20 我想使用项目加载器这是我的代码 l XPathItemLoader item MyItemClass response response l add value url response url l a

python python27 webscraping Scrapy

Scrapy 使用 selenium，webdriver 无法实例化

我正在尝试将 selenium phantomjs 与 scrapy 一起使用但我遇到了很多错误例如采用以下代码片段 def parse self resposne while True try driver webdriver Ph

python selenium seleniumwebdriver Scrapy PhantomJS

现在如何安装Visual Studio 2015 PlatformSDK？

当我运行某些东西时例如pip install scrapy 使用 python 3 7 我遇到了麻烦error WinError 3 The system cannot find the path specified C Program

python3x VisualStudio Scrapy pip

Scrapy中不同start_url的不同解析函数

Scrapy可以为每个start url设置不同的解析函数吗这是一段伪代码 start urls http 111sssssssss com http 222sssssssssssss com http 333sssssssssss co

Scrapy

无需显式定义要抓取的每个字段即可抓取数据

我想抓取一页数据使用 Python Scrapy 库而不必定义页面上的每个单独字段相反我想使用动态生成字段id元素的名称作为字段名称起初我认为最好的方法是建立一个收集所有数据的管道并在收集完所有数据后将其输出然后我意识到我需要

python Scrapy

如果子节点是 Scrapy 中其他节点的父节点，如何使用 XPath 从子节点获取文本

我面临一个问题我必须使用 scrapy 中的 Xpath 从子节点获取结果该子节点可能是也可能不是其他节点的父节点考虑这样的情况 h1 class main span class child data span h1 or h1 cl

python html xpath Scrapy

Scrapy：“str”对象没有属性“iter”

I added restrict xpaths我的 scrapy 蜘蛛的规则现在它立即失败 2015 03 16 15 46 53 0000 tsr ERROR Spider error processing

python Scrapy

Python Scrapy并不总是从网站下载数据

Scrapy 用于解析 html 页面我的问题是为什么有时scrapy返回我想要的响应但有时不返回响应是我的错吗这是我的解析函数 class AmazonSpider BaseSpider name amazon allowed d

python request response Scrapy sites

强制我的 scrapy 蜘蛛停止爬行

当特定条件为 true 时例如 scrap item id predefine value 是否有机会停止抓取我的问题类似于Scrapy 如何识别已经抓取的网址 https stackoverflow com questions 387

python Scrapy

Scrapy FormRequest 登录不起作用

我正在尝试使用 Scrapy 登录但收到大量重定向 302 消息当我使用真实登录信息以及虚假登录信息时就会发生这种情况我也尝试过另一个网站但仍然没有成功 import scrapy from scrapy http import

python webscraping Scrapy

Scrapy 通过表单身份验证绕过警报消息

Scrapy是否可以抓取警报消息链接例如 http 域名 admin http domainhere admin 一旦加载到实际的浏览器中就会出现一条带有表单的警报消息以填写用户名和密码或者有没有办法检查警报消息中的表单以了解要填写

python webscraping Scrapy webcrawler

scrapy单个蜘蛛将多个项目类传递到管道

我是 scrapy 新手在 items py 中我声明了 2 个 ItemClass 分别称为 ItemClass1 和 ItemClass2 蜘蛛方法 parseUrl 获取 html 并抓取数据并将其放入相应项目类的列表中 e g

Scrapy

动态更改IP地址？

考虑一下这个案例我想经常抓取网站但有一天限制后我的IP地址被阻止了那么如何动态更改我的IP地址或任何其他想法一种方法使用Scrapy http scrapy org 将使用两个组件 RandomProxy and RotateU

webscraping ip webcrawler Scrapy dynamicip

使用Selenium + Scrapy

我正在尝试将 scrapy 与 selenium 结合使用以便能够与 javascript 交互并且仍然拥有 scrapy 提供的强大的抓取框架我写了一个访问的脚本http www iens nl http www iens nl 在

javascript python selenium Scrapy

如何在一定数量的请求后停止 scrapy 蜘蛛？

我正在开发一个简单的抓取工具来获取 9 个搞笑帖子及其图像但由于一些技术困难我无法停止刮刀它会继续刮这是我不想要的我想增加计数器值并在 100 个帖子后停止但是 9gag 页面的设计方式是在每次响应中只提供 10 个帖子每次迭代

python python27 loops python3x Scrapy

scrapy：例外。AttributeError：“unicode”对象没有属性“dont_filter”

在 scrapy 中我收到错误exceptions AttributeError unicode object has no attribute dont filter 经过一番搜索后我发现this https stackoverflo

python Scrapy

如何提高Scrapy爬取速度？

我正在使用 Scrapy 抓取网站并将数据提取到 json 文件但我发现对于某些网站抓取工具需要很长时间才能抓取完整的网站我的问题是如何才能最大限度地减少爬行所需的时间尝试调整CONCURRENT ITEMS CONCURRENT

python Scrapy