如何在 Scrapy/Twisted 中使用线程，即如何在响应回调中对阻塞代码进行异步调用？

2024-04-26

我需要在Scrapy中运行一些多线程\多处理工作（因为我有一些使用阻塞调用的库），并在完成后将请求放回Scrapy引擎。

我需要这样的东西：

def blocking_call(self, html):
    # ....
    # do some work in blocking call
    return Request(url)

def parse(self, response):
    return self.blocking_call(response.body)

我怎样才能做到这一点？我想我应该使用 Twistedreactor 和 Deferred 对象。但是 Scrapyparse回调必须仅返回None or Request or BaseItem object.

根据@Jean-Paul Calderone 的回答，我做了一些调查和测试，以下是我发现的内容。

scrapy内部使用Twisted https://twistedmatrix.com/trac/用于管理请求/响应同步和异步调用的框架。

Scrapy 产生requests（爬行）在async方式，但处理回应（我们的自定义解析回调函数）已完成同步。所以如果你在回调中有阻塞调用，它会阻塞整个引擎.

希望这可以改变。加工时Deferred https://twistedmatrix.com/documents/14.0.1/core/howto/gendefer.html#what-deferreds-don-t-do-make-your-code-asynchronous响应回调结果，Twisted处理案例（twisted.internet.defer.延迟源） https://twistedmatrix.com/trac/browser/trunk/twisted/internet/defer.py#L603 if Deferred对象返回其他Deferred目的。在这种情况下，Twisted 会产生新的异步调用。

基本上，如果我们回来Deferred https://twistedmatrix.com/documents/14.0.1/core/howto/gendefer.html#what-deferreds-don-t-do-make-your-code-asynchronous来自我们的响应回调的对象，这将改变响应回调调用的性质从同步到异步。为此我们可以使用方法推迟到线程 https://twistedmatrix.com/documents/14.0.1/core/howto/gendefer.html#integrating-blocking-code-with-twisted ( 内部调用 https://twistedmatrix.com/trac/browser/trunk/twisted/internet/threads.py#L58 deferToThreadPool(reactor, reactor.getThreadPool()...- 用于@Jean-Paul Calderone 代码示例）。

工作代码示例是：

from twisted.internet.threads import deferToThread
from twisted.internet import reactor

class SpiderWithBlocking(...):
    ...
    def parse(self, response):
        return deferToThread(reactor, self.blocking_call, response.body)

    def blocking_call(self, html):
        # ....
        # do some work in blocking call
        return Request(url)

此外，只有回调可以返回 Deferred 对象，但是start_requests不能（抓取逻辑）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Scrapy/Twisted 中使用线程，即如何在响应回调中对阻塞代码进行异步调用？的相关文章

Celery计划任务中的打印语句不会出现在终端中

当我跑步时celery A tasks2 celery worker B我想看到每秒打印芹菜任务目前没有打印任何内容为什么这不起作用 from app import app from celery import Celery from
Pyenv 无法在 Cygwin 上安装 python: ModuleNotFoundError: No module named '_ctypes'

我正在尝试设置 Cygwin 环境以使用 pyenv 来管理 python 版本我没有管理员权限所以我使用以下命令运行设置 no admin flag 我使用 Cygwin 包管理器应用程序解决了一些依赖关系但我被困在了这一点上 Mo
将打开关闭的 Google Chrome 浏览器添加到 Selenium linkedin_scraper 代码中

我正在尝试抓取一些知名人士的 LinkedIn 个人资料该代码获取一堆 LinkedIn 个人资料 URL 然后使用Selenium and scrape linkedin收集信息并将其作为 json 文件保存到文件夹中我遇到的问题是
我怎样才能在python cgi中找到上传的文件名

我制作了如下简单的网络服务器 import BaseHTTPServer os cgi import cgitb cgitb enable html
Django 如何从 ManyToManyField 序列化并列出全部

我正在使用 Django 1 9 1 开发移动应用程序后端我实现了关注者模型现在我想列出用户的所有关注者但目前我不得不这样做我还使用 Django Rest 框架这是我的 UserProfile 模型 class UserProf
理解@property装饰器和继承[重复]

这个问题在这里已经有答案了这里是 Python 3 以防万一它很重要我试图正确理解如何实现继承 property使用我已经搜索了 StackOverflow 并阅读了大约 20 个类似的问题但无济于事因为他们试图解决的问题略有不同
Selenium Webdriver - Python - leboncoin - pb 选择带重音的按钮

我正在尝试在以下网站上自动填写表格 https www leboncoin fr https www leboncoin fr 我用 Selenium IDE 录制了一个脚本我有一个通过单击 Se 连接器按钮并填写我的密码和用户名来自动
Java - 同步方法导致程序大幅减慢

我正在尝试了解线程和同步我做了这个测试程序 public class Test static List
当 DetailView 遇到时更新模型字段。 [姜戈]

我有一个类似的 DetailViewviews py views py class CustomView DetailView context object name content model models AppModel templa
如何使用python读取最后一行的特定位置

我有一个太大的 txt 文件并且有几行类似的行如下所示字1 字2 字3 字4 553 75 我对位置 4 值感兴趣即最后一行 553 75 我的文件文本 word1 word2 word3 word4 553 20 word1 w
如何使用 jira-python 设置 fixVersions 字段

我正在尝试使用 jira python 模块 http jira python readthedocs org en latest 更新现有的 JIRA 具体来说我正在尝试设置问题的fixesVersion 列表我已经尝试了一段时间但没
如何使用 msgpack 进行读写？

如何序列化反序列化字典data with msgpack http msgpack org The Python 文档 http msgpack python readthedocs io en latest badge latest似乎
单线程公寓问题

从我的主窗体中我调用以下命令来打开一个新窗体 MyForm sth new MyForm sth show 一切都很好但是这个表单有一个组合框当我将其 AutoCompleteMode 切换为建议和追加时我在显示表单时遇到了这个异常
如何从数据框的单元格中获取值？

我构建了一个条件从我的数据框中提取一行 d2 df df l ext l ext df item item df wn wn df wd 1 现在我想从特定列中获取一个值 val d2 col name 但结果我得到一个包含一行和一列
使用python中的mysql连接器正确从mysql数据库获取blob

当执行以下代码时 import mysql connector connection mysql connector connect connection params here cursor connection cursor curso
x11 - 导入错误：没有名为“kivy.core.window.window_x11”的模块

目前我正在尝试构建一个我通过 buildozer 用 Python 和 Kivy 编写的应用程序无论我在做什么我都会遇到 window x11 的问题即使我在代码中注释掉所有与 Windows 相关的内容或执行本文中描述的所有操作这
从 csv 中读取 pandas 数据帧，以非固定标头开始

我有许多数据文件是由我的实验室中使用的一些相当黑客的脚本生成的该脚本非常有趣因为它在标头之前附加的行数因文件而异尽管它们具有相同的格式并具有相同的标头我正在编写一个批处理来将所有这些文件处理为数据帧如果我不知道位置如何让 pan
从 Python 中编译的正则表达式中提取命名组正则表达式模式

我有一个 Python 正则表达式其中包含多个命名组但是如果先前的组已匹配则可能会错过与一组匹配的模式因为似乎不允许重叠举个例子 import re myText sgasgAAAaoasgosaegnsBBBausgisego
Jupyter Notebook 中的多处理与线程

我试图测试这个例子here https ipywidgets readthedocs io en stable examples Widget 20Asynchronous html将其从线程更改为多处理在 jupyter Noteboo
Shap - 颜色条不显示在摘要图中

显示summary plot时不显示颜色条 shap summary plot shap values X train 我尝试过改变plot size 当绘图较高时会出现颜色条但它非常小看起来不应该 shap summary plo

随机推荐

当更新可用时，手动安装的 apk（不是从 Play 商店）会收到通知吗？

我想在平板电脑上安装 apk 知道怎么做我的平板电脑会收到来自 Play 商店的通知吗该更新已在 Play 商店中准备就绪我应该安装它吗仅当满足以下两个条件时您才会收到更新在 Google Play 已安装的应用程序选项卡中看
Flash 影片的 Div Z-Index 问题

我有两个简单的 HTML div 一个包含 flash 电影另一个 div 包含简单文本现在我的问题是我必须将文本 div 放到 flash 电影 div 上我正在做的是将两个 div 的位置设置为 CSS 中的 Absolute 并
如何为 SonarQube 扫描配置 Jenkins 管道

我正在尝试为我的项目配置詹金斯管道但这里缺少一些东西如果有人可以指出我做错了什么下面是管道脚本 node stage SonarQube analysis requires SonarQube Scanner 2 8 def scan
协议缓冲区和 UTF-8

编码方案多操作系统和 Endian nes 的历史导致了对所有形式的字符串数据即所有字母表进行编码方面的混乱因此协议缓冲区仅处理其字符串类型中的 ASCII 或 UTF 8 并且我看不到任何接受 C wstring 的多态重载那
出现错误：User 类型的对象在 django python 中不可 JSON 序列化

我是 django python 的新手当我尝试从 3 个表获取数据时出现错误Object of type User is not JSON serializable 任何人都可以帮我解释为什么我会收到此错误吗在这里我添加了我的vie
关于指针的c/c++问题（双指针）

自从我学习 c 和 c 课程以来已经有一段时间了我对 c 指针很好奇我将在我的示例中使用 new 关键字即使我知道 malloc 是 C 方式我总是记得我的老师总是强迫我们使用指针她永远不会接受数组的作业她向我们证明当您使用指
使用页内 JSON 初始化 AngularJS $resource

我正在使用 AngularJS 的 resource 来获取和更新对象为了节省页面加载时的往返我将 JSON 对象放在页面上的变量中如何使用此数据初始化 resource 而不是调用 get 您可以使用new创建使用以下命令创建的资源
在 asp.net mvc url 中格式化查询字符串的最佳方法？

我注意到如果您通过 asp net mvc 发送查询字符串路由值您最终会将所有空格编码为 20 因为我希望将空格转换为号所以覆盖此格式的最佳方法是什么我正在考虑也许使用自定义 Route 对象或派生自 IRouteHandler
设计具有多个 id 的 RESTful 服务

我正在设计一个 RESTful 服务就是列出一组数据主要问题是该集合没有合理的单一标识符在系统的知识范围内也不能轻易地计算出特定的集合因此似乎不可能有 GET items identifier 服务我确实有所请求的每个元素的 i
融合表查询

我有一个非常大的融合表现在我想根据用户需求进行查询我的用户界面应该有一个下拉框来选择列的名称另一个下拉框用于选择查询条件 gt user1225902 您需要在页面加载期间调用onLoad函数我有同样的问题
休息。球衣。如何以编程方式选择返回类型：JSON 或 XML？

我有两个问题 1 我可以创建吗one类使用 JAXB 注释对其进行注释用于 XML 支持并在中声明web xml
为什么 Visual Studio 2008 中删除了在新 ATL 项目中使用属性的选项？

这是来自 MSDN 评论的文本根据 ATL Internals 2ed 一书属性的使用已被弃用不应在新的 ATL 项目中使用但为什么在 ATL 中这些属性是编译器的技巧它们不像 C 中的属性那样是平台的核心部分它们的调试也比
如何循环线程句柄并在完成后加入另一个循环？

我有一个程序它在循环中创建线程并检查它们是否已完成并清理它们如果已完成请参阅下面的最小示例 use std thread fn main let mut v Vec
使用比较器对映射进行排序

我想Comparator实现排序TreeMap按照顺序 final String sequence People Object Environment Message Service Comparator
AT 命令 PHP

我想使用 GSM 调制解调器从 php 发送消息我已经配置了调制解调器并使用超级终端对其进行了测试现在我想使用php执行AT命令是否有可用的开源库或其他解决方案由于我的 php 应用程序托管在 Apache Web 服务器上因此我
网页配置。使用规则元素将所有流量重定向到 www.my...。

我有一个 web config 文件它自动将流量发送到 HTTPS 但是如果有人进入 MyDomain com 那么它将转到https mydomain com https mydomain com如果有人输入 www mydomain
Android - 检查数组中是否存在某个值

我有一个名为 bob 的数组其中包含值 String bob this is a really silly list 我如何知道名为 bob 的数组中是否存在愚蠢值而不迭代它您可以使用List contains http docs
在 VS Code 中折叠一行时，是否可以覆盖缩进并选择该折叠中包含哪些行？

是否可以自定义 Visual Studio Code 中代码折叠的工作方式我使用一种通用模式来定义各种不同文档类型的代码区域因此对于 XML 我将文本部分包裹起来 and 对于 c 我使用 region to endregion 对于
如何在C#中捕获键盘上的按键

我有个问题我需要写一个C 程序输入允许用户输入多行文本按 Ctrl Enter 完成输入输出标准化按照时间增加的正确顺序重新排列行我尝试过但我不知道如何从键盘捕获 Ctrl Enter 我期望输出像例子 Created
如何在 Scrapy/Twisted 中使用线程，即如何在响应回调中对阻塞代码进行异步调用？

我需要在Scrapy中运行一些多线程多处理工作因为我有一些使用阻塞调用的库并在完成后将请求放回Scrapy引擎我需要这样的东西 def blocking call self html do some work in blocking

如何在 Scrapy/Twisted 中使用线程，即如何在响应回调中对阻塞代码进行异步调用？

如何在 Scrapy/Twisted 中使用线程，即如何在响应回调中对阻塞代码进行异步调用？ 的相关文章

随机推荐

热门标签

如何在 Scrapy/Twisted 中使用线程，即如何在响应回调中对阻塞代码进行异步调用？的相关文章