将 celery 任务结果链接到通讯组中

2024-04-15

Like in 这另一个问题 https://stackoverflow.com/questions/13271056/how-to-chain-a-celery-task-that-returns-a-list-into-a-group，我想从 celery 任务返回的列表创建一个 celery 组。这个想法是，第一个任务将返回一个列表，第二个任务将该列表分解为列表中每个项目的并发任务。

计划是在下载内容时使用它。第一个任务从网站获取链接，第二个任务是下载页面、处理页面，然后将其上传到 s3 的链。最后，一旦所有子页面完成，该网站就会在我们的数据库中标记为已完成。就像是：

chain(
    get_links_from_website.si('https://www.google.com'),
    dmap.s(  # <-- Distributed map
        download_sub_page.s() | 
        process_sub_page.s() | 
        upload_sub_page_to_s3.s()
    ),
    mark_website_done.s()
)

到目前为止我看到的解决方案似乎在这方面做得足够好，但是当第二个任务是一个链时，由于以下问题而失败clone不进行深层复制（请参阅对此答案的评论 https://stackoverflow.com/q/13271056/64911详情）：

@task
def dmap(it, callback):
    # Map a callback over an iterator and return as a group
    callback = subtask(callback)
    return group(callback.clone([arg,]) for arg in it)()

它还存在一个问题，如果迭代的长度为 10,000 个项目，它将创建一个包含 10,000 个项目的组。正如您可以想象的那样，这会增加我们的内存使用量。

所以，我正在寻找一种方法dmap that:

不会通过创建巨大的组来耗尽 RAM（也许有一种方法可以对可迭代对象进行分块？）
适用于 celery 链，没有深度复制问题。

芹菜画布提供chunks https://celery.readthedocs.io/en/latest/userguide/canvas.html#chunks将任务分成块。不幸的是，这不适用于链、组等原语。

您可以使用 celery 信号来防止 dmap/clone 出现问题。

ch = chain(
    download_sub_page.s(),
    process_sub_page.s(),
    upload_sub_page.s(),
)

@task_success.connect(sender='get_links_from_website')
def task_success_handler(sender=None, headers=None, body=None, **kwargs):
    result = kwargs['result']    
    header = [ch(i) for i in result]
    callback = mark_website_done.si()
    chord(header)(callback)

创建一个用于处理页面的链，并使用弦将最后一个任务挂接到它。每当get_links_from_website运行成功。

根据链所花费的时间，您还可以保存结果get_links_from_website某处。然后迭代一批它们以对链进行排队，并且对于最后一批，您可以将回调挂钩到最后一个任务。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 celery 任务结果链接到通讯组中的相关文章

Django 中的 Rpy2 错误 - 未为“”类型的对象定义转换“py2rpy”

我以前从未使用过 R 并且正在尝试使用 rpy2 从 python 调用 R 函数它可以在独立的 python 终端上运行但不能在 Django 中运行但rpy2似乎无法将python字符串转换为r对象我正在使用同事提供的自定义库
使用 OpenCV 和/或 Numpy 对两个图像进行 Alpha 混合 [重复]

这个问题在这里已经有答案了我想将一个填充纯色的半透明矩形添加到已加载的半透明 PNG 中这是我正在使用的输入图像示例该图像加载了标准cv2 IMREAD UNCHANGED标志以便完美保留 alpha 通道该输入图像存储在imag
在 pandas 中单独打印一列的原始值？

我有一个数据框 df pd DataFrame name george age 23 name anna age 26 现在我想检索乔治的年龄 df df name george age 但这会输出一些额外的信息以及原始值 0 23 Nam
以矢量化方式在另一个 DataFrame 中查找包含值子集的行

如何匹配此 DataFrame 中的值source car id lat lon 0 100 10 0 15 0 1 100 12 0 10 0 2 100 09 0 08 0 3 110 23 0 12 0 4 110 18 0 32 0
最小二乘法拟合直线 python 代码

我有一个由 X 和 Y 坐标组成的散点图我想使用直线的最小二乘拟合来获得最佳拟合线直线最小二乘拟合是指如果 x 1 y 1 x n y n 是测量数据对则最佳直线是y A Bx 这是我的Python代码 number of poin
正则表达式，选择最接近的匹配

假设以下单词序列 BLA text text text text text text BLA text text text text LOOK text text text BLA text text BLA 我想做的是将 BLA 中的文本
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
Paramiko SSHException 通道已关闭

我一直在使用 Paramiko 在 Linux Windows 机器上发送命令它可以很好地在 Ubuntu 机器上远程执行测试但是它不适用于 Windows 7 主机以下是我收到的错误 def unit for event self
numpy：大量线段/点的快速规则间隔平均值

我沿着一维线有许多约 100 万个不规则间隔的点 P 这些标记线段这样如果点是 0 x a x b x c x d 则线段从 0 gt x a x a gt x b x b gt x c x c gt x d 等我还有每个段的 y
reStructuredText：README.rst 未在 PyPI 上解析

我有一个托管在 Github 和 PyPI 上的 Python 项目在 Github 上 https github com sloria TextBlob blob master README rst https github com s
返回上个月的日期时间对象

如果 timedelta 在它的构造函数中有一个月份参数就好了那么最简单的方法是什么 EDIT 正如下面指出的那样我并没有认真考虑这一点我真正想要的是上个月的任何一天因为最终我只会获取年份和月份因此给定一个日期时间对象返回的最
如何将类添加到 LinkML 中的 SchemaDefinition？

中的图表https linkml io linkml model docs SchemaDefinition https linkml io linkml model docs SchemaDefinition and https link
在谷歌云上训练神经网络时出现“无法获取路径的文件系统”错误

我正在使用 Google Cloud 在云上训练神经网络如下例所示 https cloud google com blog big data 2016 12 how to classify images with tensorflow u
如何正确导入主代码和模块中同时使用的模块？

假设我有一个主脚本 main py 它导入另一个 python 文件import coolfunctions另一个 import chores 现在假设 Coolfunctions 也使用家务活中的东西因此我声明import chore
Selenium 不会在新选项卡中打开新 URL（Python 和 Chrome）

我想使用 Selenium WebDriver 和 Python 在不同的选项卡中打开相当多的 URL 我不确定出了什么问题 driver webdriver Chrome driver get url1 time sleep 5 driv
线性同余生成器 - 如何选择种子和统计检验

我需要做一个线性同余生成器它将成功通过所选的统计测试我的问题是如何正确选择发电机的数字以及我应该选择哪些统计检验我想均匀性的卡方频率测试每代收集10 000个号码的方法将 0 1 细分为10个相等的细分柯尔莫哥洛夫斯米尔
在 Python 中访问 argparse 的参数值

我正在尝试为我的程序设置一些简单的标志参数但无法弄清楚如何访问它们我有 argparser parser argparse ArgumentParser description Simple PostScript Interpreter
更新 SQLAlchemy 中的特定行

我将 SQLAlchemy 与 python 一起使用我想更新表中等于此查询的特定行 UPDATE User SET name user WHERE id 3 我通过 sql alchemy 编写了这段代码但它不起作用 session
沿轴 0 重复 scipy csr 稀疏矩阵

我想重复 scipy csr 稀疏矩阵的行但是当我尝试调用 numpy 的重复方法时它只是将稀疏矩阵视为对象并且只会将其作为 ndarray 中的对象重复我浏览了文档但找不到任何实用程序来重复 scipy csr 稀疏矩阵的行我
如何使用 Pandas Series 绘制两个不同长度/开始日期的时间序列？

我正在绘制每周总事件的几个熊猫系列对象系列中的数据events per week看起来像这样 Datetime 1995 10 09 45 1995 10 16 63 1995 10 23 83 1995 10 30 91 1995

随机推荐

UIMenuController 在 iOS 13.2 中不可见

我有长按处理程序显示UIMenuController 它在 private func longPressHandler sender UILongPressGestureRecognizer guard sender state began
HMM 如何用于手写识别？

这个问题与传统的手写识别有点不同我有一个包含数千个以下内容的数据集对于一个绘制的角色我有几个连续的 x y 按下笔的坐标所以这是一个顺序时间问题我希望能够根据这些数据对手写字符进行分类并且希望实现 HMM 来实现学习目的
Dapper 是否支持在单个查询中插入多行？

Does StackExchange Dapper https github com StackExchange Dapper支持以下SQL语法吗 INSERT INTO MyTable a b c VALUES 1 2 3 4 5 6 7
在 Visual Studio 2013 中禁用 git

我有一个由 tfs 管理的存储库然而在本地我想通过 git 管理它并将更改推送到 tfs 一旦我在团队资源管理器中创建 git 存储库 VS2013 就会显示该解决方案仅由 git 管理如果我尝试编辑任何文件它会抱怨该文件是只读的
如何通过php按修改日期对文件进行排序

背景我有一个匿名登录 ftp 服务器 ftp nlist 仅按字母顺序列出文件我想根据上次修改日期获取文件列表最近的在前我尝试了 ftp exec conn ls t 但出现了权限被拒绝错误不知道为什么它不起作用好吧我正在
使用 Plot 的线图重叠

我有以下用于图表的选项 div div
通过浏览器使用 PDO 将 MySQL 表中的数据存储为 CSV

我有一个将数据写入 MySQL 数据库的表单我希望用户能够下载他们的数据CSV最终提交后的格式我的代码当前正在将数据库的内容转储到浏览器中即它被写入页面而不是写入 csv 文件我想将他们发送到一个链接并提供下载文件的选项这是我当
从互联网读取数据

我在网络服务器上有一个包含数据的远程文件夹我使用以下方式访问数据 myData lt read table http myData csv sep header T 有没有办法对远程文件夹进行密码保护并在上述命令中输入授权 Thx 你可以
使用不受支持的 WebKit 属性会产生什么影响？

我有兴趣使用 webkit line clamp在混合 iOS 应用程序中我已阅读苹果文档 https developer apple com library safari documentation AppleApplications
合并时忽略文件/文件夹

我目前正在使用 SVN 对我的软件项目进行版本控制在一个正在进行的项目中我有用于客户通用功能和规范的主干以及用于客户特定功能和规范的分支有什么方法可以标记一些文件文件夹这些文件文件夹不应在每次执行此类操作时合并到分支中我没有
Python 在调用之前修饰函数

我有一个由其他人编写的相当复杂的装饰器我想做的是根据决定一次调用该函数的修饰版本或者另一次调用原始函数未修饰这可能吗 With decorator original function Without original functio
如果输入等于字符串，则执行某些操作... python 2.7 [重复]

这个问题在这里已经有答案了使用以下代码时遇到问题 start over 1 question input Do you wish to try again y n if question y start over 1 else raise
如何使用 xsmtp-api 和 php 库向 SendGrid 中的电子邮件主题添加替换标签

我正在尝试在电子邮件的主题中设置我的客户的姓名这对我的申请非常重要从我在SendGrid API 文档 http sendgrid com docs API Reference SMTP API substitution tags ht
将 JComboBox 放入 JTable 中

我想将单独的 JComboBox 放入 JTable 的每个单元格中 IE 每个单元格的 JComboBox 内容都不相同我基本上希望能够调用以下代码来将一行 JComboBox 添加到 JTable 中有人有什么想法吗谢谢 JCom
如何在移动滑块时锁定页面滚动

在 Flutter 中我有一个应用程序在自定义 ListView 小部件内有一个自定义滑块唯一的问题是当您移动滑块手柄从左到右时由于 ListView 页面仍然会滚动向上和向下而我需要页面锁定到位直到用户停止移动滑块我
读取 NTFS 格式的 MFT

在网上寻找如何读写 MFT 的解释时我发现了以下部分 http www installsetupconfig com win32programming 1996 20AppE apnilife pdf http www installs
将 nl2br 与 html 标签一起使用

I use nl2br当显示保存在某处的一些信息时但是当使用 HTML 标签时我不想添加 br 他们的标签例如如果我使用 table th th table 它将被转换为 table br th th br table br 这为这张
n 层架构 - BLL、DAL 和接口。什么是最佳实践？

我有一个关于 n 层架构的问题在问这个问题之前我想了很久因为这里已经有很多类似的问题了但是在看了一天半并阅读了其他答案之后我仍然不确定各种看似相似的术语和不同的方法让我感到困惑如果我在不同的类库中有一个 BLL 和一个 DA
购物车 API V3：无法为具有选项的产品创建购物车

当我创建一个包含没有选项的产品的购物车时一切正常但如果任何产品有产品选项则它不起作用这里我得到了产品选项它有一个 id 21 的选项当我在创建 API 时使用此选项 id 时它不起作用如果您要将产品添加到购物车并且该产品具
将 celery 任务结果链接到通讯组中

Like in 这另一个问题 https stackoverflow com questions 13271056 how to chain a celery task that returns a list into a group 我想

将 celery 任务结果链接到通讯组中

将 celery 任务结果链接到通讯组中 的相关文章

随机推荐

热门标签

将 celery 任务结果链接到通讯组中的相关文章