Python 多处理池突然停止

2023-12-29

我正在尝试根据我的要求执行并行处理，并且代码似乎可以按预期并行处理 4k-5k 元素。但是，一旦要处理的元素开始增加，代码就会处理一些列表，然后在没有抛出任何错误的情况下，程序突然停止运行。

我检查过，程序没有挂起，RAM 可用（我有 16 Gb RAM），CPU 利用率甚至不到 30%。似乎无法弄清楚发生了什么。我有 100 万个元素需要处理。

def get_items_to_download():
    #iterator to fetch all items that are to be downloaded
    yield download_item

def start_download_process():
    multiproc_pool = multiprocessing.Pool(processes=10)
    for download_item in get_items_to_download():
        multiproc_pool.apply_async(start_processing, args = (download_item, ), callback = results_callback)
    
    multiproc_pool.close()
    multiproc_pool.join()

def start_processing(download_item):
    try:
        # Code to download item from web API
        # Code to perform some processing on the data
        # Code to update data into database
        return True
    except Exception as e:
        return False

def results_callback(result):
    print(result)

if __name__ == "__main__":
    start_download_process()

UPDATE -

发现错误 - BrokenPipeError: [Errno 32] Broken pipeline

Trace -

Traceback (most recent call last):
File "/usr/lib/python3.6/multiprocessing/pool.py", line 125, in worker
put((job, i, result))
File "/usr/lib/python3.6/multiprocessing/queues.py", line 347, in put
self._writer.send_bytes(obj)
File "/usr/lib/python3.6/multiprocessing/connection.py", line 200, in send_bytes
self._send_bytes(m[offset:offset + size])
File "/usr/lib/python3.6/multiprocessing/connection.py", line 404, in _send_bytes
self._send(header + buf)
File "/usr/lib/python3.6/multiprocessing/connection.py", line 368, in _send
n = write(self._handle, buf)
BrokenPipeError: [Errno 32] Broken pipe

代码看起来是正确的。我唯一能想到的是你的所有进程都挂起等待完成。这里有一个建议：而不是使用提供的回调机制apply_async，使用AsyncResult返回的对象以从进程获取返回值。您可以致电get在此对象上指定一个超时值（下面任意指定 30 秒，可能不够长）。如果任务在这段时间内没有完成，则会抛出超时异常（如果您愿意，您可以捕获它）。但这将检验进程挂起的假设。只需确保指定足够大的超时值，以便任务应在该时间段内完成。我还将任务提交分成了1000个批次，并不是因为我认为1,000,000个的大小是一个问题per se，但只是为了让您没有 1,000,000 个结果对象的列表。但是，如果您发现不再因此而挂起，请尝试增加批处理大小，看看是否确实会产生影响。

import multiprocessing

def get_items_to_download():
    #iterator to fetch all items that are to be downloaded
    yield download_item

BATCH_SIZE = 1000

def start_download_process():
    with multiprocessing.Pool(processes=10) as multiproc_pool:
        results = []
        for download_item in get_items_to_download():
            results.append(multiproc_pool.apply_async(start_processing, args = (download_item, )))
            if len(results) == BATCH_SIZE:
                process_results(results)
                results = []
        if len(results):
            process_results(results)
    

def start_processing(download_item):
    try:
        # Code to download item from web API
        # Code to perform some processing on the data
        # Code to update data into database
        return True
    except Exception as e:
        return False

TIMEOUT_VALUE = 30 # or some suitable value

def process_results(results):
    for result in results:
        return_value = result.get(TIMEOUT_VALUE) # will cause an exception if process is hanging
        print(return_value)

if __name__ == "__main__":
    start_download_process()

Update

根据谷歌搜索多个页面来查找损坏的管道错误，您的错误似乎可能是内存耗尽的结果。看Python 多处理：增加池大小后出现损坏的管道异常 https://stackoverflow.com/questions/45230593/python-multiprocessing-broken-pipe-exception-after-increasing-pool-size，例如。以下返工attempts使用更少的内存。如果有效，您可以尝试增加批量大小：

import multiprocessing


BATCH_SIZE = 1000
POOL_SIZE = 10


def get_items_to_download():
    #iterator to fetch all items that are to be downloaded
    yield download_item


def start_download_process():
    with multiprocessing.Pool(processes=POOL_SIZE) as multiproc_pool:
        items = []
        for download_item in get_items_to_download():
            items.append(download_item)
            if len(items) == BATCH_SIZE:
                process_items(multiproc_pool, items)
                items = []
        if len(items):
            process_items(multiproc_pool, items)


def start_processing(download_item):
    try:
        # Code to download item from web API
        # Code to perform some processing on the data
        # Code to update data into database
        return True
    except Exception as e:
        return False


def compute_chunksize(iterable_size):
    if iterable_size == 0:
        return 0
    chunksize, extra = divmod(iterable_size, POOL_SIZE * 4)
    if extra:
        chunksize += 1
    return chunksize


def process_items(multiproc_pool, items):
    chunksize = compute_chunksize(len(items))
    # you must iterate the iterable returned:
    for return_value in multiproc_pool.imap(start_processing, items, chunksize):
        print(return_value)


if __name__ == "__main__":
    start_download_process()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 多处理池突然停止的相关文章

无法让gunicorn使用Python 3

我有 Ubuntu NGINX Gunicorn 以及可与 Python 3 设置配合使用的虚拟环境但我的 Flask 应用程序仍然以 2 7 6 运行我已系统地按照说明进行操作但找不到解决方案 Gunicorn 配置文件 progr
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
使用 os.write 打印字体图标

在 Windows 10 上使用 Python 3 8 3 我的终端使用nerdfont https github com ryanoasis nerd fonts tree master patched fonts Agave有图标的
Python中Decimal类型的澄清

每个人都知道或者至少每个程序员都应该知道 http docs oracle com cd E19957 01 806 3568 ncg goldberg html 即使用float类型可能会导致精度错误然而在某些情况下精确的解决方
在flatpak项目中使用scrapy脚本

我正在构建一个 flatpak 构建的项目我有一个按钮当单击它时我希望它运行 scrapy 脚本来抓取数据窗口用户界面
如何从Python中的字符串中提取变量名称和值

我有一根绳子 data var1 id 12345 name John White python中有没有办法将var1提取为python变量更具体地说我对字典变量感兴趣这样我就可以获得变量的值 id和name python 这是由提供
Tensorflow-GPU安装导入错误：DLL加载失败：找不到指定的模块

好吧我知道这可能已经回答了问题但我已经尝试了 stackoverflow 上建议的几乎所有技巧来安装 tensorflow gpu 并在官方文档上建议但没有运气我遇到了同样的错误首先我尝试过this https towardsda
如何在Python中同时运行两只乌龟？

我试图让两只乌龟一起移动而不是一只接着另一只移动例如 a turtle Turtle b turtle Turtle a forward 100 b forward 100 但这只能让他们一前一后地移动有没有办法让它们同时移动有没有
python中的[][]（双方括号运算符）运算符是什么？

我是 python 新手我一直在寻找分配变量时进行三元运算的正确方法我发现有人在堆栈溢出上发表了一个帖子提出了这样的建议 var smaller bigger 7 gt 1 其中左边的值为 False 右边的值为 True 我运行它并
pytesseract 无法从图像中识别复杂的数学公式

我在用pytesseractpython 中的模块 pytesseract从图像中识别文本但它不适用于包含复杂数学公式例如根推导积分数学问题或方程的图像代码2 py Import modules from PIL import
如何使用 open with 语句打开文件

我正在研究如何在 Python 中进行文件输入和输出我编写了以下代码将一个文件中的名称列表每行一个读取到另一个文件中同时根据文件中的名称检查名称并将文本附加到文件中出现的位置该代码有效可以做得更好吗我想用with open
如何修复下载 spacy 模型的“无效语法”

我尝试在 Jupyter 笔记本上下载 spacy 模型但它打印出无效语法 python m spacy download en core web sm 有什么解决方案可以帮助我成功下载模型吗为了将来帮助某人对我来说这个问题是因为
测试从常规函数调用 python 协程（async def）

假设我有一些异步协程它可以获取一些数据并返回它像这样 async def fetch data args result await some io return result 基本上这个协程是从协程链中调用的初始协程是通过创建任务来
基于坐标合并数据框

我有两个数据框两个数据框都包含经度和纬度列我想根据经度和纬度列合并这两个数据框首先我应用了普通merge函数它产生空的结果数据框我调查发现两个数据框没有相同的经度和纬度列然后我尝试了另一个函数merge asof并将方向设置为
Python - UnicodeDecodeError：“charmap”编解码器无法解码位置 44 中的字节 0x81：字符映射到 <未定义>

在 Python 3 Jupyter 笔记本上使用 pandas 我得到了 UnicodeDecodeError charmap 编解码器无法解码字节 0x81 位置 44 字符映射到尝试读取如下所示的 json 文件时出错 Test1
ImportError：没有名为 Transport 的模块（Paramiko，Python 3.2.5）

我安装了 PyCrypto 和 Paramiko 在各自的目录中 python3 setup py install 并且两者都安装成功然而当我尝试 import paramiko 在 3 2 5 解释器中我收到此错误 Tracebac
如何使用 Python 3 绕过 HTTP Error 403: Forbidden with urllib.request

您好不是每次都这样但有时在尝试访问 LSE 代码时我会收到每一个烦人的 HTTP 错误 403 禁止消息任何人都知道我如何仅使用标准 python 模块来克服这个问题遗憾的是没有漂亮的汤 import urllib request
IndexError：索引 10 超出尺寸为 10 的轴 0 的范围

我正在以数字方式为 x 网格和 x 向量以及时间网格设置网格但我再次设置了一个数组x 位置只能在 0 到 20 之间并且t 时间将从 0 到 1000 以便求解热方程但每次我想要例如我将步数设置为 10 时都会收到错误 Tra
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
使用另一个数据帧在数据帧中创建子列

我对 python 和 pandas 很陌生在这里我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf

随机推荐

Openshift 上的 WordPress 响应速度非常慢

我刚刚将我的 Wordpress 网站移至 OpenShift PAAS 生态系统上的可扩展 PHP 盒上但我立即注意到该网站的响应速度非常慢大约 3000 4000 毫秒但是当它开始响应时页面加载渲染速度绝对很快这是网址 h
onclick 事件不适用于选项

以下是我的代码在 Firefox 中运行良好但在 chrome 中则不行请让我知道如何解决这个问题主要思想是根据选择框的选定值调用js函数
如何以编程方式确定我的应用程序正在 iPhone、iPad 或 iPhone 4 上运行？

我刚刚使用 cocos2d 完成了我的 iPhone 游戏但在将其发布到 AppStore 之前我想让它在 iPad 屏幕更大和 iPhone 4 分辨率更大上运行那么我如何以编程方式确定我的应用程序正在 iPhone iPad
Rabbitmq：在无限循环中重新处理失败的消息

这是我的rabbitmq配置
如何在 ObservableCollection 上执行 foreach lambda 表达式？

我如何执行foreachObservableCollection 上的 lambda 表达式没有方法foreach与 ObservableCollection 一起使用尽管此方法与 List 一起存在有没有可用的扩展方法 BCL 中默
惰性初始状态 - 它是什么以及如何使用它？

我是新来反应 Hooks 的我正在尝试利用useState在我的代码中当我使用它时我发现了一个术语惰性初始状态 https reactjs org docs hooks reference html lazy initial sta
质数 JavaScript

有人可以指导我在这里获取素数吗这是家庭作业所以我不想要答案但如果有一些指示我将不胜感激这真的让我很烦我想我已经很接近了但我遇到的问题是 25 和 35 这些不是素数但这个函数正在返回它们 var getPrimeNumber
在本机应用程序中使用 Webrtc

我的问题是 1 是否可以在我的 Native App 中拥有一个 WebView 由 Native 框架提供实例并扩展它以支持 Webrtc 如果 1 为是则可能执行以下操作 1 在 Android 上构建 webrtc 2 在 A
Angular 2 和 Angularfire2 中的三向绑定

我正在尝试使用 AngularFire 2 2 0 0 beta 2 将输入元素三路绑定到 Angular js 2 2 0 0 rc 4 中的 firebase 数据库我有一个非常简单的 html 例如
安装 ruby 1.9.3 时遇到问题

我通过命令安装了 ruby 1 9 3rvm install 1 9 3在 mac 的终端上安装后我收到这些错误见下文有人有任何想法来解决这个问题吗运行 configure prefix Users Keta rvm rubies
Flutter pdf 生成图像速度太慢

我正在 flutter 中开发 pdf 生成器应用程序但是当我想向 pdf 添加图像时需要很长时间我也想知道如何添加多个图像我使用 3 个库图像选择器 pdf 打印这是我的代码 Future getImage async var
Caliburn Micro WPF 窗口管理

我想使用 caliburn micro 启动一个 WPF 应用程序这样我就可以尽可能地使用 TDD 我之前在 WP7 中使用过 caliburn micro 但 WPF 似乎是另一艘船并且文档不完整与 WP7 一样我已经用我的 Boo
是否可以在 Scala 解释器中定义伴随类/模块？

在 Scala 解释器中进行测试通常很方便然而我遇到的一个问题是我必须重构使用隐式转换的代码因为定义一个与现有类同名的对象does not使其成为 REPL 中的配套模块因此当我翻译回真实源代码时我不能确信我的代码仍然可以
临时和表达行为

这是明确定义的行为吗 const char p std string Hello std string World c str std cout lt lt p 我不知道原因不这是未定义的行为两个都std string临时对象和返回
Javascript 数组查找效率：关联与存储关联？

我一直在阅读他们说关联数组不会给你提供与数组相同的效率关联数组可以在 O N 时间内查找内容而数组可以在 O 1 时间内查找内容这是我的问题在快速查找值并且不占用太多内存方面哪一个更有效联想 var myVars new Ar
在 C# 中创建自定义 ODBC / OLE 驱动程序

有谁知道如何最好用 C 创建 ODBC 或 OLE 驱动程序我想要做的是创建一个可以在 Excel 和 Access 中使用的自定义数据源或者想出另一种方法来做到这一点吗预先感谢您的回复 C 中有一个 OLE DB 驱动程序的简化版本
根据行数调整 jqGrid 的大小？ - 网格高度？

我遇到了与帖子中详细说明的相同问题根据行数调整 jqGrid 的大小 https stackoverflow com questions 1972806 一些建议看起来完全合乎逻辑不起作用因为当我尝试使用以下命令获取网格的高度时var
Thymeleaf 注册页面 - 执行处理器“org.thymeleaf.spring4.processor.attr.SpringInputGeneralFieldAttrProcessor”期间出错

我正在为一个网站制作一个注册页面我知道为了创建新用户需要一个 id 所以我们有这个字段
mongodb 性能不佳

我目前正在使用 mongodb 并且我发现查询性能非常差可能需要几秒钟场景如下我有一个结构文件 id xxx userId yyy a 1 b 2 counter 1 在测试中 userId value could be 1 200
Python 多处理池突然停止

我正在尝试根据我的要求执行并行处理并且代码似乎可以按预期并行处理 4k 5k 元素但是一旦要处理的元素开始增加代码就会处理一些列表然后在没有抛出任何错误的情况下程序突然停止运行我检查过程序没有挂起 RAM 可用我有 16

Python 多处理池突然停止

Python 多处理池突然停止 的相关文章

随机推荐

热门标签

Python 多处理池突然停止的相关文章