OSError: [Errno 12] 使用 python 多处理池时无法分配内存

2024-02-24

我正在尝试使用 Python 将函数并行应用于 5 个交叉验证集multiprocessing并对不同的参数值重复此操作，如下所示：

import pandas as pd
import numpy as np
import multiprocessing as mp
from sklearn.model_selection import StratifiedKFold

#simulated datasets
X = pd.DataFrame(np.random.randint(2, size=(3348,868), dtype='int8'))
y = pd.Series(np.random.randint(2, size=3348, dtype='int64'))

#dummy function to apply
def _work(args):
    del(args)

for C in np.arange(0.0,2.0e-3,1.0e-6):
    splitter = StratifiedKFold(n_splits=5)
    with mp.Pool(processes=5) as pool:
        pool_results = \
            pool.map(
                func=_work,
                iterable=((C,X.iloc[train_index],X.iloc[test_index]) for train_index, test_index in splitter.split(X, y))
            )

但是执行到一半时出现以下错误：

Traceback (most recent call last):
  File "mre.py", line 19, in <module>
    with mp.Pool(processes=5) as pool:
  File "/usr/lib/python3.5/multiprocessing/context.py", line 118, in Pool
    context=self.get_context())
  File "/usr/lib/python3.5/multiprocessing/pool.py", line 168, in __init__
    self._repopulate_pool()
  File "/usr/lib/python3.5/multiprocessing/pool.py", line 233, in _repopulate_pool
    w.start()
  File "/usr/lib/python3.5/multiprocessing/process.py", line 105, in start
    self._popen = self._Popen(self)
  File "/usr/lib/python3.5/multiprocessing/context.py", line 267, in _Popen
    return Popen(process_obj)
  File "/usr/lib/python3.5/multiprocessing/popen_fork.py", line 20, in __init__
    self._launch(process_obj)
  File "/usr/lib/python3.5/multiprocessing/popen_fork.py", line 67, in _launch
    self.pid = os.fork()
OSError: [Errno 12] Cannot allocate memory

我在具有 32Gb 内存的 Ubuntu 16.04 上运行此程序，并检查htop在执行过程中它永远不会超过 18.5Gb，所以我不认为我的内存不足。
这肯定是由于我的数据帧与索引的分割所致splitter.split(X,y)因为当我直接将数据帧传递给Pool对象没有抛出错误。

I saw 这个答案 https://stackoverflow.com/a/45620524/8650928这表示这可能是由于创建了太多文件依赖项，但我不知道如何解决该问题，并且上下文管理器不是应该帮助避免此类问题吗？

os.fork()制作进程的副本，因此如果您的使用量约为 18 GB，并且想要调用fork，您还需要 18 GB。 18 的两倍就是 36 GB，远远超过 32 GB。虽然这种分析（故意）很幼稚——有些东西不会在分叉上被复制——但它可能足以解释问题。

解决方案是要么在需要复制的内存较少时更早地创建池，要么更加努力地共享最大的对象。或者，当然，向系统添加更多内存（可能只是虚拟内存，即交换空间）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

OSError: [Errno 12] 使用 python 多处理池时无法分配内存

python

scikitlearn

multiprocessing

OSError: [Errno 12] 使用 python 多处理池时无法分配内存的相关文章

将tensorflow 2.0 BatchDataset转换为numpy数组

为什么 .setGeometry() 不改变 QWidget 实例的大小？

Python BeautifulSoup XML 解析

优化 Keras 以使用所有可用的 CPU 资源

PIL Image.size 返回相反的宽度/高度

Python - 用逗号分割，跳过括号内的内容

带图像的简单 GUI [关闭]

为什么 Python 中的“pip install”会引发语法错误？

如何限制Django CreateView中ForeignKey字段的选择？

Python igraph：从图中删除顶点

如何使用 python urllib 在 HTTP/1.1 中保持活力

matplotlib matshow 标签

Python：计算数据帧列中所有行中特定字符的实例数

如何在Python和Selenium中通过标签名称或id获取元素[重复]

为什么我用 beautifulSoup 刮的时候有桌子，但没有 pandas

导入错误：没有名为 google.auth 的模块

Python 3.2 中 **kwargs 和 dict 有什么区别？

如何禁止 celery 中的 pickle 序列化

OSError: [Errno 12] 使用 python 多处理池时无法分配内存

OSError: [Errno 12] 使用 python 多处理池时无法分配内存 的相关文章

OSError: [Errno 12] 使用 python 多处理池时无法分配内存的相关文章