在Python中将数据作为后台进程写入磁盘

2024-04-09

我有一个 Python 程序，基本上执行以下操作：

for j in xrange(200):
    # 1) Compute a bunch of data
    # 2) Write data to disk

1）大约需要2-5分钟
2) 大约需要~1分钟

请注意，内存中需要保存的数据太多。

理想情况下，我想做的是将数据写入磁盘，以避免 CPU 闲置。这在Python中可能吗？谢谢！

你可以尝试使用多个进程 http://docs.python.org/2/library/multiprocessing.html像这样：

import multiprocessing as mp

def compute(j):
    # compute a bunch of data
    return data

def write(data):
    # write data to disk

if __name__ == '__main__':
    pool = mp.Pool()
    for j in xrange(200):
        pool.apply_async(compute, args=(j, ), callback=write)
    pool.close()
    pool.join()

pool = mp.Pool()将创建一个工作进程池。默认情况下，工作线程的数量等于机器拥有的 CPU 核心的数量。

Each 池.apply_async http://docs.python.org/2/library/multiprocessing.html#multiprocessing.pool.multiprocessing.Pool.apply_asynccall 将要由工作进程池中的工作线程运行的任务排队。当工作人员可用时，它就会运行compute(j)。当worker返回一个值时，data，主进程中的一个线程运行回调函数write(data), with data是worker返回的数据。

一些注意事项：

数据必须是可挑选的，因为它是从工作进程通过a返回到主进程Queue http://docs.python.org/2/library/multiprocessing.html#exchanging-objects-between-processes.
无法保证工作人员完成的顺序任务的顺序与任务发送到的顺序相同水池。所以数据写入磁盘的顺序可能不一样相当于j范围从 0 到 199。解决此问题的一种方法将数据写入 sqlite（或其他类型）数据库和j作为数据字段之一。那么当你想读书的时候按顺序排列数据，您可以SELECT * FROM table ORDER BY j.
使用多个进程会增加所需的内存量因为数据是由工作进程生成的，等待写入磁盘的数据会累积在队列中。你或许能够减少使用 NumPy 所需的内存量数组。如果这是不可能的，那么您可能必须减少进程数：
```
pool = mp.Pool(processes=1) 
```
这将创建一个工作进程（运行compute），留下运行的主进程write. Since compute需要比write，队列不会得到超过一大块的备份要写入磁盘的数据。但是，您仍然需要足够的内存计算一个数据块，同时写入另一块数据数据到磁盘。

如果您没有足够的内存来同时执行这两项操作，那么您别无选择 - 您的原始代码将运行compute and write依次进行，是唯一的办法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

file

multiprocessing

在Python中将数据作为后台进程写入磁盘的相关文章

使用 Python 创建 MIDI

本质上我正在尝试从头开始创建 MIDI 并将它们放到网上我对不同的语言持开放态度但更喜欢使用Python 两种语言之一如果这有什么区别的话并且想知道我应该使用哪个库提前致谢看起来这就是您正在寻找的适用于 Python 的简单
ctypes 错误：libdc1394 错误：无法初始化 libdc1394

我正在尝试将程序编译为共享库我可以使用 ctypes 在 Python 代码中使用该库使用以下命令该库可以正常编译 g shared Wl soname mylib O3 o mylib so fPIC files pkg config
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
小部件之间的自定义信号

尝试将信号从一个 gtk EventBox 子级发送到另一个在 init HeadMode 第 75 行上出现错误类型错误未知信号名称消息发送 why usr bin env python coding utf8 import p
Pandas：如何将数据框插入 Clickhouse

我正在尝试将 Pandas 数据框插入 Clickhouse 这是我的代码 import pandas import sqlalchemy as sa uri clickhouse default localhost default ch
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
Alembic：如何迁移模型中的自定义类型？

My User模型是 class User UserMixin db Model tablename users noinspection PyShadowingBuiltins uuid Column uuid GUID default
如何使用 Bokeh 动态隐藏字形和图例项

我正在尝试在散景中实现复选框其中每个复选框应显示隐藏与其关联的行我知道可以通过图例来实现这一点但我希望这种效果同时在两个图中发生此外图例也应该更新在下面的示例中出现了复选框但不执行任何操作我显然不明白如何更新用作源的数据
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
使用 Conda 更新特定模块会删除大量软件包

我最近开始使用 Anaconda Python 发行版因为它提供了许多开箱即用的数据分析库使用 conda 创建环境和安装软件包也轻而易举但是当我想更新 Python 本身或任何其他模块时我遇到了一些严重的问题我事先被告知我的很多
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
Django - 提交具有同一字段多个输入的表单

预警我对 Django 以及一般的 Web 开发非常陌生我使用 Django 托管一个基于 Web 的 UI 该 UI 将从简短的调查中获取用户输入通过我用 Python 开发的一些分析来提供输入然后在 UI 中呈现这些分析的可视
Python对象初始化性能

我只是做了一些快速的性能测试我注意到一般情况下初始化列表比显式初始化列表慢大约四到六倍这些可能是错误的术语我不确定这里的行话例如 gt gt gt import timeit gt gt gt print timeit timeit
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
使用 Python 将对象列表转为 JSON

我在转换时遇到问题Object实例到 JSON ob Object list name scaping myObj base url u number page for ob in list name json string json du
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这
python 中的 after() 与 update()

我是 python 新手开始使用 tkinter 作为画布到目前为止我使用 update 来更新我的画布但还有一个 after 方法谁能给我解释一下这个函数请举个例子两者之间有什么区别 root after integer c

随机推荐

如何将我的 Kivy 客户端连接到服务器（TCP、套接字）

因此作为我的项目 2D 多人纸牌游戏的一部分我已经弄清楚如何在线托管和运行服务器脚本我的计划是让两个单独的 kivy 客户端连接到服务器这只是一个带有命令的脚本但是我对操作顺序有些困惑因为我think客户端连接可能与消息循环发
查找 Javascript 对象中属性的交集

大家好我想我有以下两个对象 var obj1 one 232 two 3123 three 3232 var obj2 one 323 three 3444 seven 32 我正在尝试编写一个函数该函数将返回两个对象中的属性假设我始
使 ViewGroup 在 Android 上可点击

我有一个 ViewGroup LinearLayout 其中包含几个 TextView 和一个 ImageView 我想让整个组都可以点击我尝试过这样的事情 viewGroup setOnClickListener new OnClick
HTML 5 游戏是否使用 Canvas 和 Javascript？这种情况下如何防止作弊呢？

HTML 5 游戏是否使用 Canvas 和 Javascript 这种情况下如何防止作弊呢例如如果用户使用 GreaseMonkey 或某些工具来更改脚本使其每次只向服务器报告完美的游戏分数该怎么办我会用我自己的问题来回答你的问
如何使用gdb来探索堆栈/堆？

谁能给我一个快速概述给我指出一种检查 C 程序堆栈和堆的方法的文档我认为这应该用 GDB 来完成但如果有其他更直接的替代方案那么也应该没问题 Thanks 您可以使用 x 命令转储原始内存因此如果您想查看堆栈或堆的位请尝试
gcc 通过 homebrew 没有 --without-multilib 选项

我想在 Python 3 5 中安装 xgboost 这个需要gcc支持 fopenmp选项默认gcc不支持所以我正在使用 brew install gcc without multilib 但我得到Warning gcc this f
将本地文件的内容读取到 Rails 中的变量中

我想做的就是从本地文件中获取所有内容并将其存储在变量中如何 File read icon full filename each l r l 只给我一部分在 PHP 中我刚刚使用file get contents data File r
硬币兑换 DP 解决方案以跟踪硬币

尝试为一般的硬币找零问题编写一个 DP 解决方案该解决方案还可以跟踪使用了哪些硬币到目前为止我已经可以为我提供所需的最低数量的硬币但无法弄清楚如何获取使用了哪些硬币以及使用了多少次如果使用硬币我尝试设置另一个带有值的表布尔值
Javascript 域模型对象约定

如果我必须在 C 中创建域模型对象我可能会这样做 public class Person Public string Name get set Public string Gender get set Public int Age get
使用文本框自动滚动到底部

我有一个由 ms access 制作的 mdb 文件它有一个表单表单内部有一个大文本框制作此文本框的目的是通过在文本框中添加消息来显示某些工作的进度 txtStatus value txtStatus value Doing some
如何通过 COM 公开 .netstandard2.0 库以便在 VB6 中使用？

我有一个 dotnet 核心库一个框架 4 7 2 库和一个 vb6 应用程序我想编写一个公共库供他们所有人访问因此选择 netstandard2 0 我尝试了 netstandard2 0 库和 vb6 之间的 4 7 2 框架包装
Grails：两个域对象之间的多重关系

我正在尝试在 Grails 中的两个域类之间实现两种不同类型的关系考虑以下我有两个域类一个作者类和一个书籍类其中一个作者拥有很多书籍 class Author String name class Book String title
在 SQL Management studio 中更改 CommandTimeout

如何更改 SQL Management Studio 中的 CommandTimeout 如果您在使用表设计器时遇到超时请更改工具 gt 选项 gt 设计器 gt 表和数据库设计器下的事务超时时间值这将消除此消息超时已到操作完成
pandas 六个月的日期范围

所以这是我的数据框 PatientNumber QT Answer Answerdate DiagnosisDate 1 1 transferring No 2017 03 03 2018 05 03 2 1 preparing food
epoll_wait()接收socket关闭两次（read()/recv()返回0）

我们有一个使用 epoll 来侦听和处理 http 连接的应用程序有时 epoll wait 会连续两次收到 fd 上的 close 事件含义 epoll wait 返回连接 fd 其中 read recv 返回 0 这是一个问题因为
pg (node-postgres) 是否自动清理数据

我在用node postgres对于生产应用程序我想知道是否有什么我应该关心的数据是否自动清理node postgres 我在 github 页面上找不到任何相关信息 https github com brianc node postg
BrokeredMessage Azure ServiceBus 的虚假传递和接收

我创建了一个 BrokeredMessage 实例并希望围绕它的传递计数与队列的最大传递计数来测试我的代码我不想建立一个真正的队列来发送和接收消息但在消息传递之前 deliverycount 属性不会初始化我怎样才能伪造这个我设法
Ninject：将某物与其自身绑定是什么意思？

Ninject 具有以下功能self binding like Bind
Rollup 函数 - 替换 NULL

我的 SQL 的最后部分似乎遇到了麻烦当在我的 SQL 中使用汇总函数实现分组依据时会出现 NULL 如何修改 NULL 以便在此聚合 SQL 中将其替换为 TOTAL Current table returned Name Activ
在Python中将数据作为后台进程写入磁盘

我有一个 Python 程序基本上执行以下操作 for j in xrange 200 1 Compute a bunch of data 2 Write data to disk 1 大约需要2 5分钟2 大约需要 1分钟请注意内存

在Python中将数据作为后台进程写入磁盘

在Python中将数据作为后台进程写入磁盘 的相关文章

随机推荐

热门标签

在Python中将数据作为后台进程写入磁盘的相关文章