我应该如何优化这个文件系统 I/O 绑定程序？

2024-05-05

我有一个 python 程序，它执行如下操作：

从 csv 文件中读取一行。
对其进行一些变换。
将其分解为实际的行，因为它们将被写入数据库。
将这些行写入单独的 csv 文件。
除非文件已完全读取，否则返回步骤 1。
运行 SQL*Loader 并将这些文件加载到数据库中。

第 6 步实际上并不需要太多时间。似乎第四步占用了大部分时间。在大多数情况下，我想对此进行优化，以处理在具有某种 RAID 设置的四核服务器上运行的一组数以百万计的记录。

我必须解决这个问题有几个想法：

从第一步读取整个文件（或至少以非常大的块读取）并将文件作为整体或以非常大的块写入磁盘。这个想法是硬盘在文件之间来回花费的时间更少。这会做缓冲不会做的事情吗？
将步骤 1、2&3 和 4 并行化为单独的进程。这将使步骤 1、2 和 3 不必等待步骤 4 完成。
将加载文件分成单独的块并并行处理它们。不需要按任何顺序处理行。这可能需要以某种方式与步骤 2 结合起来。

当然，这个问题的正确答案是“通过测试做你认为最快的事情”。然而，我主要是想知道我应该首先把时间花在哪里。在这些问题上有更多经验的人有什么建议吗？

穷人的地图缩减：

Use split http://www.gnu.org/manual/gawk/html_node/Split-Program.html将文件分成与 CPU 数量一样多的块。

Use batch http://linux.about.com/library/cmd/blcmdl1_batch.htm并行运行你的咀嚼器。

Use cat http://www.gnu.org/software/coreutils/manual/html_node/cat-invocation.html#cat-invocation连接结果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

performance

Optimization

fileio

我应该如何优化这个文件系统 I/O 绑定程序？的相关文章

Python 中的舍入浮点问题

我遇到了 np round np around 的问题它没有正确舍入我无法包含代码因为当我手动设置值而不是使用我的数据时返回有效但这是输出 In 177 a Out 177 0 0099999998 In 178 np rou
Python getstatusoutput 替换不返回完整输出

我发现了这个很棒的替代品getstatusoutput Python 2 中的函数在 Unix 和 Windows 上同样有效不过我觉得这个方法有问题output被构建它只返回输出的最后一行但我不明白为什么任何帮助都是极好的 def
使用Python请求登录Google帐户

在多个登录页面上需要谷歌登录才能继续我想用requestspython 中的库以便让我自己登录通常这很容易使用requests库但是我无法让它工作我不确定这是否是由于 Google 做出的一些限制也许我需要使用他们的 API 或
立体太阳图 matplotlib 极坐标图 python

我正在尝试创建一个与以下类似的简单的立体太阳路径图 http wiki naturalfrequent com wiki Sun Path Diagram http wiki naturalfrequency com wiki Sun Pa
YOLOv8获取预测边界框

我想将 OpenCV 与 YOLOv8 集成ultralytics 所以我想从模型预测中获取边界框坐标我该怎么做呢 from ultralytics import YOLO import cv2 model YOLO yolov8n pt
如何将张量流模型部署到azure ml工作台

我在用Azure ML Workbench执行二元分类到目前为止一切正常我有很好的准确性我想将模型部署为用于推理的 Web 服务我真的不知道从哪里开始 azure 提供了这个doc https learn microsoft co
使用 xlrd 打开 BytesIO (xlsx)

我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格使用 xlrd 应该可以但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置本例中的起点是一个带有上传输入和提交按钮的网页提交后文件被捕获req
为什么 PyYAML 花费这么多时间来解析 YAML 文件？

我正在解析一个大约 6500 行的 YAML 文件格式如下 foo1 bar1 blah name john age 123 metadata whatever1 whatever whatever2 whatever stuff thi
在Python中检索PostgreSQL数据库的新记录

在数据库表中第二列和第三列有数字将会不断添加新行每次每当数据库表中添加新行时 python 都需要不断检查它们当 sql 表中收到的新行数低于 105 时 python 应打印一条通知消息警告数量已降至 105 以下另一方面
在 Sphinx 文档中*仅*显示文档字符串？

Sphinx有一个功能叫做automethod从方法的文档字符串中提取文档并将其嵌入到文档中但它不仅嵌入了文档字符串还嵌入了方法签名名称参数我如何嵌入only文档字符串不包括方法签名 ref http www sphinx do
javascript 是否有等效的 __repr__ ？

我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
Python3 在 DirectX 游戏中移动鼠标

我正在尝试构建一个在 DirectX 游戏中执行一些操作的脚本除了移动鼠标之外我一切都正常是否有任何可用的模块可以移动鼠标适用于 Windows python 3 Thanks I used pynput https pypi or
如何使用原始 SQL 查询实现搜索功能

我正在创建一个由 CS50 的网络系列指导的应用程序这要求我仅使用原始 SQL 查询而不是 ORM 我正在尝试创建一个搜索功能用户可以在其中查找存储在数据库中的书籍列表我希望他们能够查询书籍表中的 ISBN 标题作者列目前它
如何在 pygtk 中创建新信号

我创建了一个 python 对象但我想在它上面发送信号我让它继承自 gobject GObject 但似乎没有任何方法可以在我的对象上创建新信号您还可以在类定义中定义信号 class MyGObjectClass gobject GO
python import inside函数隐藏现有变量

我在我正在处理的多子模块项目中遇到了一个奇怪的 UnboundLocalError 分配之前引用的局部变量问题并将其精简为这个片段使用标准库中的日志记录模块 import logging def foo logging info fo
实现 XGboost 自定义目标函数

我正在尝试使用 XGboost 实现自定义目标函数在 R 中但我也使用 python 所以有关 python 的任何反馈也很好我创建了一个返回梯度和粗麻布的函数它工作正常但是当我尝试运行 xgb train 时它不起作用然后我
使用for循环时如何获取前一个元素？ [复制]

这个问题在这里已经有答案了可能的重复 Python 循环内的上一个和下一个值 https stackoverflow com questions 1011938 python previous and next values inside
模拟pytest中的异常终止

我的多线程应用程序遇到了一个错误主线程的任何异常终止例如未捕获的异常或某些信号都会导致其他线程之一死锁并阻止进程干净退出我解决了这个问题但我想添加一个测试来防止回归但是我不知道如何在 pytest 中模拟异常终止如果我只
在 JavaScript 函数的 Django 模板中转义字符串参数

我有一个 JavaScript 函数它返回一组对象 return Func id name 例如我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事有什么解
Kivy - 单击按钮时编辑标签

我希望 Button1 在单击时编辑标签 etykietka 但我不知道如何操作你有什么想法吗 class Zastepstwa App def build self lista WebOps getList layout BoxLayo

随机推荐

使用另一个索引数组正确索引多维 Numpy 数组

我正在尝试索引多维数组P与另一个数组indices 它指定我想要沿最后一个轴的哪个元素如下所示 import numpy as np M N 20 10 P np random rand M N 2 9 index into the la
sqlite 3“SQL 错误‘内存不足’(7)”objc

嗨有人可以指出我做错了什么吗错误是这样的 SQL error out of memory 7 NSArray RecipeInfo NSMutableArray retval NSMutableArray alloc init NSSt
WebGL：enablevertexattribarray索引超出范围

这是我的顶点和片段着色器
PHP：如何删除“[”和“]”之间的字符串

我需要删除内的字符串包括本身我尝试从该网站寻找解决方案我有一个线索我应该尝试使用 preg replace 进行一些操作但它对我来说似乎太专业了例如 gallery ids 92 93 94 95 96 97 98 99 1
通过易失性引用/指针访问声明的非易失性对象是否会为所述访问赋予易失性规则？

这将是一篇很长的文章为了将其置于上下文中并提供尽可能多的信息我必须浏览各种链接和引用这通常是我们进入 C C 标准兔子洞的唯一方法如果您对这篇文章有更好的引用或任何其他改进请告诉我但先总结一下你可以责怪 zwol对我来说发布这
如何对 MySQL 数据库中的 ENUM 列进行排序？

I have colorMySQL 表中的列类型为ENUM RED YELLOW MY COLOR BLACK 还有另一个name列的类型是VARCHAR 30 我想按以下顺序获取所有表行 YELLOW首先行排序依据name RED最后一
将numpy字符串数组转换为int数组[重复]

这个问题在这里已经有答案了我有一个 numpy ndarray a 0 99 0 56 0 56 2 02 0 96 如何将其转换为int 输出 a 0 99 0 0 0 56 0 56 2 02 0 96 我想要 0 0 代替空白 im
使用 Javascript 从 URL 字符串获取端口 [重复]

这个问题在这里已经有答案了我想要一个 javascript 函数它将获取一个 url 作为参数并返回该 URL 的端口如下所示如果有一个http or https 端口 80 443 它不会显示在 url 结构中但我还是希望它们
Codeigniter：对未定义函数 mysqli_init() 的致命错误调用

我刚刚更改了服务器并遇到以下错误 Fatal error Call to undefined function mysqli init in home blacktwitter public html system database dri
更改 AS3 中的 TextField 选择颜色

如何更改 ActionScript 3 中 TextField 的选择突出显示颜色我有一个输入文本字段黑色背景上有白色文本因此选择是不可见的这对于可用性来说非常糟糕谢谢另一种方法是使用文本布局框架特别是使用 Select
如何使用 SqlDataReader 返回和使用 IAsyncEnumerable

请看下面两种方法第一个返回一个IAsyncEnumerable 第二个试图消耗它 using System Collections Generic using System Data using System Data SqlClient
git push origin master 失败

我正在尝试将现有文件夹上传到 gitHub 按照说明我在 Windows 中输入了以下内容 git remote add origin email protected cdn cgi l email protection myname m
如何在 C++/CLI 中显式/隐式实现接口成员？

在 C CLI 中与此等效的内容是什么 class Explicit IClonable void IClonable Clone class Implicit IClonable public void Clone 正如 nobugz 所
C# 到 Java：Base64String、MemoryStream、GZipStream

我有一个在 NET 中压缩的 Base64 字符串我想将其转换回 Java 中的字符串我正在寻找一些与 C 语法等效的 Java 语法特别是 Convert FromBase64String 内存流压缩流这是我想要转换的方法 pu
Python 中意外的缩进错误[重复]

这个问题在这里已经有答案了我有一段简单的代码我不明白我的错误来自哪里解析器在第 5 行 if 语句上用意外的缩进向我咆哮有人看到这里的问题吗我不 def gen fibs a b 0 1 while True a b b a b
没有适当的默认构造函数可用于 std::unique_ptr

这是我上一篇文章的延续由于它已经关闭我决定发表新帖子我删除了一半的代码以使其更具可读性我读过的一些帖子使用 SDL 的智能指针 https stackoverflow com questions 24251747 smart po
负载测试 SQL Alchemy：“TimeoutError：达到 QueuePool 大小限制 3 溢出 0，连接超时，超时 30”

我有一个在 AWS 中运行的基于 SQL Alchemy 的 Web 应用程序该网络应用程序有几个c3 2xlargeELB 后面的 EC2 实例每个 8 个 CPU 接收 Web 请求然后查询写入共享数据库我使用的数据库是 RD
PMT功能支付方式

下面是我计算贷款付款的函数就像在 Excel 中一样我需要添加另一个参数即付款类型 function PMT ir np pv fv ir interest rate per month np number of periods mo
如何在 Rails 4 中“link_to”完整路径？

这是我的代码 a a 从上面
我应该如何优化这个文件系统 I/O 绑定程序？

我有一个 python 程序它执行如下操作从 csv 文件中读取一行对其进行一些变换将其分解为实际的行因为它们将被写入数据库将这些行写入单独的 csv 文件除非文件已完全读取否则返回步骤 1 运行 SQL Loader 并将

我应该如何优化这个文件系统 I/O 绑定程序？

我应该如何优化这个文件系统 I/O 绑定程序？ 的相关文章

随机推荐

热门标签

我应该如何优化这个文件系统 I/O 绑定程序？的相关文章