Python：数百万个小文件的读写速度缓慢

2024-05-07

结论：看来 HDF5 是适合我的目的的方法。基本上 ”HDF5 是一种用于存储和管理数据的数据模型、库和文件格式。“并且旨在处理令人难以置信的大量数据。它有一个名为 python-tables 的 Python 模块。（链接在下面的答案中）

HDF5 在保存大量数据方面的效果提高了 1000%。不过，从 2 亿行中读取/修改数据是一件痛苦的事情，所以这是下一个要解决的问题。

我正在构建包含大量子目录和文件的目录树。大约有 1000 万个文件分布在十万个目录中。每个文件都位于 32 个子目录下。

我有一个 python 脚本来构建这个文件系统并读取和写入这些文件。问题是，当我达到超过一百万个文件时，读写方法变得极其缓慢。

这是我的函数，它读取文件的内容（该文件包含一个整数字符串），向其中添加一定的数字，然后将其写回原始文件。

def addInFile(path, scoreToAdd):
    num = scoreToAdd
    try:
        shutil.copyfile(path, '/tmp/tmp.txt')
        fp = open('/tmp/tmp.txt', 'r')
        num += int(fp.readlines()[0])
        fp.close()
    except:
        pass
    fp = open('/tmp/tmp.txt', 'w')
    fp.write(str(num))
    fp.close()
    shutil.copyfile('/tmp/tmp.txt', path)

关系数据库访问这些数据似乎太慢，因此我选择了文件系统方法。
我之前尝试过对这些执行 Linux 控制台命令，但速度慢得多。
我首先将文件复制到临时文件，然后访问/修改它，然后将其复制回来，因为我发现这比直接访问文件更快。
将所有文件放入 1 个目录（以 reiserfs 格式）会导致访问文件时速度过慢。

我认为速度变慢的原因是文件太多。执行此函数 1000 次的时间不到一秒..但现在达到了 1 分钟。

你建议我如何解决这个问题？我要更改目录树结构吗？

我所需要的只是快速访问这个非常大的文件池中的每个文件*

我知道这不是对您问题的直接答案，但它是对您问题的直接解决方案。

你需要使用类似的东西进行研究HDF5 http://www.hdfgroup.org/HDF5/。它专为具有数百万个单独数据点的分层数据类型而设计。

你真的很幸运，因为有很棒的 HDF5 Python 绑定，称为pytables http://www.pytables.org/。我以非常相似的方式使用它并取得了巨大的成功。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

file

IO

Python：数百万个小文件的读写速度缓慢的相关文章

在 Python 2.7 中出现“ImportError：无法导入名称 HTTPSConnection”错误

我正在尝试在 AWS ElasticBeanstalk 中部署 django 当我按照所示步骤操作时here http docs aws amazon com elasticbeanstalk latest dg create deploy
如何在 Debian 上的 virtualenv 中安装 numpy？

注参见这另一篇文章 https stackoverflow com questions 6442754 how to install h5py numpylibhdf5 as non root on a debian linux syst
Python 转换矩阵

我有一个如下所示的列表 2 1 3 1 2 3 1 2 2 2 我想要的是一个转换矩阵它向我显示如下序列 1 后跟 1 的频率是多少 1 后面跟着 2 的频率是多少 1 后跟 3 的频率是多少 2 后跟 1 的频率是多少 2 后跟 2 的
Flask 中“缺少 CSRF 令牌”，但它在模板中呈现

问题当我尝试登录使用 Flask login 时我得到Bad Request The CSRF session token is missing但令牌正在呈现在模板中 secret key 已设置并且我在本地运行localhost
使用 NumPy 编写一个函数来计算具有特定公差的积分

我想编写一个自定义函数来以特定容差对表达式 python 或 lambda 函数进行数字积分我知道与scipy integrate quad人们可以简单地改变epsabs但我想使用 numpy 自己编写该函数 From 这篇博文 htt
用 Python 绘制直方图

我有两个列表 x 和 y x 包含字母表 A Z Y 包含它们在文件中的频率我尝试研究如何在直方图中绘制这些值但在理解如何绘制它方面没有成功 n bins patches plt hist x 26 normed 1 facecolor
Python - Unicode 到 ASCII 的转换

我无法在不丢失数据的情况下将以下 Unicode 转换为 ASCII u ABRA xc3O JOS xc9 I tried encode and decode他们不会这么做有人有建议吗 Unicode 字符u xce0 and u xc
查找与另一列 Pandas 中的唯一值关联的列中的值的交集

如果我有一个像这样的数据框非常小的例子 col1 col2 0 a 1 1 a 2 2 b 1 3 b 2 4 b 4 5 c 1 6 c 2 7 c 3 我想要所有的交集col2当价值观与其独特性相关时col1值因此在这种情况下交集
Py2exe - Pmw WindowsError：[错误 3]

我正在尝试使用 Py2exe 构建独立的可执行文件我已经导入了 Pmw 类当我运行独立可执行文件时出现以下错误 Traceback most recent call last File py line 9 in
在请求中设置端口

我正在尝试利用cgminer使用 Python 的 API 我对利用requests图书馆我了解如何做基本的事情requests but cgminer想要更具体一点我想缩小 import socket import json sock
数据框中 .map(str) 和 .astype(str) 有什么区别

我有一个数据框其列名为 col1 和 col2 的整数类型条目我想将 col1 和 col2 的条目以及其间的点连接起来我搜索并发现添加两个列条目 df col df col1 map str df col2 map str 并添
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
类型错误：此 COM 对象无法自动执行 makepy 过程 - 请为此对象手动运行 makepy

这是什么错误回溯错误 C Users DELL PycharmProjects MyNew venv Scripts python exe C Users DELL PycharmProjects MyNew agaaaaain py T
如何用正则表达式替换多个匹配/组？

通常我们会编写以下内容来替换一场比赛 namesRegex re compile r is life re I replaced namesRegex sub r butter There is no life in the void pr
Python 属性和 Swig

我正在尝试使用 swig 为一些 C 代码创建 python 绑定我似乎遇到了一个问题试图从我拥有的一些访问器函数创建 python 属性方法如下 class Player public void entity Entity enti
python Recipe：列出最接近等于值的项[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案考虑像这样的列表 0 3 7 10 12 15 19 21 我想获得最接近任何值的最近的最小数字所以如果我通过4 我会得到3 如果我
高效列出目录中的所有子目录

请参阅迄今为止所采取的建议的编辑我正在尝试使用 WinAPI 和 C 列出给定目录中的所有目录文件夹现在我的算法又慢又低效使用 FindFirstFileEx 打开我正在搜索的文件夹然后我查看目录中的每个文件使用 FindNex
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
pandas.read_fwf 忽略提供的数据类型

我正在从文本文件导入数据框我想指定列的数据类型但 pandas 似乎忽略了dtype input 一个工作示例 from io import StringIO import pandas as pd string USAF WBAN S
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

使用 Google Guava 进行不区分大小写的排序

目前我在两个不同的地方使用以下两段代码来创建一个排序的不可变的列表 return Ordering natural immutableSortedCopy iterable and return Ordering usingToStri
将逻辑回归从 R 迁移到 rpy2

我正在尝试使用 ryp2 进行逻辑回归我设法执行它但不知道如何从结果中提取系数和 p 值我不想在屏幕上打印这些值而是创建一个函数来独立使用它们 import rpy2 robjects as ro mydata ro r data
验证 C# 中的小数是否存储在 SQL Server 中

我有一个十进制数据库列decimal 26 6 据我所知这意味着精度为 26 小数位数为 6 我认为这意味着该数字的长度总共可以是 26 位数字其中小数点后可以有 6 位数字在我的 WPF C 前端中我需要验证传入的小数以便我可以
如何忽略在另一个任务的 run() 内触发的 Luigi 任务的失败

考虑以下任务 import luigi class YieldFailTaskInBatches luigi Task def run self for i in range 5 yield FailTask i j for j in ra
为什么 Eclipse 要求我在 java 代码中设置（任意）括号？

我目前正在尝试弄清楚如何使用 Eclipse 在 java 中对 Escape 模型进行编程我对 Escape 和 Eclipse 很陌生自从我用 java 编程以来已经有一段时间了所以如果这是一个愚蠢的问题请原谅基本上我一直被
为什么显示后无法清除错误消息-axios-react

第一个问题的背景 https stackoverflow com questions 72929201 react axios showing message to user 72929320 我正在展示使用localhost 3000 u
MS-sql 检索年龄最大的学生的成绩数据

在此输入图像描述 https i stack imgur com mJ8aT png 在此输入图像描述 https i stack imgur com guYsU png 在此输入图像描述 https i stack imgur com 7
如果h2表不存在则插入

我正在使用H2 我想将一个值插入到表中如果它不存在我使用以下命令创建表 CREATE TABLE IF NOT EXISTS types type VARCHAR 15 NOT NULL UNIQUE 我想做一些类似的事情 REPLAC
从 CUDA 设备写入输出文件

我是 CUDA 编程的新手正在将 C 代码重写为并行 CUDA 新代码有没有一种方法可以直接从设备写入输出数据文件而无需将数组从设备复制到主机我假设如果cuPrintf存在一定有地方可以写一个cuFprintf 抱歉如果答案已经
调试 Android 库中的本机代码

我的工作空间布局是 ApplicationLibrary AndroidManifest xml jni libs src Application AndroidManifest xml ant properties 如何在 Eclipse
Excel Active-X 按钮无法单击

我有一个在 Excel 中应该可以点击的按钮当我尝试单击它时什么也没有发生我注意到如果我单击并按住右下角的鼠标则会出现第二个按钮这种情况过去发生过当我移动鼠标单击该按钮时我可以单击一切都会正常但这一次当我移动鼠标时按
更新行时获取电子邮件用户值

我和我的团队有电子表格当他们更新行基于他们使用的帐户时如何自动获取电子邮件用户值因此每次他们更新任务列时电子邮件列都会自动更新就像下表一样电子表格 https i stack imgur com lgDhF png
如何在 Docker for Windows 中设置共享驱动器？

如何在 Docker for Windows 中设置共享驱动器我正在使用最新版本 18 Stable 和 Edge 我的设置屏幕如下所示它缺少一些选项如共享驱动器高级和网络如第二张图片所示为什么我缺少这些选项 My settin
如何在 ReactJs 中使用 Hooks useState 编写多行状态

React 16 9 我知道这class component state class JustAnotherCounter extends Component state count 0 相当于使用Hooks useState functi
在 dart 中，集合如何确定两个对象相等？

我不明白集合如何确定两个对象何时相等更具体一点什么时候add集合的方法确实添加了一个新对象并且什么时候它不作用一个新对象因为该对象已经在集合中例如我有以下类的对象 class Action final Function fun
iOS 安全性将带有密码的数据发送至服务器或从服务器发送数据

我正在构建一个应用程序需要在服务器执行任何操作之前从用户设备发送密码以在服务器上进行身份验证事情是这样的用户的手机上有一个纯文本密码该密码也在服务器中以 bcrypt 二进制文件的形式存在用户想要从数据库中获取某些内容因此用户通
使用 linux perf 工具测量应用程序的 FLOP

我想使用 perf Linux 性能计数器子系统的新命令行接口命令来测量某些应用程序执行的浮点和算术运算的数量出于测试目的我使用了我创建的一个简单的虚拟应用程序请参见下文因为我找不到任何为测量 FP 和整数运算而定义的 perf
GLSL 棋盘图案

我想用跳棋来遮蔽四边形 f P 下限 Px 下限 Py mod2 我的四边形是 glBegin GL QUADS glVertex3f 0 0 0 0 glVertex3f 4 0 0 0 glVertex3f 4 4 0 0 glVert
x % 2 == 0 是什么意思？ [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我确信这是
Python：数百万个小文件的读写速度缓慢

结论看来 HDF5 是适合我的目的的方法基本上 HDF5 是一种用于存储和管理数据的数据模型库和文件格式并且旨在处理令人难以置信的大量数据它有一个名为 python tables 的 Python 模块链接在下面的答案中 HDF

Python：数百万个小文件的读写速度缓慢

Python：数百万个小文件的读写速度缓慢 的相关文章

随机推荐

热门标签

Python：数百万个小文件的读写速度缓慢的相关文章