逐行处理非常大（>20GB）的文本文件

2023-12-22

我有许多需要处理的非常大的文本文件，最大的约为 60GB。

每行有 7 个字段中的 54 个字符，我想从前三个字段中删除最后三个字符 - 这应该将文件大小减少约 20%。

我是 Python 新手，并且有一个代码可以以每小时 3.4 GB 左右的速度完成我想做的事情，但要成为一项有价值的练习，我确实需要至少达到 10 GB/小时 - 有什么办法可以加快速度这了？这段代码并没有接近挑战我的处理器，所以我做出了一个未经教育的猜测，它受到内部硬盘驱动器读写速度的限制？

def ProcessLargeTextFile():
    r = open("filepath", "r")
    w = open("filepath", "w")
    l = r.readline()
    while l:
        x = l.split(' ')[0]
        y = l.split(' ')[1]
        z = l.split(' ')[2]
        w.write(l.replace(x,x[:-3]).replace(y,y[:-3]).replace(z,z[:-3]))
        l = r.readline()
    r.close()
    w.close()

任何帮助将非常感激。我在 Windows 7 上使用 IDLE Python GUI，并拥有 16GB 内存 - 也许不同的操作系统会更高效？

Edit:这是要处理的文件的摘录。

70700.642014 31207.277115 -0.054123 -1585 255 255 255
70512.301468 31227.990799 -0.255600 -1655 155 158 158
70515.727097 31223.828659 -0.066727 -1734 191 187 180
70566.756699 31217.065598 -0.205673 -1727 254 255 255
70566.695938 31218.030807 -0.047928 -1689 249 251 249
70536.117874 31227.837662 -0.033096 -1548 251 252 252
70536.773270 31212.970322 -0.115891 -1434 155 158 163
70533.530777 31215.270828 -0.154770 -1550 148 152 156
70533.555923 31215.341599 -0.138809 -1480 150 154 158

像这样编写代码更惯用

def ProcessLargeTextFile():
    with open("filepath", "r") as r, open("outfilepath", "w") as w:
        for line in r:
            x, y, z = line.split(' ')[:3]
            w.write(line.replace(x,x[:-3]).replace(y,y[:-3]).replace(z,z[:-3]))

这里主要的节省就是做split一次，但如果 CPU 没有被征税，这可能不会产生什么影响

It may有助于一次保存几千行并一次写入它们，以减少硬盘驱动器的抖动。一百万行是only54MB 内存！

def ProcessLargeTextFile():
    bunchsize = 1000000     # Experiment with different sizes
    bunch = []
    with open("filepath", "r") as r, open("outfilepath", "w") as w:
        for line in r:
            x, y, z = line.split(' ')[:3]
            bunch.append(line.replace(x,x[:-3]).replace(y,y[:-3]).replace(z,z[:-3]))
            if len(bunch) == bunchsize:
                w.writelines(bunch)
                bunch = []
        w.writelines(bunch)

由@Janne建议，另一种生成线条的方法

def ProcessLargeTextFile():
    bunchsize = 1000000     # Experiment with different sizes
    bunch = []
    with open("filepath", "r") as r, open("outfilepath", "w") as w:
        for line in r:
            x, y, z, rest = line.split(' ', 3)
            bunch.append(' '.join((x[:-3], y[:-3], z[:-3], rest)))
            if len(bunch) == bunchsize:
                w.writelines(bunch)
                bunch = []
        w.writelines(bunch)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

line

逐行处理非常大（>20GB）的文本文件的相关文章

如何更改 FacetGrid 中的边距标题颜色

使用 Seaborn Facet Grids 如何仅更改边距标题的颜色注意g set titles color red 更改两个标题 p sns load dataset penguins sns displot data p x fli
从 SHAP 值中获取特征重要性

我想要获得重要功能的数据框通过下面的代码我得到了 shap values 但我不确定这些值的含义是什么在我的 df 中有 142 个特征和 67 个实验但得到了一个带有 ca 的数组 2500 个值 explainer shap T
使用 Python 创建 MIDI

本质上我正在尝试从头开始创建 MIDI 并将它们放到网上我对不同的语言持开放态度但更喜欢使用Python 两种语言之一如果这有什么区别的话并且想知道我应该使用哪个库提前致谢看起来这就是您正在寻找的适用于 Python 的简单
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
Pyqt-如何因另一个组合框数据而更改组合框数据？

我有一个表有 4 列这 4 列中的两列是关于功能的一个是特征另一个是子特征在每一列中所有单元格都有组合框我可以在这些单元格中打开txt 我想当我选择电影院作为功能时我只想看到子功能组合框中的电影名称而不是我的数据中的
Python 是解释型的还是编译型的，或者两者兼而有之？

据我了解 An 解释的语言是由解释器将高级语言转换为机器代码然后执行的程序实时运行和执行的高级语言它一次处理一点程序 A compiled语言是一种高级语言其代码首先由编译器将高级语言转换为机器代码的程序转换为机器代码然后由执
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
Pandas：如何将数据框插入 Clickhouse

我正在尝试将 Pandas 数据框插入 Clickhouse 这是我的代码 import pandas import sqlalchemy as sa uri clickhouse default localhost default ch
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
在 Windows 上使用带有对数刻度的 matplotlib 时出现 Unicode 错误

我正在使用 python 2 6 和 matplotlib 如果我运行 matplotlib 库页面中提供的示例 histogram demo py 它工作正常我已经大大简化了这个脚本 import numpy as np import
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
从列表python的单个列表中删除子列表

我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时它不适用于我
导入错误：无法导入名称“时间戳”

我使用以下代码在 python 3 6 3 中成功安装了 ggplot conda install c conda forge ggplot 但是当我使用下面的代码将其导入笔记本时出现错误 from ggplot import Impor

随机推荐

diff 2个大型数据库表

给定 2 个大表想象一下数亿行每个表都有一个字符串列如何获得差异查看开源 Percona 工具包具体来说 pt 表同步 http www percona com doc percona toolkit pt table sync
我了解 Perl 5。学习 Perl 6 比转向 Python 有什么优势？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Facebook iOS SDK - 移动应用程序安装跟踪不起作用

我在我的应用程序中使用 Facebook SDK 版本 4 5 1 APP ID URL 方案应用程序显示名称等已正确合并到 info plist 中我们的应用程序内有身份验证和共享功能所有这些功能都按预期完美运行对于事件跟踪我们
jQuery UI Datepicker 和 Google Chrome 不工作

我在使用 jQueryUI Datepicker 和 Google Chrome 时遇到一些问题我的日期选择器在 IE8 Firefox 和 Safari 上按预期工作问题是在 Chrome 中单击日期选择器连接的文本框时它给了我一个
如何将两个windows vc静态库合并为一个

我有两个静态库a lib and b lib C语言的它是使用VC6 Visual studio 6 0 生成的我想将这两个库合并为一个静态库c lib 如何在 CLI 模式下执行此操作我见过合并 nix 静态库 https stac
Firebase Storage 和 Dropzone.js 按下按钮时上传多个图像

本质上我想做的是允许人们添加文件然后按下按钮将图像上传到 Firebase 存储我决定使用 Dropzone js 因为该包编写良好且可自定义但我仍然感到困惑我有这段代码允许我将多个图像上传到 Firebase 但是我希望它适合
如果两个指针都转换为整数类型，则比较两个指针是否具有 < 未定义行为？

假设我有这段代码可以根据内存块的位置按特定顺序将一个内存块复制到另一个内存块 void my memmove void dest const void src size t len const unsigned char s const
java.lang.NoClassDefFoundError：无法初始化类 javax.imageio.ImageIO jboss EAP 6

我们正在使用 JBoss EAP 6 直到生产环境一切正常但是在生产环境中部署后我们收到以下错误 java lang NoClassDefFoundError Could not initialize class javax image
OkHTTPClient将cookie传递给Webview

我通过 OKHttpClient 帖子以用户身份登录我想与 webview 共享 cookie 使用 OkHttp 3 0 您可以使用类似于与 HttpURLConnection 共享的方法通过创建使用 webkit cookie 存储
如何在 Xamarin 中使用 Activity 属性 android:showForAllUsers？

该属性未在 Xamarin 中实现这意味着我无法将其声明为我的 Activity 类的属性如下所示 Activity Label string app name Theme style MainTheme StopAlarm Launc
如何启用和禁用组件？

如何从 java 代码的清单中启用然后禁用组件采用 Pawan 方法进行更通用的实施 public static void setComponentState Context context String packageName Stri
缩放 Phonegap 应用程序以适应不同的 Android 屏幕尺寸/密度？

我有一个 Phonegap 应用程序旨在在 Android 手机和平板电脑上运行文本和图像的比例在手机上看起来不错但在 7 英寸平板电脑上看起来太小有没有办法为基于 Phonegap 的应用程序设置不同屏幕尺寸密度的比例对于本机
Rails 3 - 嵌套资源和多态路径：可以达到两级，但在三级时中断

我正在尝试做一个简单的家庭聚会网站其中包含帖子家庭孩子和图片理想情况下我希望路由关系的结构如下 resources posts do resources pictures end resources fams do res
如何分享 Android 项目？

我正在尝试从 Android 项目发送文件以便我的一个朋友可以在 Eclipse 中打开一个新的 Android 项目并从他们的家用计算机上处理代码运行该项目但是我遇到了一些处理丢失清单文件和不匹配签名的问题捆绑 Androi
如何将 Groovy 中的文件读入字符串？

我需要从文件系统读取文件并将整个内容加载到 groovy 控制器中的字符串中最简单的方法是什么 String fileContents new File path to file text 如果需要指定字符编码请使用以下命令 Strin
为什么我的 MVC ViewModel 成员被我的 ActionResult 参数覆盖？

这是一个错误还是一个功能为了简洁和易于复制下面的所有代码都经过简化除了突出显示行为之外实际上没有做任何有用的事情我有一个包含名为 ID 的 int 的类 public class FooterLink public int ID
使用 Airtable 获取超过 100 条记录

我正在构建一个应用程序它使用 Requests 库获取 Airtable 上的数据库并将其转换为列表我的问题是我只能通过 URL 请求获取 100 条记录我尝试在 Airtable API 中找到解决方案但是更改插入 maxReco
更改方法中传递的变量[重复]

这个问题在这里已经有答案了如何使用方法更改变量的内容也许我说得不正确有什么方法可以像 C 中那样获取对变量的引用例子 main stuff int gorilla 29 makeMeABanana gorilla void make
如何保存 Atom 编辑器配置和已安装的软件包列表

我最近开始使用 Atom 编辑器到目前为止它非常棒我计划将其安装在其他几台机器上如何将当前计算机上安装的配置和软件包列表复制到其他计算机是否有一个配置可以用来在其他机器上导出和导入它们 Use Git https git scm c
逐行处理非常大（>20GB）的文本文件

我有许多需要处理的非常大的文本文件最大的约为 60GB 每行有 7 个字段中的 54 个字符我想从前三个字段中删除最后三个字符这应该将文件大小减少约 20 我是 Python 新手并且有一个代码可以以每小时 3 4 GB 左右的速度

逐行处理非常大（>20GB）的文本文件

逐行处理非常大（>20GB）的文本文件 的相关文章

随机推荐

热门标签

逐行处理非常大（>20GB）的文本文件的相关文章