在Python中修改大型文本文件最后一行的最有效方法

2024-05-05

我需要更新几个超过 2GB 的文件的最后一行，这些文件由无法读取的文本行组成readlines()。目前，它可以通过逐行循环来正常工作。但是，我想知道是否有任何编译库可以更有效地实现这一点？谢谢！

目前的方法

    myfile = open("large.XML")
    for line in myfile:
        do_something()

如果这确实是基于行的（不需要真正的 XML 解析器是最佳解决方案），mmap https://docs.python.org/3/library/mmap.html可以在这里提供帮助。

mmap文件，然后调用.rfind('\n')在生成的对象上（当您确实想要其前面的非空行而不是其后面的空“行”时，可能需要进行调整以处理以换行符结尾的文件）。然后你可以单独切掉最后一行。如果需要就地修改文件，可以调整文件大小以削减（或添加）与切片行和新行之间的差异相对应的字节数，然后写回新行。避免读取或写入超出您需要的文件内容。

示例代码（如有错误请指出）：

import mmap

# In Python 3.1 and earlier, you'd wrap mmap in contextlib.closing; mmap
# didn't support the context manager protocol natively until 3.2; see example below
with open("large.XML", 'r+b') as myfile, mmap.mmap(myfile.fileno(), 0, access=mmap.ACCESS_WRITE) as mm:
    # len(mm) - 1 handles files ending w/newline by getting the prior line
    # + 1 to avoid catching prior newline (and handle one line file seamlessly)
    startofline = mm.rfind(b'\n', 0, len(mm) - 1) + 1

    # Get the line (with any newline stripped)
    line = mm[startofline:].rstrip(b'\r\n')

    # Do whatever calculates the new line, decoding/encoding to use str
    # in do_something to simplify; this is an XML file, so I'm assuming UTF-8
    new_line = do_something(line.decode('utf-8')).encode('utf-8')

    # Resize to accommodate the new line (or to strip data beyond the new line)
    mm.resize(startofline + len(new_line))  # + 1 if you need to add a trailing newline
    mm[startofline:] = new_line  # Replace contents; add a b"\n" if needed

显然在某些系统（例如 OSX）上没有mremap, mm.resize不起作用，因此为了支持这些系统，您可能会拆分with（所以mmap在文件对象之前关闭），并使用基于文件对象的查找、写入和截断来修复文件。下面的例子包括我之前提到的Python 3.1及更早版本的具体调整使用contextlib.closing为了完整性：

import mmap
from contextlib import closing

with open("large.XML", 'r+b') as myfile:
    with closing(mmap.mmap(myfile.fileno(), 0, access=mmap.ACCESS_WRITE)) as mm:
        startofline = mm.rfind(b'\n', 0, len(mm) - 1) + 1
        line = mm[startofline:].rstrip(b'\r\n')
        new_line = do_something(line.decode('utf-8')).encode('utf-8')

    myfile.seek(startofline)  # Move to where old line began
    myfile.write(new_line)  # Overwrite existing line with new line
    myfile.truncate()  # If existing line longer than new line, get rid of the excess

优点mmap优于任何其他方法的是：

无需读取超出行本身的任何文件内容（意味着文件的 1-2 页，其余部分永远不会被读取或写入）
Using rfind意味着你可以让Python在C层（在CPython中）快速完成查找换行符的工作；明确的seeks and read文件对象的 s 可以匹配“仅读取一页左右”，但您必须手动实现换行符的搜索

Caveat: 这种方法行不通（至少，不是没有修改以避免映射超过 2 GB，并在可能无法映射整个文件时处理调整大小）如果您使用的是 32 位系统并且文件太大而无法映射到内存中。在大多数 32 位系统上，即使在新生成的进程中，也只有 1-2 GB 的可用连续地址空间；在某些特殊情况下，您可能拥有多达 3-3.5 GB 的用户虚拟地址（尽管您会丢失一些用于堆、堆栈、可执行映射等的连续空间）。mmap不需要太多的物理RAM，但需要连续的地址空间； 64 位操作系统的巨大好处之一是，除了最荒谬的情况外，您不再担心虚拟地址空间，因此mmap可以解决一般情况下在 32 位操作系统上如果不增加复杂性就无法处理的问题。目前大多数现代计算机都是 64 位的，但如果您的目标是 32 位系统，则绝对需要记住这一点（在 Windows 上，即使操作系统是 64 位，它们也可能已经安装了 32 位版本的 Python）错误，所以同样的问题也适用）。这里还有一个可以在 32 位 Python 上运行的示例（假设最后一行不是 100+ MB 长）（省略closing并为简洁而导入），即使对于大文件：

with open("large.XML", 'r+b') as myfile:
    filesize = myfile.seek(0, 2)
    # Get an offset that only grabs the last 100 MB or so of the file aligned properly
    offset = max(0, filesize - 100 * 1024 ** 2) & ~(mmap.ALLOCATIONGRANULARITY - 1)
    with mmap.mmap(myfile.fileno(), 0, access=mmap.ACCESS_WRITE, offset=offset) as mm:
        startofline = mm.rfind(b'\n', 0, len(mm) - 1) + 1
        # If line might be > 100 MB long, probably want to check if startofline
        # follows a newline here
        line = mm[startofline:].rstrip(b'\r\n')
        new_line = do_something(line.decode('utf-8')).encode('utf-8')

    myfile.seek(startofline + offset)  # Move to where old line began, adjusted for offset
    myfile.write(new_line)  # Overwrite existing line with new line
    myfile.truncate()  # If existing line longer than new line, get rid of the excess

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

IO

在Python中修改大型文本文件最后一行的最有效方法的相关文章

使用 python requests 模块时出现 HTTP 503 错误

我正在尝试发出 HTTP 请求但当前可以从 Firefox 浏览器访问的网站响应 503 错误代码本身非常简单在网上搜索一番后我添加了user Agent请求参数但也没有帮助有人能解释一下如何消除这个 503 错误吗顺便说一句
元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
如何用python脚本控制TP LINK路由器

我想知道是否有一个工具可以让我连接到路由器并关闭它然后从 python 脚本重新启动它我知道如果我写 import os os system ssh l root 192 168 2 1 我可以通过 python 连接到我的路由器但是
安装了 32 位的 Python，显示为 64 位

我需要运行 32 位版本的 Python 我认为这就是我在我的机器上运行的因为这是我下载的安装程序当我重新运行安装程序时它会将当前安装的 Python 版本称为 Python 3 5 32 位然而当我跑步时platform arch
Pandas/Google BigQuery：架构不匹配导致上传失败

我的谷歌表中的架构如下所示 price datetime DATETIME symbol STRING bid open FLOAT bid high FLOAT bid low FLOAT bid close FLOAT ask open
使用Python请求登录Google帐户

在多个登录页面上需要谷歌登录才能继续我想用requestspython 中的库以便让我自己登录通常这很容易使用requests库但是我无法让它工作我不确定这是否是由于 Google 做出的一些限制也许我需要使用他们的 API 或
立体太阳图 matplotlib 极坐标图 python

我正在尝试创建一个与以下类似的简单的立体太阳路径图 http wiki naturalfrequent com wiki Sun Path Diagram http wiki naturalfrequency com wiki Sun Pa
如何将张量流模型部署到azure ml工作台

我在用Azure ML Workbench执行二元分类到目前为止一切正常我有很好的准确性我想将模型部署为用于推理的 Web 服务我真的不知道从哪里开始 azure 提供了这个doc https learn microsoft co
为什么 PyYAML 花费这么多时间来解析 YAML 文件？

我正在解析一个大约 6500 行的 YAML 文件格式如下 foo1 bar1 blah name john age 123 metadata whatever1 whatever whatever2 whatever stuff thi
Python 2：SMTPServerDisconnected：连接意外关闭

我在用 Python 发送电子邮件时遇到一个小问题 me my email address you recipient s email address me email protected cdn cgi l email protectio
在 Sphinx 文档中*仅*显示文档字符串？

Sphinx有一个功能叫做automethod从方法的文档字符串中提取文档并将其嵌入到文档中但它不仅嵌入了文档字符串还嵌入了方法签名名称参数我如何嵌入only文档字符串不包括方法签名 ref http www sphinx do
Cython 和类的构造函数

我对 Cython 使用默认构造函数有疑问我的 C 类 Node 如下 Node h class Node public Node std cerr lt lt calling no arg constructor lt lt std e
javascript 是否有等效的 __repr__ ？

我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
仅第一个加载的 Django 站点有效

我最近向 stackoverflow 提交了一个问题标题为使用mod wsgi在apache上多次请求后Django无限加载 https stackoverflow com questions 71705909 django infini
Python：XML 内所有标签名称中的字符串替换（将连字符替换为下划线）

我有一个格式不太好的 XML 标签名称内有连字符我想用下划线替换它以便能够与 lxml objectify 一起使用我想替换所有标签名称包括嵌套的子标签示例 XML
使用for循环时如何获取前一个元素？ [复制]

这个问题在这里已经有答案了可能的重复 Python 循环内的上一个和下一个值 https stackoverflow com questions 1011938 python previous and next values inside
Django-tables2 列总计

我正在尝试使用此总结列中的所有值文档 https github com bradleyayers django tables2 blob master docs pages column headers and footers rst 但页
在 JavaScript 函数的 Django 模板中转义字符串参数

我有一个 JavaScript 函数它返回一组对象 return Func id name 例如我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事有什么解
更改 Tk 标签小部件中单个单词的颜色

我想更改 Tkinter 标签小部件中单个单词的字体颜色我知道可以使用文本小部件来实现与我想要完成的类似的事情例如使单词 YELLOW 显示为黄色 self text tag config tag yel fg clr yellow s
Kivy - 单击按钮时编辑标签

我希望 Button1 在单击时编辑标签 etykietka 但我不知道如何操作你有什么想法吗 class Zastepstwa App def build self lista WebOps getList layout BoxLayo

随机推荐

在单个图中获取 geom_hex 中的观测值 (Shiny)

我正在尝试创建一个十六进制的交互式图用户可以单击给定的十六进制并接收分组在该单击的十六进制中的原始数据帧的所有观察结果的列表下面是一个 MWE 看起来非常接近我的目标我正在使用 Shiny hexbin 和 ggplotly app
Python pandas cumsum() 在达到最大值后重置

我有一个 pandas DataFrame 其中 timedeltas 作为这些增量的累积和在单独的列中以毫秒表示下面提供了一个示例 Transaction ID Time TimeDelta CumSum ms 1 00 00 04
实体框架一对多关系

我的 EF 查询大约需要 3 秒才能获取 10 个玩家因为它获取另一个表的所有 500k 行而不是我需要的少数行这是玩家实体 namespace RocketLeagueStats Database Entities Table pl
如何在 SwiftUI 中管理 AVPlayer 状态

我有 SwiftUI 中的 URL 列表当我点击某个项目时我会呈现一个全屏视频播放器我有一个 EnvironmentObject它处理一些查看器选项例如是否显示时间码我还有一个显示和隐藏时间码的切换开关我只在本例中包含了该切换
复制行并自动递增非身份键 ID 列的 INSERT INTO 语句

给定一个包含三列的表 ID 主键非自动递增 GroupID 一些价值我正在尝试编写一个 SQL INSERT INTO 语句该语句会将具有一个 GroupID 的每一行复制到一个新的 GroupID 中起始表示例 ID GroupI
添加取消上传或中止功能以引导多个文件上传插件

我在用引导多文件上传插件 http blueimp github io jQuery File Upload basic html上传文件我正在使用此链接上的示例现在我想在添加文件按钮之外添加另一个按钮取消上传单击取消上传按
如何判断一个app是原生的还是html5的？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我想知道移动应用程序是如何原生或 html5 的有没有什么软件或者网站可以说明这一点如何检测应用程序是本机应用程序还是 html5 您可以使用 w
MySQL记录保存到数据库的当前时间

我正在使用 Zend Framework 1 12 和 Mysql 我想在数据库中添加列该列保存记录插入表中时的当前日期时间有人知道我如何定义此列吗此功能必须在 Mysql 站点上运行而不是在 PHP 站点上运行您必须将列类型更改
使用 html 属性的 DOM 惩罚

我正在考虑使用 HTML5 数据属性来更轻松地编写我的应用程序的第三方脚本因此考虑两种情况页面上有 10 000 个 HTML 元素例如 div Sticker div 还有其他 10 000 个 HTML 元素例如 div St
使用 python 在网络上部署 matlab 应用程序

您好我想使用 python 在网络上部署 matlab 应用程序有没有办法做到这一点我已按照数学工作网站上的文档将我的应用程序转换为 jar 文件 java 类有人能指出我前进的正确方向吗事实上您的 Matlab 代码打包为 J
GTM - 将事件/数据推送到 gtm dataLayer 不发送任何内容到 https://www.google-analytics.com/r/collect?v

我已在我的 chrome 扩展页面中添加了此 gtm 代码由内容脚本和 iframe 注入 function w d s l i w l w l w l push gtm start new Date getTime event gtm
在 OCaml 自定义顶层设置提示

在 OCaml 自定义顶层中有没有一种方法可以通过编程方式设置提示到别的东西我希望能够更改它以响应用户的最后一个自定义功能有点像bash你如何设置PS1 我什至找不到 directive 来更改它谢谢在 toplevel top
Microsoft 认知服务 - 计算机视觉：订阅密钥无效

我正在尝试使用计算机视觉API https azure microsoft com en us services cognitive services computer vision 来自微软的认知服务但是我的钥匙似乎不起作用我使用该
使用光栅重新投影 .tiff 文件：CRSError：无法解析 WKT。 OGR 错误代码 6

我正在尝试使用以下代码将 tiff 文件重新投影到 EPSG 32638 我安装过的版本光栅版本 1 1 5 Numpy 版本 1 18 1 这是我正在使用的代码 https rasterio readthedocs io en late
GNUCobol (OpenCOBOL) 错误：libcob：未找到模块“»”

我正在转换一组为 Microfocus 编译器编写的 COBOL 程序以便与 GnuCobol 一起使用到目前为止我已经取得了一定的成功只需要更改一些特定于微焦点的日期命令并使用 GnuCobol 的 std mf争论我正在使用
无法通过 HTTPS 克隆私有 Github 存储库

我在通过 HTTPS 克隆私有 GitHub 存储库时遇到问题如果我尝试使用以下方式克隆我的存储库 git clone https github com username repository 我收到错误 fatal remote err
com.google.android.gms.games.GamesClient 无法解析

我正在尝试使用 google play 游戏服务开发实时多人游戏并下载了示例 ButtonClicker2000 但 Eclipse ADK 一直抱怨 com google android gms games GamesClient 无法
如何强制浏览器使用 .htaccess 下载目录中的所有文件类型？

我如何告诉浏览器强制下载目录中的所有文件类型而不是在浏览器中呈现它们我已经尝试过这个但没有成功
android studio 中没有flutter SDK

我正在尝试跑步Flutter在 Android studio 上但我有一个解决此错误的问题我正在使用所有东西的最新版本例如 dart 和 flutter 或插件 Flutter 用户应该运行flutter packages get代替
在Python中修改大型文本文件最后一行的最有效方法

我需要更新几个超过 2GB 的文件的最后一行这些文件由无法读取的文本行组成readlines 目前它可以通过逐行循环来正常工作但是我想知道是否有任何编译库可以更有效地实现这一点谢谢目前的方法 myfile open large

在Python中修改大型文本文件最后一行的最有效方法

目前的方法

在Python中修改大型文本文件最后一行的最有效方法 的相关文章

随机推荐

热门标签

在Python中修改大型文本文件最后一行的最有效方法的相关文章