如何在python3.2中以相反的顺序读取文件而不将整个文件读取到内存？ [复制]

2024-02-01

我正在使用 python3.2 解析大小为 1 到 10GB 的日志文件，需要搜索具有特定正则表达式（某种时间戳）的行，并且我想找到最后一次出现的情况。

我尝试过使用：

for line in reversed(list(open("filename")))

这导致了非常糟糕的性能（在好的情况下）和 MemoryError 在坏的情况下。

在线程中：使用python以相反的顺序读取文件 https://stackoverflow.com/questions/2301789/read-a-file-in-reverse-order-using-python我没有找到任何好的答案。

我找到了以下解决方案：python 按行读取文本文件的头、尾和向后 https://stackoverflow.com/questions/5896079/python-head-tail-and-backward-read-by-lines-of-a-text-file/5896210#5896210非常有前途，但是它不适用于 python3.2，因为错误：

NameError: name 'file' is not defined

我后来尝试更换File(file) with File(TextIOWrapper)因为这是对象内置函数open()返回，但这导致了更多错误（如果有人建议这是正确的方法，我可以详细说明:)）

这是一个可以完成您正在寻找的功能的函数

def reverse_lines(filename, BUFSIZE=4096):
    f = open(filename, "rb")
    f.seek(0, 2)
    p = f.tell()
    remainder = ""
    while True:
        sz = min(BUFSIZE, p)
        p -= sz
        f.seek(p)
        buf = f.read(sz) + remainder
        if '\n' not in buf:
            remainder = buf
        else:
            i = buf.index('\n')
            for L in buf[i+1:].split("\n")[::-1]:
                yield L
            remainder = buf[:i]
        if p == 0:
            break
    yield remainder

它的工作原理是从文件末尾读取缓冲区（默认为 4kb）并反向生成其中的所有行。然后向后移动 4k，并执行相同操作，直到文件开头。代码可能需要在内存中保留超过 4k 的空间，以防正在处理的部分中没有换行（非常长的行）。

您可以使用代码作为

for L in reverse_lines("my_big_file"):
   ... process L ...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在python3.2中以相反的顺序读取文件而不将整个文件读取到内存？ [复制] 的相关文章

在 pandas 中单独打印一列的原始值？

我有一个数据框 df pd DataFrame name george age 23 name anna age 26 现在我想检索乔治的年龄 df df name george age 但这会输出一些额外的信息以及原始值 0 23 Nam
如何在 Google App Engine 的 Python 中获取 StringProperty 的值？

如何获取 nbd Model 的值我想返回由多个字段组成的描述但我无法让它工作这是我的班级代码 class User ndb Model name ndb StringProperty email ndb StringProperty
以矢量化方式在另一个 DataFrame 中查找包含值子集的行

如何匹配此 DataFrame 中的值source car id lat lon 0 100 10 0 15 0 1 100 12 0 10 0 2 100 09 0 08 0 3 110 23 0 12 0 4 110 18 0 32 0
Tipfy：如何在模板中显示blob？

鉴于在 gae 上使用tipfy http www tipfy org python 以下模型 greeting avatar db Blob avatar 显示 blob 此处为图像的模板标签是什么在这种情况下斑点是一个图像这很棒
将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
numpy：大量线段/点的快速规则间隔平均值

我沿着一维线有许多约 100 万个不规则间隔的点 P 这些标记线段这样如果点是 0 x a x b x c x d 则线段从 0 gt x a x a gt x b x b gt x c x c gt x d 等我还有每个段的 y
通用详细视图 ProfileView 必须使用对象 pk 或 slug 调用

我是 Django 2 0 的新手在访问我的个人资料页面视图时收到此错误它适用于像这样的网址path users
reStructuredText：README.rst 未在 PyPI 上解析

我有一个托管在 Github 和 PyPI 上的 Python 项目在 Github 上 https github com sloria TextBlob blob master README rst https github com s
Python 3在for循环中更改字典键的值不起作用

我的 python 3 代码没有按预期工作 def addFunc x y print x y def subABC x y z print x y z def doublePower base exp print 2 base exp d
如何使用 Celery 多工作人员启用自动缩放？

命令celery worker A proj autoscale 10 1 loglevel info启动具有自动缩放功能的工作人员当创建多个工人时 me mypc projects x celery multi start mywork
uri 警告中缺少端口：使用 Python OpenCV cv2.VideoCapture() 打开文件时出错

当我尝试流式传输 ipcam 时出现了如下所示的错误 tcp 000000000048c640 uri 中缺少端口警告打开文件时出错 build opencv modules videoio src cap ffmpeg impl h
Django Rest Framework POST 更新（如果存在或创建）

我是 DRF 的新手我阅读了 API 文档也许这是显而易见的但我找不到一个方便的方法来做到这一点我有一个Answer与 a 具有一对一关系的对象Question 在前端我曾经使用 POST 方法来创建发送到的答案api answe
在Python中连续解析文件

我正在编写一个脚本该脚本使用 HTTP 流量行解析文件并取出域目前仅将它们打印到屏幕上我正在使用 httpry 将流量连续写入文件这是我用来删除域名的脚本 usr bin python import re input open r
在 Python 中访问 argparse 的参数值

我正在尝试为我的程序设置一些简单的标志参数但无法弄清楚如何访问它们我有 argparser parser argparse ArgumentParser description Simple PostScript Interpreter
在 HDF5 (PyTables) 中存储 numpy 稀疏矩阵

我在使用 PyTables 存储 numpy csr matrix 时遇到问题我收到此错误 TypeError objects of type csr matrix are not supported in this context so
更新 SQLAlchemy 中的特定行

我将 SQLAlchemy 与 python 一起使用我想更新表中等于此查询的特定行 UPDATE User SET name user WHERE id 3 我通过 sql alchemy 编写了这段代码但它不起作用 session
Streamlabs API 405 响应代码

我正在尝试使用Streamlabs API https dev streamlabs com Streamlabs API 使用 Oauth2 来创建应用程序因此首先我将使用我的应用程序的用户发送到一个授权链接其中包含我的应用程序的客
在父类中访问子类变量

我有一个父类和一个继承的子类我想知道如何访问我的父类中的子类变量我尝试了这个但失败了 class Parent object def init self print x class Child Parent x 1 x Child Er
如何使用 Python 3 正确显示倒计时日期

我正在尝试获取将显示的倒计时基本上就像一个世界末日时钟哈哈有人可以帮忙吗 import os import sys import time import datetime def timer endTime datetime datet
在python中对列表列表执行行总和和列总和

我想用python计算矩阵的行和和列和但是由于信息安全要求我无法使用任何外部库因此为了创建矩阵我使用了列表列表如下所示 matrix 0 for x in range 5 for y in range 5 for pos in

随机推荐

创建一个新单元格，复制 Apache POI 中先前单元格的样式..？

在我的 java 类中我声明单元格如下 HSSFCell cell null 我在很多地方使用这个单元格来创建单元格并设置值样式喜欢 cell row createCell 1 cell setCellValue 1234 00 se
使用 Eclipse Scala 插件启动 HelloWorld 时出现 java.lang.NoSuchMethodError: main

我刚刚开始使用 Scala 并安装了 Eclipse 插件如下所述http www scala lang org node 94 http www scala lang org node 94 但是在输入 Hello World 测试示例
如何从 Google 地图 V3 中删除圆圈？

我用画圆 circle new google maps Circle map map radius r 1 miles in metres 1609 3 m strokeWeight 1 strokeOpacity 0 5 fillOpac
尝试发布时缺少根元素

我已经有一段时间没有将我的应用程序发布到 Azure 了在此期间我将系统从 32 位升级到 64 位这意味着全新安装了 Windows 和 Visual Studio 并且Visual Studio Update 3问世并被应用当我
无法从外部 docker 连接到 dockerized redis 实例

我安装了最新的 docker 没有 boot2docker 但无法连接到本地运行的 dockerized redis 实例你能告诉我我在这里做错了什么吗创建docker 将端口6379映射到127 0 0 1 6379 bash 3 2
HTC 希望中“操作完成”按钮的替代方案？

我为一个应用程序编写了代码其中我编写了 IME ACTION DONE 来编辑文本所有其他设备都支持此操作但在 HTCdesire 中我还没有得到这个完成软键盘按钮我如何在 HTCdesire 中获得此软按钮请明智地为我提供 E
无法让 UIMapView 进行“缩放”/setRegion：第一次加载地图时

我有一个UIViewController加载一张已经有一堆图钉的地图让图钉出现没有问题但我似乎无法得到MKMapView当用户第一次到达mapView时执行setRegion 我尝试将代码放入每一种可能有效的方法中 viewDidLoa
为什么Elasticsearch“not_analyzed”字段被分成术语？

我的映射定义中有以下字段 my field type string index not analyzed 当我索引一个值为my field test some another 该值分为 3 项 test some another 我究竟做错
从 html 表单调用 Javascript

我的问题和例子基于杰森的回答this https stackoverflow com questions 662630 javascript form bypassing default behaviour for ajax 664938
vuetify v-col xs="12" 只填充一半宽度

我想知道为什么当屏幕尺寸 new Vue el app vuetify new Vuetify div div
ursina 错误：“没有名为 Xlib 的模块”

I m trying to use Ursina to make a game I installed it on my Ubuntu Debian terminal using pip install ursina It seemed t
什么是不可变对象？

线程安全和不可变对象有什么关系在多个线程之间共享单个资源是否更容易如果不可变对象是无状态的那么它们可以被集中在像 J2EE 容器这样的容器中吗 thanks 不可变对象是不能更改的对象如果一个对象不能被改变那么就不用担心竞争线程会
根据文件中的键值对设置环境变量，其中一些值是带引号的表达式

我制作了以下 bash 脚本以便从名为的特定文件中导出值params env bin bash SOURCE BASH SOURCE 0 while h SOURCE do resolve SOURCE until the file is
使用 Ionic 3 将文件保存到下载目录

我知道这个链接 https cordova apache org docs en latest reference cordova plugin file where to store files https cordova apache
vfork() child 拥有什么权限？

使用 vfork 创建的进程是否具有与创建者进程即父进程相同级别的权限示例如果我以 root 身份运行一个进程 vfork 子进程是否拥有相同的执行权限开放组 POSIX 规范fork http pubs opengroup or
如何使用 Python 解析用户代理字符串
当 ngrx 存储状态包含 Map 时，为什么无法识别对此 Map 的更改？

我根据他们的示例应用程序迁移到 Ngrx Store v4 1 1 Angular5 一切都像以前一样运行良好但有一个 SubStore 该 SubStore 的状态包含一个已更改的 Map 但对这张地图的更改不知何故无法被识别工作中的
我的身份池 ID 有多敏感？

背景我一直在开发一个消耗AWS资源主要是API网关后面的Lambda 的前端JavaScript应用程序 API 网关资源受 IAM 保护并且应用程序相应地使用 Cognito 提供的大部分内容这包括一个身份池未经身份验证的身份启用
Ninject 每个会话单例？

因此我试图将用户的概念引入我的应用程序并拥有自己的一组自定义登录例程等工作正常在我的模块中我将 IUserSession 绑定到我的实现和 InSingletonScope 现在我怀疑情况确实如此并且已经能够证明这不是正确的做法
如何在python3.2中以相反的顺序读取文件而不将整个文件读取到内存？ [复制]

这个问题在这里已经有答案了我正在使用 python3 2 解析大小为 1 到 10GB 的日志文件需要搜索具有特定正则表达式某种时间戳的行并且我想找到最后一次出现的情况我尝试过使用 for line in reversed li

如何在python3.2中以相反的顺序读取文件而不将整个文件读取到内存？ [复制]

如何在python3.2中以相反的顺序读取文件而不将整个文件读取到内存？ [复制] 的相关文章

随机推荐

热门标签