在python中读取标头之间的文件

2024-02-27

我有一个大文本文件，其中的值由以“#”开头的标题分隔。如果条件与标头中的条件匹配，我想读取文件直到下一个标头“#”并跳过文件的其余部分。

为了测试我正在尝试读取以下名为 test234.txt 的文本文件：

# abcdefgh
1fnrnf
mrkfr
nfoiernfr
nerfnr
# something
njndjen kj
ejkndjke
#vcrvr

我写的代码是：

file_t = open('test234.txt')
cond = True
while cond:
    for line_ in file_t:
        print(line_)
        if file_t.read(1) == "#":
            cond = False
file_t.close()

但是，我得到的输出是：

# abcdefgh

fnrnf

rkfr

foiernfr

erfnr

something

jndjen kj

jkndjke

vcrvr

相反，我希望两个标头之间的输出由“#”分隔，即：

1fnrnf
mrkfr
nfoiernfr
nerfnr

我怎样才能做到这一点？谢谢！

EDIT: python中使用指定分隔符逐块读取文件 https://stackoverflow.com/questions/38655176/reading-in-file-block-by-block-using-specified-delimiter-in-python谈论读取由标题分隔的组中的文件，但我不想读取所有标题。我只想读取满足给定条件的标头，并且一旦该行到达标有“#”的下一个标头，它就会停止读取文件。

itertools.groupby https://docs.python.org/3/library/itertools.html?highlight=groupby#itertools.groupby可以帮助：

from io import StringIO
from itertools import groupby

text = '''# abcdefgh
1fnrnf
mrkfr
nfoiernfr
nerfnr
# something
njndjen kj
ejkndjke
#vcrvr'''


with StringIO(text) as file:
    lines = (line.strip() for line in file)  # removing trailing '\n'
    for key, group in groupby(lines, key=lambda x: x[0]=='#'):

        if key is True:
            # found a line that starts with '#'
            print('found header: {}'.format(next(group)))

        if key is False:
            # group now contanins all lines that do not start with '#'
            print('\n'.join(group))

请注意，所有这些都是lazy。您只能将两个标题之间的所有项目存储在内存中。

你必须更换with StringIO(text) as file: with; with open('test234.txt', 'r') as file:...

您的测试的输出是：

found header: # abcdefgh
1fnrnf
mrkfr
nfoiernfr
nerfnr
found header: # something
njndjen kj
ejkndjke
found header: #vcrvr

UPDATE正如我误解的那样。这是一个新的尝试：

from io import StringIO
from collections import deque
from itertools import takewhile

from_line = '# abcdefgh'
to_line = '# something'

with StringIO(text) as file:
    lines = (line.strip() for line in file)  # removing trailing '\n'

    # fast-forward up to from_line
    deque(takewhile(lambda x: x != from_line, lines), maxlen=0)

    for line in takewhile(lambda x: x != to_line, lines):
        print(line)

我在哪里使用itertools.takewhile https://docs.python.org/3/library/itertools.html?highlight=takewhile#itertools.takewhile获取行上的迭代器，直到满足条件（直到在您的情况下找到第一个标头）。

the deque部分只是consume pattern https://docs.python.org/3/library/itertools.html?highlight=consume#itertools-recipesitertools 食谱中建议。它只是快进到给定条件不再成立的点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

在python中读取标头之间的文件的相关文章

如何在 Google App Engine 的 Python 中获取 StringProperty 的值？

如何获取 nbd Model 的值我想返回由多个字段组成的描述但我无法让它工作这是我的班级代码 class User ndb Model name ndb StringProperty email ndb StringProperty
python 3 argparse 调用函数

我想在 python3 中创建一个类似命令行类似 shell 的界面 Argparse 似乎负责解析和显示帮助错误消息根据argparse 的 python3 文档 https docs python org 3 5 library
使用 pandas 将字符串对象转换为 int/float

import pandas as pd path1 home supertramp Desktop 100 life 180 data csv mydf pd read csv path1 numcigar Never 0 1 5 Ciga
通用详细视图 ProfileView 必须使用对象 pk 或 slug 调用

我是 Django 2 0 的新手在访问我的个人资料页面视图时收到此错误它适用于像这样的网址path users
如何在Python代码中查找列号

简短问题当按上述方式调用函数时我可以找到行号here https stackoverflow com questions 3056048 filename and line number of python script 同样如何找到
NumPy 和 SciPy - .todense() 和 .toarray() 之间的区别

我想知道使用是否有什么区别优点缺点 toarray vs todense 在稀疏 NumPy 数组上例如 import scipy as sp import numpy as np sparse m sp sparse bsr mat
张量流和线程

下面是来自 Tensorflow 网站的简单 mnist 教程即单层 softmax 我尝试通过多线程训练步骤对其进行扩展 from tensorflow examples tutorials mnist import input dat
按多个键分组并对字典列表的值进行汇总/平均值

在Python中按多个键进行分组并对字典列表进行汇总平均值的最Pythonic方法是什么假设我有一个字典列表如下所示 input dept 001 sku foo transId uniqueId1 qty 100 dept 001
如何使用 PyMongo 在重复键错误后继续插入

如果我需要在 MongoDB 中插入尚不存在的文档 db stock update one document set document upsert True 将完成这项工作如果我错了请随时纠正我但是如果我有一个文档列表并想将它们全
Python 3在for循环中更改字典键的值不起作用

我的 python 3 代码没有按预期工作 def addFunc x y print x y def subABC x y z print x y z def doublePower base exp print 2 base exp d
为什么 __instancecheck__ 没有被调用？

我有以下 python3 代码 class BaseTypeClass type def new cls name bases namespace kwd result type new cls name bases namespace p
用于多个窗口的 Tkinter 示例代码，为什么按钮无法正确加载？

我正在编写一个程序应该按一下按钮即可打开一个窗口按另一个按钮关闭新打开的窗口我使用类以便稍后可以将代码插入到更大的程序中但是我无法正确加载按钮 import tkinter as tk class Demo1 tk Frame
如何使用 django-pyodbc (ubuntu 16.04) 配置数据库设置 Django-MSSQL？

我是 Django 新手目前正在尝试使用另一个数据库来保存我的模型即MS SQL 我的数据库部署在docker容器中 903876e64b67 microsoft mssql server linux bin sh c opt mssq
Django Rest Framework POST 更新（如果存在或创建）

我是 DRF 的新手我阅读了 API 文档也许这是显而易见的但我找不到一个方便的方法来做到这一点我有一个Answer与 a 具有一对一关系的对象Question 在前端我曾经使用 POST 方法来创建发送到的答案api answe
在 matplotlib 中绘制多边形的并集[重复]

这个问题在这里已经有答案了我正在尝试绘制几个多边形的并集matplotlib 具有一定的 alpha 水平我当前的代码在交叉点处颜色较深有没有办法让交叉路口与其他地方的颜色相同 import matplotlib pyplot as
python dicttoxml 多次使用相同的键

我正在尝试做如下所示的 xml
在 Python 中访问 argparse 的参数值

我正在尝试为我的程序设置一些简单的标志参数但无法弄清楚如何访问它们我有 argparser parser argparse ArgumentParser description Simple PostScript Interpreter
在 HDF5 (PyTables) 中存储 numpy 稀疏矩阵

我在使用 PyTables 存储 numpy csr matrix 时遇到问题我收到此错误 TypeError objects of type csr matrix are not supported in this context so
如何在Tensorflow中保存估计器以供以后使用？

我按照教程 TF Layers 指南构建卷积神经网络以下是代码 https github com tensorflow tensorflow blob r1 1 tensorflow examples tutorials layers
Python 中的字符串slugification

我正在寻找 slugify 字符串的最佳方法蛞蝓是什么 https stackoverflow com questions 427102 in django what is a slug 我当前的解决方案基于这个食谱 http code

随机推荐

什么是“SQLiteDatabase 创建且从未关闭”错误？

我已经在我的适配器类中关闭了数据库那么为什么这个错误显示在 logcat 上但我的应用程序不强制关闭但只有错误显示在 log cat 上我应该关闭数据库以忽略此错误我的错误是下面我离开哪个类来关闭数据库我从此链接获取帮助ht
C#，求一个数的最大素因数

我是编程新手正在练习我的 C 编程技能我的应用程序旨在查找用户输入的数字的最大素因数但我的应用程序没有返回正确的答案我真的不知道问题出在哪里你能帮我么 using System using System Collections G
从 Action Script 到 C# 的 Rijndael 加密

我正在尝试在 Action Script 和 C 之间共享加密我的任务是在 C 中解密以下消息 f1ca22a365ba54c005c3eb599d84b19c354d26dcf475ab4be775b991ac97884791017b1
UUID 转换为无符号整数

有没有地方可以将 UUID 压缩转换编码加密为无符号整数我从 sql 表中读取 UUID 历史记录很难看我无法更改我只有一个 unsigned int 来存储它这是 C 以防产生影响对此有什么想法吗谢谢礼萨正如其他人所
在两个容器之间共享/tmp

我在用着docker compose生成两个容器我想分享 tmp这两个容器之间的目录但不与主机 tmp如果可能的话这是因为我正在通过上传一些文件flask to tmp并想要处理这些文件celery flask build comma
撤销 IdentityServer4 中特定会话的访问令牌（参考）

我在用IdentityServer 4带有参考标记的隐式流程我自己做了一个实现IPersistedGrantStore https github com IdentityServer IdentityServer4 blob releas
SVG使用element来克隆SVG

是否可以在单独的 svg 中使用整个其他 svg 我想使用 d3 生成的地图作为同一页面上的图标这是我尝试过的但它不起作用
Angualr2 错误：无法设置仅具有 getter 的 # 的属性值

表格看起来像
IntelliJ + JUnit 5（木星）

My build gradle has testCompile org junit jupiter junit jupiter api 5 0 0 使用标准示例http junit org junit5 docs current user
XmlSerializer 和 IEnumerable：可以进行序列化，无需无参数构造函数：Bug？

在我们的项目中我们广泛使用 XmlSerializer 偶然我发现了一个没有无参数构造函数的类我认为这一定会破坏序列化过程但事实并非如此通过调查这个问题我发现 XmlSerializer 在序列化反序列化时表现得很奇怪IE可枚举
在 git 中为每个部署构建创建一个标签是一个好习惯吗？

我刚刚从 Subversion 切换到 Git Subversion 的集中式架构为其提供了一个有意义的修订号我将其构建到基于 Web 的应用程序的更改日志中以便轻松登录并查看任何给定服务器上正在运行的版本 Git 没有友好的内部版本号
如何使用 REST API 为领事附加手表？

我使用 REST API 来访问领事例如这是我创建条目的方法 curl X PUT d localhost 8500 v1 kv example lt lt lt FooValue 我想添加watches当键值更改时通知我的服务的领事
将函数发布到门户后，Azure 函数在函数列表中不可见

我是Azure函数的新手在函数发布到门户后发现这里但它在函数列表中不可见我附上了示例代码的快照和一个空的天蓝色列表请帮忙添加kudu ui 这里我找到了 wwwroot下唯一的host json Hi All 添加了kudu ui
如何定义 Airflow 上 STFP Operator 的操作？

class SFTPOperation object PUT put GET get operation SFTPOperation GET NameError name SFTPOperation is not defined 我在这里定
维吉尼亚密码解密

我正在尝试使用维吉尼亚密码进行加密和解密这是一项更大任务的一部分而维吉尼亚密码只扮演了一小部分我从 bash 得到了这个加密脚本可以正常工作问题是我如何反向使用相同的代码来解密代码 usr local bin bash vigen
Java / Android 编程 - 循环失败

我正在使用带有计时器的 while 循环问题是计时器并不是在每个循环中都使用仅在第一次使用第一次之后循环内包含的语句将在没有我设置的延迟的情况下执行既然计时器包含在 while 循环内这怎么可能呢有什么解决办法吗 int co
如何在 HTML 中将文本和图像并排放置？

我希望文本和图像彼此相邻但我希望图像位于屏幕的最左侧而我希望文本位于屏幕的最右侧这就是我目前所拥有的 img src website art png height 75 width 235 h3 font face Verdana T
如何确定 Django 模型中的类实例是否是另一个模型的子类？

我有一堂课叫BankAccount作为基类我也有CheckingAccount and SavingsAccount继承自的类BankAccount BankAccount 不是一个抽象类但我不从中创建对象只创建继承类然后我执行如
我不知道为什么这个画布是空的

因此我一直在研究如何用其他图像填充画布的几个示例一旦我稍微重新排列代码它们就会停止工作我注意到画布上的一些行为与其他类型的 JavaScript 变量相比没有意义我想知道发生了什么例如如果我做这样的事情
在python中读取标头之间的文件

我有一个大文本文件其中的值由以开头的标题分隔如果条件与标头中的条件匹配我想读取文件直到下一个标头并跳过文件的其余部分为了测试我正在尝试读取以下名为 test234 txt 的文本文件 abcdefgh 1fnrnf mrkfr

在python中读取标头之间的文件

在python中读取标头之间的文件 的相关文章

随机推荐

热门标签

在python中读取标头之间的文件的相关文章