从文本文件中提取两个分隔符之间的文本

2024-01-01

我目前正在写关于首席执行官自恋的硕士论文。为了衡量它，我必须进行财报电话文本分析。我按照 python 中提供的答案编写了一段代码这个链接 https://stackoverflow.com/questions/36559356/extract-values-between-two-strings-in-a-text-file%20answer，这使我能够从财报电话会议记录中提取问题和解答部分。该文件如下所示（称为“testoestratto.txt”）：

..............................
Delimiter [1]
..............................
A text that I don't need
..............................
Delimiter CEO [2]
..............................
I need this text
..............................
Delimiter [3]
..............................

[...]

..............................
Delimiter CEO [n-1]
..............................
I also need this text
..............................
Delimiter [n]
..............................

我还有另一个 txt 文件（'lista.txt'），我在其中从记录中提取了所有分隔符：

Delimiter [1]
Delimiter CEO [2]
Delimiter [3]
[...]
Delimiter CEO [n-1]
Delimiter [n]

我想做的是从 Delimiter CEO [2] 和 Delimiter [3] 之间以及 Delimiter CEO [n-1] 和 Delimiter [n] 之间的“testoestratto.txt”中提取文本。提取的文本必须写入“test.txt”中。因此，如果“lista.txt”中的分隔符包含单词“CEO”，我需要“testoestratto.txt”中位于该特定分隔符和“lista.txt”中不包含单词“的下一个分隔符”之间的文本首席执行官”在其中。为此，我编写了以下代码：

with open('testoestratto.txt','r', encoding='UTF-8') as infile, open('test.txt','a', encoding='UTF-8') as outfile, open('lista.txt', 'r', encoding='UTF-8') as mylist:
   text= mylist.readlines()
   text= [frase.strip('\n') for frase in text]
   bucket=[] 
   copy = False
   for i in range(len(text)):
      for line in infile:                         
          if line.strip()==text[i] and text[i].count('CEO')!=0 and text[i].count('CEO')!= -1:                                                          
              copy=True                          
          elif line.strip()== text[i+1] and text[i+1].count('CEO')==0 or text[i+1].count('CEO')==-1:
              for strings in bucket:
                  outfile.write(strings + '\n')
          elif copy:
              bucket.append(line.strip())

但是，“test.txt”文件是空的。你可以帮帮我吗？

附：：我是Python的初学者，所以如果代码很乱，我想道歉

您需要在代码中更改一些内容。

首先，这里的关键是在每次迭代读取一次后将行重置回文件的开头。由于您尚未执行此操作，因此您的代码在嵌套 for 循环的第一次迭代之后永远不会从头开始读取文件。您可以使用以下方法执行此操作infile.seek(0).

其次，完成写入文件后，您需要将标志“copy”的值重置为 False。这可确保您不会将不需要的文本写入文件中。此外，您还需要清空存储桶，以避免在输出中多次写入相同的行。

第三，您在elif没有必要的声明。

我对下面的代码进行了更改：

with open('testoestratto.txt','r', encoding='UTF-8') as infile, 
open('test.txt','a', encoding='UTF-8') as outfile, open('lista.txt', 'r', 
encoding='UTF-8') as mylist:
    text= mylist.readlines()
    text= [frase.strip('\n') for frase in text]
    bucket=[]
    copy = False
    for i in range(len(text)):
        for line in infile:
            if line.strip('\n')==text[i] and text[i].count('CEO') > 0:
                copy=True
            elif copy and line.strip('\n') == text[i+1]:
                for strings in bucket:
                    outfile.write(strings + '\n')
                copy = False
                bucket = list()
            elif copy:
                bucket.append(line.strip())
        infile.seek(0)

话虽如此，您还可以优化您的代码。如您所见，这段代码的运行时间为 O(n^3)。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从文本文件中提取两个分隔符之间的文本的相关文章

如果 Excel 文件是由程序创建的，Pandas read_excel 对于具有简单公式的单元格返回 nan [重复]

这个问题在这里已经有答案了 I use pd read excel读取由以下命令创建的 excel 文件openpyxl并从一个网址下载解析后的数据框将给出nan如果单元格值是公式 which formula is simply 100
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
Keras model.predict 函数给出输入形状错误

我已经在 Tensorflow 中实现了通用句子编码器现在我正在尝试预测句子的类概率我也将字符串转换为数组 Code if model model type universal classifier basic class probs
为什么在访问 Python 对象属性时使用 getattr() 而不是 __dict__ ？

在具有一定程度的 Python 对象自省的源代码示例和 SO 答案中常见的模式是 getattr some object attribute name string 是否有理由优先选择这种模式 some object dict attri
Matplotlib 图例，跨列添加项目而不是向下添加项目

对于下面的简单绘图有没有办法让 matplotlib 填充图例以便它从左到右填充行而不是第一列然后第二列 gt gt gt from pylab import gt gt gt x arange 2 pi 2 pi 0 1 gt gt
使用 NumPy 编写一个函数来计算具有特定公差的积分

我想编写一个自定义函数来以特定容差对表达式 python 或 lambda 函数进行数字积分我知道与scipy integrate quad人们可以简单地改变epsabs但我想使用 numpy 自己编写该函数 From 这篇博文 htt
查找正在导入哪些 python 模块

从应用程序中使用的特定包中查找所有 python 模块的简单方法是什么 sys modules是将模块名称映射到模块的字典您可以检查其键以查看导入的模块 See http docs python org library sys html
带有 mkdocs 的本地 mathjax

我想在无法访问互联网的计算机上使用 MathJax 和 Mkdocs 因此我不能只调用 Mathjax CDN Config mkdocs yml site name My Docs extra javascript javascripts
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
使用 Python 绘制 USGS 水文数据甘特图？

我编译了一个数据帧其中包含几个不同流计的 USGS 流数据现在我想创建一个类似的甘特图this https stackoverflow com questions 31820578 how to plot stacked event d
为什么将模块级代码放入函数中然后调用该函数在Python中速度更快？

在亚历克斯马尔泰利的回应中使 Python 脚本面向对象 https stackoverflow com questions 1813117 making a python script object oriented 他提到在 Pyth
使用 if 语句的网格网格和用户定义函数的真值不明确

假设我有一个函数f x y 足够光滑然而有些值仅在有限的意义上存在以sin x x的价值x 0只存在于极限 x gt 0 中在一般情况下我用一个来处理这个问题if陈述如果我在情节中使用它meshgrid我收到一条错误消息 Val
无法使用 python rasterio、gdal 打开 jp2 （来自哨兵）

我试图在 python 中将 jp2 栅格产品作为栅格打开但当我们使用 raterio 和 gdal 包时没有成功我收到此错误 RasterioIOError b4 jp2 not recognized as a supported f
Django 2、python 3.4 无法解码 urlsafe_base64_decode(uidb64)

我正在尝试通过电子邮件激活用户电子邮件有效编码有效我使用了 django1 11 中的方法该方法运行成功在 Django 1 11 中以下内容成功解码为 28 其中 uidb64 b Mjg force text urlsafe
Python 2.7 缩进错误[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
UnicodeDecodeError：部署到 Heroku 时，“utf-8”编解码器无法解码位置 0 中的字节 0xff

我尝试在heroku上部署我的简单django项目但我不明白如何解决这个问题这是git push heroku master remote Traceback most recent call last remote File tmp
为boost python编译的.so找不到模块

我正在尝试将 C 代码包装到 python 中只需一个类即可导出两个函数我编译为map so 当我尝试时import map得到像噪音一样的错误 Traceback most recent call last File
MoviePY 无法在 Windows 上检测 ImageMagick 二进制文件

我刚买了一台新笔记本电脑想要设置MoviePY在那新的Windows 64x Python3 7 0 机器我对所有内容都进行了三次检查但是当涉及到我的代码的文本部分时它向我抛出了这个错误 OSError MoviePy Error

随机推荐

未找到方法定义...使用 Xcode 自动存根？

在询问之前我不想放弃因为这是任何 Java Net IDE 中的基本功能编译器告诉我 Incomplete implementation of class Method definition for someMethod not fou
在 kustomize 中选择性应用名称前缀/名称后缀

目前我们正在使用 HOME bin kustomize edit set nameprefix prefix1 但它正在向我们的所有资源例如 deployment yaml 和 service yaml 添加 nameprefix 我们只
无法使用 C++ 连接到 PostgreSQL

我正在尝试在我的 Mac 上运行 PostgreSQL PostgresQL 本身工作正常我可以创建数据库和表之类的东西但是当我尝试使用 C 连接到 PostgreSQL 时如下所示 include
Git 弄乱了我的文件，在某些地方显示中文字符

免责声明我所说的 Git 是指我搞砸了 Earlier https stackoverflow com questions 17248795 git thinks ini saved in unicode files are bina
如何使用 R 以编程方式提取/解压 .7z (7-zip) 文件

我正在尝试自动提取许多使用 7 zip 压缩的文件我需要自动化这个过程因为a 我想解锁很多年的数据 b 我想与其他人共享我的代码并防止他们手动重复该过程我的计算机上安装了 WinRAR 和 7 zip 我可以使用任一程序轻松地单独打开
构建和验证 Gigya 签名

我编写了一个方法根据 Gigya 的指定时间戳和 UID 来验证 gigya 签名构建签名的说明 http developers gigya com 030 Gigya Socialize API 2 0 010 Developer Gu
可能是C# 4.0编译器错误，其他人可以验证吗？

由于我不知道究竟是哪一部分触发了错误所以我不完全确定如何更好地标记它这个问题是SO问题的副产品C 代码似乎以无效的方式进行优化导致对象值变为 null https stackoverflow com questions 3379894
是否有解决方法可以在 Ruby 中打开包含下划线的 URL？

我正在使用 open uri 来打开 URL resp open http sub domain domain com 如果它包含下划线我会收到错误 URI InvalidURIError the scheme http does not
如何在 C++/CLI 接口中声明默认索引属性

如何在 C CLI 接口中声明默认索引属性请原谅使用命名空间的重复完全限定符号因为我刚刚学习 C CLI 并且希望确保 C 和 C 之间不会发生语言原语的意外混淆 Code is public interface class ITes
代码段的动态重定位

只是出于好奇我想知道是否可以在期间重新定位一段代码程序的执行例如我有一个函数这个函数应该每次执行后都会在内存中进行替换我们想到了一个想法就是使用自修改代码来做到这一点根据网上的一些资源自行修改代码可以在Linux上执行
DICOM StudyInstanceUID 对于患者来说应该是唯一的吗？

在处理 DICOM 研究系列和媒体概念时我想知道这些值对于所有数据是否都是唯一的或者仅对于它们所属的患者而言是唯一的另有表述我可以让 2 名患者的研究系列 SOP 实例 uid 值相同吗或者 DICOM 标准根本不关心这一点
python opencv如何分割血管

我正在尝试使用 Python 和 OpenCV 分割视网膜图像中的血管这是原始图像理想情况下我希望所有血管都像这样非常明显不同的图像这是我到目前为止所尝试过的我拍摄了图像的绿色通道 img cv2 imread images H
由初始值设定项列表初始化的数组存储在哪里？

鉴于这段代码 void someFunction void int array 1 2 3 4 5 6 7 8 9 10 数组的值存储在哪里 Stack Heap 与那些字符串文字一起是不是叫高频堆别的地方我问这个问题是因为我不确定这
如何修改一个活动的另一活动的变量？

比方说头等舱有一个变量字符串当前值红色带有一个通往 Second class 一项活动的按钮 First class Activity 在文本视图中显示变量 currentValue 的值目前为红色如果我们按下按钮它将带我
在 Excel 中调整单元格宽度

我正在使用 xlsxwriter 写入 Excel 工作表我面临的问题是当文本大于单元格大小时它就会被隐藏 import xlsxwriter workbook xlsxwriter Workbook file xlsx worksh
Crashlytics - Firebase 日志中的 Stacktrace 不可读

我刚刚开始使用 React Native Firebase 和 Crashlytics 版本 6 当我打电话时firebase crashlytics recordError error 在JS中catch我在 Firebase Crash
Python 3.10 模式匹配 (PEP 634) - 字符串中的通配符

我有一个很大的 JSON 对象列表我想根据其中一个键的开头来解析这些对象并使用通配符来处理其余的很多键都是相似的比如 matchme foo and matchme bar 有一个内置通配符但它仅用于整个值有点像else 我可能
在struts2中使用tile

我正在关注 Struts2 中的 Tile 教程但遇到以下错误 SEVERE Error configuring application listener of class org apache struts2 tiles StrutsT
自定义声音推送通知不起作用（Flutter）

to XXXX notification title ASAP Alert body Please open your app data screen Nexpage1 sound alarm click action FLUTTER NO
从文本文件中提取两个分隔符之间的文本

我目前正在写关于首席执行官自恋的硕士论文为了衡量它我必须进行财报电话文本分析我按照 python 中提供的答案编写了一段代码这个链接 https stackoverflow com questions 36559356 extract

从文本文件中提取两个分隔符之间的文本

从文本文件中提取两个分隔符之间的文本 的相关文章

随机推荐

热门标签

从文本文件中提取两个分隔符之间的文本的相关文章