使用 Python 在文件行中搜索列表条目

2024-02-28

我有一个包含数万行 ASCII 文本的文本文件。我有一个包含数百个要搜索的关键字的列表，单独考虑每一行。最初，如果有任何匹配项，我想返回（打印到屏幕或文件）该行，但最终我想根据匹配数对返回的行进行排名或排序。

所以，我的清单是这样的......

keywords = ['one', 'two', 'three']

我的思路是这样的：

myfile = open('file.txt')
for line in myfile:
    if keywords in line:
        print line

但将其从伪代码转换为工作代码并没有发生。

我还考虑过使用正则表达式：

print re.findall(keywords, myfile.read())

但这让我走上了一条充满不同错误和问题的道路。

如果有人可以提供一些指导、语法或代码片段，我将不胜感激。

您无法测试字符串中是否存在列表。您可以做的是测试另一个字符串中是否存在一个字符串。

lines = ['this is a line without any keywords', 
         'this is a line with one', 
         'this is a line with one and two',
         'this is a line with three']
keywords = ['one', 'two', 'three']

for line in lines:
    for word in keywords:
        if word in line:
            print(line)
            break

The break当第一个单词匹配时，有必要打破“单词”循环。否则它将打印它匹配的每个单词的行。

正则表达式解决方案也有同样的问题。您可以使用与上面相同的解决方案，并在单词上添加一个额外的循环，或者您可以构建一个将自动匹配任何单词的正则表达式。请参阅Python 正则表达式语法 https://docs.python.org/3.4/library/re.html文档。

for line in lines:
    matches = re.findall('one|two|three', line)
    if matches:
        print(line, len(matches))

注意re.findall如果没有匹配项，则返回一个空列表；如果有匹配项，则返回所有匹配项的列表。因此我们可以直接在 if 条件下测试结果，因为空列表的计算结果为False.

您还可以轻松生成这些简单情况的正则表达式模式：

pattern = '|'.join(keywords)
print(pattern)
# 'one|two|three'

要对它们进行排序，您只需将它们放入元组列表中并使用key的论证sorted.

results = []
for line in lines:
    matches = re.findall('one|two|three', line)
    if matches:
        results.append((line, len(matches)))

results = sorted(results, key=lambda x: x[1], reverse=True)

您可以阅读文档 https://docs.python.org/3.4/library/functions.html#sorted for sorted，但是keyargument 提供了一个用于排序的函数。在本例中，我们提取每个元组的第二个元素，这是我们存储该行中匹配项数量的位置，并用它对列表进行排序。

您可以通过这种方式将其应用到实际文件并保存结果。

keywords = ['one', 'two', 'three']
pattern = '|'.join(keywords)

results = []
with open('myfile.txt', 'r') as f:
    for line in f:
        matches = re.findall(pattern, line)
        if matches:
            results.append((line, len(matches)))

results = sorted(results, key=lambda x: x[1], reverse=True)

with open('results.txt', 'w') as f:
    for line, num_matches in results:
        f.write('{}  {}\n'.format(num_matches, line))

您可以阅读与上下文管理器 https://docs.python.org/3.4/reference/compound_stmts.html#the-with-statement，但在这种情况下，它基本上确保您在完成文件后将其关闭。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Python 在文件行中搜索列表条目的相关文章

稀有对象的 python 类型注释，例如 psycopg2 对象

我了解内置类型但是我如何指定稀有对象例如数据库连接对象 def get connection and cursor gt tuple psycopg2 extensions cursor psycopg2 extensions conn
将非常大的Python列表输出保存到mysql表中

我想将 python 生成的列表的输出保存在 mysql 数据库的表中该表如下所示 mysql 中的 myapc8 表 https i stack imgur com 4B4Hz png这是Python代码在此输入图像描述 https
如何返回 cost, grad 作为 scipy 的 fmin_cg 函数的元组

我怎样才能使 scipy 的fmin cg使用一个返回的函数cost and gradient作为元组问题是有f对于成本和fprime对于梯度我可能必须执行两次操作非常昂贵 grad and cost被计算此外在它们之间共享变量可
Matplotlib：如何有效地将大量线段着色为独立渐变

Python 绘图库如何有效地将大量线段着色为独立渐变已经阅读this https stackoverflow com questions 8500700 how to plot a gradient color line in ma
如何过滤 Pandas GroupBy 对象并获取 GroupBy 对象？

当对 Pandas groupby 操作的结果执行过滤时它返回一个数据帧但假设我想执行进一步的分组计算我必须再次调用 groupby 这似乎有点绕有更惯用的方法吗 EDIT 为了说明我在说什么我们无耻地从 Pandas 文档中窃取
在 python pandas 中，如何保存“网格图”？

我对 pandas 绘图工具很陌生在文档中以下命令非常方便 myplot rts ret hist bins 50 by rts primary mic 然而当我尝试从图中获取图形参考并保存它时问题就出现了 myfigure myp
AttributeError：“模块”对象没有属性[重复]

这个问题在这里已经有答案了我有两个 python 模块 a py import b def hello print hello print a py print hello print b hi b py import a def hi
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
Python Anaconda：如何测试更新的库是否与我现有的代码兼容？

我在 Windows 7 机器上使用 Python 2 7 Anaconda 安装进行数据分析和科学计算当新的库发布时例如新版本的 pandas patsy 等您建议我如何测试新版本与现有代码的兼容性是否可以在同一台机器上安装两个
查找 Pandas DF 行中的最短日期并创建新列

我有一个包含多个日期的表有些日期将为 NaN 我需要找到最旧的日期所以一行可能有 DATE MODIFIED WITHDRAWN DATE SOLD DATE STATUS DATE 等因此对于每一行一个或多个字段中都会有一个日期
给定一个排序数组，就地删除重复项，使每个元素仅出现一次并返回新长度

完整的问题我开始在线学习 python 但对这个标记为简单的问题有疑问给定一个排序数组就地删除重复项使得每个元素只出现一次并返回新的长度不分配另一个数组的额外空间您必须通过修改输入来完成此操作数组就地具有 O 1 额外内
是否需要关闭没有引用它们的文件？

作为一个完全的编程初学者我试图理解打开和关闭文件的基本概念我正在做的一项练习是创建一个脚本允许我将内容从一个文件复制到另一个文件 in file open from file indata in file read out file
匹配没有周围字符列表的单词列表

我有这个正则表达式 one common word or another 除非这两个单词相邻否则它匹配得很好 One one s more word word common word or another word more anothe
在骨架图像中查找线 OpenCV python

我有以下图片我想找到一些线来进行一些计算平均长度等我尝试使用HoughLinesP 但它找不到线我能怎么做这是我的代码 sk skeleton mask rows cols sk shape imgOut np zeros row
使用 Python 将连续日期分组在一起

Given dates datetime 2014 10 11 datetime 2014 10 1 datetime 2014 10 2 datetime 2014 10 3 datetime 2014 10 5 datetime 201
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
在 Meteor 应用程序中实现 MongoDB 2.4 的全文搜索

我正在考虑向 Meteor 应用程序添加全文搜索我知道 MongoDB 现在支持此功能但我对实现有一些疑问启用文本搜索功能的最佳方法是什么 textSearchEnabled true 在 Meteor 应用程序中有没有办法添加索引
如何使用 python 定位和读取 Data Matrix 代码

我正在尝试读取微管底部的数据矩阵条形码我试过libdmtx http libdmtx sourceforge net 它有 python 绑定当矩阵的点是方形时工作得相当好但当矩阵的点是圆形时工作得更糟如下所示另一个复杂问题是在某
如何（安全）将 Python 对象发送到我的 Flask API？

我目前正在尝试构建一个 Flask Web API 它能够在 POST 请求中接收 python 对象我使用 Python 3 7 1 创建请求使用 Python 2 7 运行 API 该 API 设置为在我的本地计算机上运行我试图发
无法安装最新版本的 Numpy (1.22.3)

我正在尝试安装最新版本的 numpy 即 1 22 3 但看起来 pip 无法找到最后一个版本我知道我可以从源代码本地安装它但我想了解为什么我无法使用 pip 安装它 PS 我有最新版本的pip 22 0 4 ERROR Could n

随机推荐

使用 spring-hateoas 使用基于 HAL 的 REST 服务

我正在尝试使用 RestTemplate 类使用基于 HAL 的 REST 服务响应正文如下所示 embedded school teachers name Adams state CA links self href http loca
如何在 android 或 ios 移动设备上运行 Nodejs 运行时

我正在尝试使用 Ionic Framework 为 iOS android 开发一款 chrome cast 应用程序为此我在应用程序中需要很少的 NodeJS 包它可以在我的桌面上运行但我不确定它将如何在没有可用的 Node 运行时
Heroku Rails Rake 任务同步生产和本地数据库

我正在尝试创建一个 rake 任务以便我只需键入 rake db sync 即可更新我的本地数据库以匹配生产该解决方案利用 Heroku 团队提供的代码使用 PG 备份导入和导出 Heroku Postgres 数据库 https d
查找包含集合中所有值的最短连续子数组的算法

我有以下问题需要解决给定一组整数例如 1 3 2 以及随机整数数组例如 1 2 2 5 4 0 1 1 2 2 0 3 3 找到包含集合中所有值的最短连续子数组如果找不到子数组则返回空数组 Result 1 2 2 0 3 Or
获取Android上所有应用程序的运行时间

嗨我正在开发一个应用程序我必须在其中获取running time设备上安装的所有应用程序那么是否可以知道别人的应用程序在手机上运行了多长时间呢例如 gmail 应用程序在手机上运行了多长时间有没有API为此或者我们必须开发自己
为什么 JMX 报告的 JVM 堆使用最大值会随时间变化？

我的一个 hadoop 集群的名称节点上的 JVM 堆最大值配置为 8GB 当我使用 JMX 监控 JVM 时报告的最大值不断波动如附图所示 http highlycaffeinated com assets images heapma
Python 可以识别交互运行的文件的更改吗？

我正在做一些故障排除我很好奇是否可以交互地运行 Python 脚本更改脚本中定义的函数保存文件然后让交互式 shell 识别更改这是我目前正在做的一个例子 my script py def dummy func print Som
使用 @parameters 的 T-SQL 动态分组

我想实现 SELECT param1 param2 param3 t field1 sum t amount FROM table t WHERE t field 2 IS NOT NULL AND t field3ID 12345 GRO
scipy PchipInterpolator 实现问题

我正在尝试基于链接实现 PchipInterpolator http docs scipy org doc scipy 0 14 0 reference generated scipy interpolate PchipInterpolat
pdf.js 与本地 pdf 文件

我正在尝试 pdf js 库只想在我的服务器上显示本地 pdf 文件而不是示例提供的 pdf 文件
带有构建优化器的 AOT 和 JIT

我正在关注解决方案here https github com Alekcei AotAndJit使用的JitCompilerFactory加载运行时编译器和自定义装饰器以保留组件和模块元数据但是有了 Angular cli build o
golang中如何通过引用传递结构体类型的接口？

我需要通过引用传递结构类型的接口如下所示由于我不能使用接口指针来构造类型变量我应该如何更改以下代码来修改te价值10 package main import fmt func another te interface te check
获取使用 Chart.js 渲染的折线图 y 轴的最大值

我使用 Chart js 渲染分散折线图效果非常好对于渲染算法我需要找出 y 轴上显示的最高值因此假设数据集中的最大点为 y 248 因此 y 轴显示 250 作为最大值我需要知道它是250 我尝试在运行时检查图表对象如下所
Material UI 主题覆盖：如何全局覆盖子样式？

我正在构建一个应用程序材质UI库 https material ui com 对于 ReactJS 使用主题覆盖 API https material ui com customization overrides global theme
MongoDB C# 2.0 超时异常

我们最近将 Web 应用程序升级到 MongoDB C Driver 2 0 并部署到生产环境在一定负载以下应用程序运行良好一旦生产服务器上的负载超过一定限制应用程序的CPU立即降至0 大约30秒后该异常会被记录多次 System
轮播图像未填充 bootstrap 3 中的宽度

我对这种响应式的东西太陌生了我正在尝试使用新 bootstrap 3 中的轮播但由于某种原因图像没有填充轮播的宽度所有图像的尺寸完全相同 1000x395 无论我做什么它都不会完全填满非常感谢任何和所有的帮助这是我正在使用的代
获取当前的 jQuery 选择器字符串？

调用自定义插件时如何获取当前选择器字符串 my selector p my plugin 想要输出my selector p在我的脚本中我怎样才能访问这个字符串您可以使用selector https api jquery com se
Kubernetes客户子域动态绑定

我有以下用例我们的客户经常在其 K8s 集群上发布新服务这些新服务可以通过负载平衡和 Ingress 从外部访问以便在部署服务后动态配置此负载平衡这对于我们客户的开发团队来说非常容易因为他们不必等到有人手动配置负载平衡他们只需在
点之间的角度？

我有一个三角形 A B C 我试图找到每对三个点之间的角度问题是我可以在网上找到的算法是用于确定向量之间的角度使用向量我可以计算从 0 0 到我所拥有的点的向量之间的角度但这并不能给出三角形内的角度好的这是在维基百科页面上的方法
使用 Python 在文件行中搜索列表条目

我有一个包含数万行 ASCII 文本的文本文件我有一个包含数百个要搜索的关键字的列表单独考虑每一行最初如果有任何匹配项我想返回打印到屏幕或文件该行但最终我想根据匹配数对返回的行进行排名或排序所以我的清单是这样的 keyw

使用 Python 在文件行中搜索列表条目

使用 Python 在文件行中搜索列表条目 的相关文章

随机推荐

热门标签

使用 Python 在文件行中搜索列表条目的相关文章