在 Python 中将列表项与大文件中的行进行匹配的最有效方法是什么？

2023-12-20

我有一个大文件（5Gb），名为my_file。我有一个名为my_list。读取文件中每一行的最有效方法是什么，如果来自my_list匹配以下行中的项目my_file，创建一个名为的新列表matches包含以下行中的项目my_file以及来自的项目my_list发生比赛的地方。这是我正在尝试做的事情：

def calc(my_file, my_list)
    matches = []
    my_file.seek(0,0)
    for i in my_file:
        i = list(i.rstrip('\n').split('\t'))
        for v in my_list:
            if v[1] == i[2]:
                item = v[0], i[1], i[3]
                matches.append(item)
    return matches

这是其中的一些行my_file:

lion    4    blue    ch3
sheep   1    red     pq2
frog    9    green   xd7
donkey  2    aqua    zr8

这里有一些项目my_list

intel    yellow
amd      green
msi      aqua

在上面的示例中，所需的输出（列表的列表）将是：

[['amd', 9, 'xd7'], ['msi', 2, 'zr8']]

我的代码目前可以工作，尽管速度很慢。使用生成器或序列化有帮助吗？谢谢。

你可以建立一个字典来查找 v。我添加了进一步的小优化：

def calc(my_file, my_list)

    vd = dict( (v[1],v[0]) for v in my_list)

    my_file.seek(0,0)
    for line in my_file:
        f0, f1, f2, f3 = line[:-1].split('\t')
        v0 = vd.get(f2)
        if v0 is not None:
           yield (v0, f1, f3)

对于大型企业来说这应该要快得多my_list.

Using get比检查是否更快i[2] is in vd+ 访问vd[i[2]]

为了获得超出这些优化的更多加速，我建议http://www.cython.org http://www.cython.org

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

list

match

在 Python 中将列表项与大文件中的行进行匹配的最有效方法是什么？的相关文章

如何在 Debian 上的 virtualenv 中安装 numpy？

注参见这另一篇文章 https stackoverflow com questions 6442754 how to install h5py numpylibhdf5 as non root on a debian linux syst
通过 python 中的另外两个修改数组[重复]

这个问题在这里已经有答案了假设我们有三个一维数组 A 长度为 5 B 长度相同示例中为5 C 更长比如长度为 100 C最初用零填充 A给出索引C应更改的元素它们可能会重复以及B给出应添加到初始零的值C 例如如果A 1 3 3
Flask 中“缺少 CSRF 令牌”，但它在模板中呈现

问题当我尝试登录使用 Flask login 时我得到Bad Request The CSRF session token is missing但令牌正在呈现在模板中 secret key 已设置并且我在本地运行localhost
使用 NumPy 编写一个函数来计算具有特定公差的积分

我想编写一个自定义函数来以特定容差对表达式 python 或 lambda 函数进行数字积分我知道与scipy integrate quad人们可以简单地改变epsabs但我想使用 numpy 自己编写该函数 From 这篇博文 htt
如何在Windows中的Python 3.9下pip安装pickle？

我需要pickle https docs python org 3 9 library pickle html module pickle包安装在我的下面Python 3 9在 Windows 10 下我尝试过的当尝试与pip inst
django 模板 - 如何动态访问变量？

假设我有一个具有以下上下文的 django 模板 data1 this is data1 data2 this is data2 data name data2 现在我知道了data name 假设它是 data2 是否可以用它来访问变量d
App Engine NDB：如何访问属性的 verbose_name

假设我有这个代码 class A ndb Model prop ndb StringProperty verbose name Something m A m prop a string value 当然现在如果我打印 m prop 它会
使用pathlib获取主目录

翻看新的pathlib在 Python 3 4 中我注意到没有任何简单的方法来获取用户的主目录我能想到的获取用户主目录的唯一方法是使用旧的os path像这样的库 import pathlib from os import path p
在请求中设置端口

我正在尝试利用cgminer使用 Python 的 API 我对利用requests图书馆我了解如何做基本的事情requests but cgminer想要更具体一点我想缩小 import socket import json sock
php如何生成动态list()？

根据我的理解这就是 list 的工作原理 list A1 A2 A3 array B1 B2 B3 所以在帮助下list 我们可以相应地从数组中分配值这是我的问题如何生成动态list 1 基于数据库返回结果我不确定有多少但我将其全
为什么将模块级代码放入函数中然后调用该函数在Python中速度更快？

在亚历克斯马尔泰利的回应中使 Python 脚本面向对象 https stackoverflow com questions 1813117 making a python script object oriented 他提到在 Pyth
使用 if 语句的网格网格和用户定义函数的真值不明确

假设我有一个函数f x y 足够光滑然而有些值仅在有限的意义上存在以sin x x的价值x 0只存在于极限 x gt 0 中在一般情况下我用一个来处理这个问题if陈述如果我在情节中使用它meshgrid我收到一条错误消息 Val
Seaborn 中没有线性拟合的散点图

我想知道是否有办法关闭seaborn中的线性拟合lmplot或者是否有一个等效函数可以生成散点图当然我也可以使用 matplotlib 但是我发现 seaborn 中的语法和美学非常吸引人例如我想绘制以下情节 import sea
如何获取分类数据的分组条形图

I have a big dataset with information about students And I have to build a graph of dependencies between different value
如何通过 Python Requests 库使用基本 HTTP 身份验证？

我正在尝试在 Python 中使用基本的 HTTP 身份验证我正在使用Requests https docs python requests org 图书馆 auth requests post http hostname auth HT
从 wxPython 事件处理程序中调用函数

我正在努力寻找一种在 wxPython 事件处理函数中使用函数的方法假设我有一个按钮单击该按钮时它会使用事件处理程序运行一个名为 OnRun 的函数但是用户忘记单击 OnRun 按钮之前的 RadionButton 我想弹出一个
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
是否可以使用 Anaconda 包作为 Google Cloud Functions 的依赖项？

我正在使用 Python 运行时编写 Google Cloud Function 我需要包含一些无法使用的依赖项pip 如文档中所述here https cloud google com functions docs writing spe
基于值的 matplotlib 条形图颜色

有没有一种方法可以根据条形图的值对条形图的条形进行着色例如 values below 0 5 red values between 0 5 to 0 green values between 0 to 08 blue etc 我找到了一些
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

Dart - 对 Base64 字符串进行编码和解码

如何原生转换string gt base64 and base64 gt string 我只找到这个字节到base64字符串 http www dartlang org docs dart up and running contents c
在 SwiftUI 中的 2 个子视图之间共享 @State var Bool

我是一名设计师我尝试学习 SwiftUI 是为了好玩也是为了确保我更多地了解我的开发团队需要我做什么有一些非常简单的事情我就是做不到正如您从下面的这段代码中看到的我只想在 var showHello 为 true 时显示文本并且
第一范式和时间数据

第一个范式表示行顺序不重要这是否意味着以日期作为键一部分的表不是 1NF 例如考虑一个股票价格表其中日期时间是 PK 的一部分在本例中您可以通过按日期对数据进行排序并选择顶部的 1 行来获取最后的价格这是否意味着为了满足 1N
如何根据条件进行正则表达式匹配？

我正在尝试制作一个条件正则表达式我知道还有其他关于堆栈溢出的帖子但问题太具体了问题如何创建一个仅在给定条件下匹配某些内容的正则表达式一个例子一个例子是如果我们有一个字符串列表这是在java中 String nums 42 3
WinRT：如何确保图像在画布上以像素完美的方式绘制？

我正在添加Image http msdn microsoft com en us library windows apps windows ui xaml controls image aspx实例到Canvas http msdn mic
React/Redux 调度不触发减速器

努力从我的 React 组件中调度一个操作这是我的第一个 Redux 应用程序一切似乎都工作正常但如果是的话我就不会发布这个问题我正在使用 Redux devTool 来调试我的应用程序如果我使用 devTools 中的调度程序
如何用Java制作一个简单的元音计数器方法？

这是我的方法 public char ReturnAllVowels String word for int i 0 i lt word length i if word contains a e i o u 它说不能应用于 String
Preg_match 到正则表达式等效表达式以匹配任何 Unicode 字母

我被困在preg match vs regex 我正在尝试验证客户端的用户输入值对于他们的名字和姓氏我有这个表达方式适合preg match p L s ui lt working fine with preg match 我需要 J
我如何通过迁移的帮助将数据插入表中，并且该表是之前通过另一个迁移生成的

我有一个包含用户名角色和公司的角色表我想通过新的迁移文件将数据插入到该表中那么我该怎么做我得到了这样的代码但我如何使用它以及我无法理解的地方 class Foo lt ActiveRecord Migration def self
为什么 EOF（文件结尾）在行尾没有 '\n' 之前不起作用？

于是我开始用ANSI C的书来学习C 本书的早期练习之一是编写一个程序该程序接受文本输入并在新行上打印每个单词这很简单所以我做了 include
如何从 Visual Studio 中打开 TFS 中的单个变更集

有人通过电子邮件给我发送了一个 TFS 变更集 ID 现在我正在尝试打开这个单个变更集在 Visual Studio 中 VS 2008 如果重要的话有一个简单的方法可以做到这一点吗在 Visual Studio 中键盘快捷键可用于
在java中使用没有“循环”的标签

我一直认为标签必须仅与循环一起使用但似乎并非如此给出这样的代码 public class LabelTest public static void main String args label1 System out println l
鼠标放大算法(OpenGL)

我有一个带有左上角坐标系的 OpenGL 场景当我 glScale 时它从左上角的 0 0 放大我希望它从鼠标坐标相对于 OGL 框架放大这是怎么做到的谢谢我相信这可以通过四个步骤来完成使用窗口系统即 GLUT 或 S
如果结果来得太晚，则限制但丢弃结果

我正在编写一个用户界面用户可以在其中输入搜索词并且列表会不断更新以提供建议我的第一反应是 Rx 原始 Throttle 是一个完美的匹配但它让我成功了一半这些建议需要一段时间才能获取因此我在 UI 线程上异步获取它们问题是如
errno 值未更新 (c++)

我是编码新手目前正在学习 C 我了解一点 C 正在阅读 math h 中的函数并阅读 errno 根据我提到的网站域错误输入参数超出了运算的数学定义范围例如 std sqrt 1 std log 1 或 std acos 2 如果设
使用非原始参数进行参数化 JUnit 测试？

很有可能使用参数运行 JUnit 测试其中使用不同的数据多次执行相同的测试方法如下所述 http junit org apidocs org junit runners Parameterized html http junit org
Spring可为空注释生成未知枚举常量警告

在我的应用程序中每当我添加 Nullable 从进口org springframework lang Nullable 到任何字段我都会收到构建警告警告 java 未知的枚举常量 javax annotation meta When
将点添加到r中的3d图中

我是 R 中 3D 绘图的初学者我需要帮助我尝试绘制一些简单的抛物面 library rgl x lt seq 1 1 0 2 y lt x f lt function x y x 2 y 2 z lt outer x y f pers
如何在 Typescript 中使用 Ziggy 包

所以我想创建一个使用 axios 检索数据的打字稿类但我无法找到使用的方法route ziggy 在我的 Typescript 类中提供的函数因为它不是 npm 包我对 Node js 还是很陌生任何帮助是极大的赞赏 import
在 Python 中将列表项与大文件中的行进行匹配的最有效方法是什么？

我有一个大文件 5Gb 名为my file 我有一个名为my list 读取文件中每一行的最有效方法是什么如果来自my list匹配以下行中的项目my file 创建一个名为的新列表matches包含以下行中的项目my file以及来自的

在 Python 中将列表项与大文件中的行进行匹配的最有效方法是什么？

在 Python 中将列表项与大文件中的行进行匹配的最有效方法是什么？ 的相关文章

随机推荐

热门标签

在 Python 中将列表项与大文件中的行进行匹配的最有效方法是什么？的相关文章