Python、嵌套循环、匹配和性能

2023-12-24

我正在尝试使用 Python 2.7 和 Levenshtein 函数将姓氏列表与全名列表进行匹配。为了减少工作量，我仅在第一个字母相同的情况下进行匹配（尽管这似乎在性能方面没有太大差异）。如果找到匹配项，则将从全名中删除匹配的单词（以使后续的名字匹配更容易）。两个列表都包含数万个条目，因此我的解决方案相当慢。在不解析全名的情况下如何加快速度？这是我到目前为止所得到的（对于姓氏由多个单词组成的情况，我省略了一些 if 条件）：

import Levenshtein

listoflastnames=(['Jones', 'Sallah'])
listoffullnames=(['Henry', 'Jones', 'Junior'],['Indiana', 'Jones'])


def match_strings(lastname, listofnames):
    match=0
    matchedidx=[]
        for index, nameelement in enumerate(listofnames):        
            if lastname[0]==nameelement [0]:
                if Levenshtein.distance(nameelement, lastname)<2:
                    matchedidx.append(index)
                    match=match+1
    if match==1:
        newnamelist = [i for j, i in enumerate(listofnames) if j not in matchedidx]
    return 1, newnamelist 
return 0, listofnames



for x in listoflastnames:
    for y in listoffullnames:
        match, newlistofnames=match_strings(x,y)
        if match==1:
            #go to first name match...

任何帮助，将不胜感激！

更新：与此同时，我使用了多处理模块来让我的所有 4 个核心而不是仅一个核心来处理该问题，但匹配仍然需要很多时间。

这简化了for循环中match_string功能，但在我的测试中并没有明显提高速度。最大的损失在于两个for循环使用姓氏和全名。

def match_strings(lastname, listofnames):
    firstCaseMatched = [name for name in listofnames if lastname[0] == name[0]]
    if len(firstCaseMatched):
        matchedidx = [index for index, ame in enumerate(firstCaseMatched) if Levenshtein.distance(lastname, name) < 2]
        match = len(matchedidx)
    else:
        match = 0
    if match == 1:
        newnamelist = [i for j, i in enumerate(listofnames) if j not in matchedidx]
        return 1, newnamelist
    return 0, listofnames

您可能需要对已知姓氏列表进行排序，将它们分成dict对于每个起始字符。然后将名称列表中的每个名称与该名称进行匹配。

假设全名列表始终将名字作为第一个元素。您可以将比较限制为仅与其他元素进行比较。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python、嵌套循环、匹配和性能的相关文章

Python设置1和True的解释

在 IPython 3 交互式 shell 中 In 53 set2 1 2 True hello In 54 len set2 Out 54 3 In 55 set2 Out 55 hello True 2 是因为 1 和 True 得到
如何检索分配给 Django 中的组的所有权限

我正在执行一项任务来检索分配给 Django 中的组的一组权限我可以使用以下代码获取创建的组但无法使用它来获取分配给它们的权限 from django contrib auth models import Group Permissio
如何在seaborn热图标签中使用科学计数法？

我正在尝试在 python 中使用seaborn 获取热图不幸的是即使数字非常大它也没有使用科学记数法我想知道是否有任何简单的方法可以转换为科学记数法或任何其他合理的格式这是显示问题的一段代码 import seaborn as
sy.sympify(str(表达式)) 不等于表达式

据我了解 str将 SymPy 表达式转换为字符串并sympify将字符串转换为 SymPy 表达式因此我希望以下内容成立对于合理的表达 gt gt gt sy sympify str expr expr True 我尝试过这个确实
如何使用 python、openCV 计算图像中的行数

我想数纸张所以我正在考虑使用线条检测我尝试过一些方法例如Canny HoughLines and FLD 但我只得到处理过的照片我不知道如何计算有一些小线段就是我们想要的线我用过len lines or len contours
如何调试 numpy 掩码

这个问题与this one https stackoverflow com q 73672739 11004423 我有一个正在尝试矢量化的函数这是原来的函数 def aspect good angle float planet1 goo
如何在 numpy 数组中查找并保存重复的行？

我有一个数组例如 Array 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 1 1 1 2 2 2 我想要输出以下内容的东西 Repeated 1 1 1 2 2 2 保留重复行的数量也可以例如 Repeated 1 1
将多索引转换为行式多维 NumPy 数组。

假设我有一个类似于以下示例的 MultiIndex DataFrame多索引文档 http pandas pydata org pandas docs stable advanced html gt gt gt df 0 1 2 3 fir
打印一份拥有多个家庭的人员名单，每个家庭都有多个电话号码

我有一类 Person 它可以有多个 Home 每个 Home 都有一个或多个电话号码我已经定义了类但现在我正在尝试创建一个视图其中列出每个人的所有家庭以及每个家庭地址的所有电话号码类似于 john smith 123 fake s
如何仅注释堆积条形图的一个类别

我有一个数据框示例如下所示 data Date 2021 07 18 2021 07 19 2021 07 20 2021 07 21 2021 07 22 2021 07 23 Invalid NaN 1 1 NaN NaN NaN N
导入目录下的所有模块

有没有办法导入当前目录中的所有模块并返回它们的列表例如对于包含以下内容的目录 mod py mod2 py mod3 py 它会给你
我可以在 if 语句中使用“as”机制吗

是否可以使用as in if类似的声明with我们使用的例如 with open tmp foo r as ofile do something with ofile 这是我的代码 def my list rtrn lst True if
重定向 python 交互式帮助()

我正在为使用 Qt 的应用程序开发交互式 python shell 但是我似乎无法获得重定向的交互式帮助我的 python 代码中有这个 class OutputCatcher def init self self data def wr
过滤嵌套的 JSON 对象

我有一个搜索栏您可以在其中输入员工姓名它应该根据过滤器返回姓名我有一个嵌套的 JSON 对象如下所示我需要深入了解该对象以访问数组中的员工姓名您可以看到我尝试实现的多个选项它们已被注释掉我的问题是代码没有过滤名称并返回所有名
避免“散点/点/蜂群”图中的数据点重叠

使用绘制点图时matplotlib 我想偏移重叠的数据点以使它们全部可见例如如果我有 CategoryA 0 0 3 0 5 CategoryB 5 10 5 5 10 我想要每一个CategoryA 0 数据点并排设置而不是彼此重叠
旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本我尝试运行这给了我错误消息 ubun ner 3 NeuroNER master src pyt
PYTHON：从 txt 文件中删除 POS 标签

我有以下 txt 文件其中包含 POS 词性 http en wikipedia org wiki Part of speech tagging 每个单词的标签不用 jj到说 vb 我 ppss是 bedz愤怒 jj在在 dt无与伦
OSError: [WinError 193] %1 不是有效的 Win32 应用程序，同时使用 CTypes 在 python 中读取自定义 DLL

我正在尝试编写用 python 封装 C 库的代码我计划使用 CTypes 来完成此操作并使用 Visual Studio 来编译我的 DLL 我从一个简单的函数开始在 Visual Studio 内的标头中添加了以下内容然后将其构
当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？

在做某些实验时我们通常在 70 上进行训练在 33 上进行测试但是当您的模型投入生产时会发生什么可能会发生以下情况训练集 Ser Type Of Car 1 Hatchback 2 Sedan 3 Coupe 4 SUV 经过
正则表达式 - 匹配不包含字符串的模式

我对正则表达式很陌生并且一直在寻找方法来做到这一点但没有成功给定一个字符串我想删除以 abc 开头以 abc 结尾且中间不包含 abc 的任何模式如果我做 abc abc abc 它将匹配以 b 开头以 abc 结尾并且中间包

随机推荐

尝试从 Eclipse 到 Android Studio 执行 Android 应用程序时出现异常

我尝试将 Eclipse Android 项目迁移到 Android Studio 我尝试了两种方法直接从 Android Studio 打开并先迁移到 Eclipse 中的 Gradle 然后在 Android Studio 中打开它
EPPlus 的通用 Excel 生成器函数

如何为 LINQ 查询构建通用 EPPlus 电子表格函数更新该需求专门针对 ASP NET MVC 应用程序我所做的只是创建一个接受列表的通用函数我使用反射来获取属性列表这将成为我们的列标题最后我只是让 EPPlus 完成所
是否可以在 Google Apps 脚本中执行 ImportRange？

我今天一直在玩 Google Apps 脚本并尝试编写一些自定义电子表格函数我已经进行了一些搜索但找不到我的查询的答案我知道在 Google 电子表格上您可以在电子表格的单元格中使用 ImportRange 如下所示 Import
使用 foreach 迭代 IQueryable 会导致内存不足异常

我正在使用 foreach IQueryable 和 LINQ to SQL 迭代一个小型 10GB 表看起来像这样 using var conn new DbEntities CommandTimeout 600 100 var dta
Kubernetes NGINX 入口重写目标注释破坏

我正在 Windows 的 docker 桌面下运行 kubernetes v1 16 我已经使用 helm 安装了 nginx ingress 控制器 v1 7 9 我已更新我的主机文件以包含以下条目 127 0 0 1 applicat
使用 @font-face 在 IE 中显示无样式内容的 Flash

我正在开发一个网站该网站使用 Open Sans 字体作为正文并使用 Font Squirrel 生成的 EOT SVG WOFF 和 TTF 字体文件和样式表我首先将字体 CSS 包含在页面标题中但是当我在 IE7 IE8 甚至
我可以清除托管对象上下文吗？

问题我正在进行一次非常大的导入其中解析了一个 XML 文件对于每 10 个解析的托管对象我想保存托管对象上下文并删除内存中的这 10 个对象这样内存中的对象永远不会超过 10 个保存后如何清除上下文以便所有对象都从内存中消失
获取 MD5 和 SHA-1

我正在寻求一些帮助来在我的 iPhone 应用程序中获取 MD5 和 SHA 1 有人可以告诉我如何获得这些吗 include
汇编：32 位寄存器的 64 位乘法

我有一个关于 x86 汇编中 64 位乘法的实现的问题我已经发布了我能够理解的代码我不知道其余的人在做什么而且我可能在我已经做过的事情中犯了错误任何方向将不胜感激 dest at ebp 8 x at ebp 12 y at ebp
HTML 5 响应式 Canvas 中的鼠标位置

我搜索过其他问题但没有一个适合我的情况我有一个画布元素
使用 Swift 在 iOS WKWebview 中捕获 Javascript 事件

我正在使用网络编程语言构建一个应用程序并希望在用户单击 HTML 按钮时启动相机由于我希望我的相机视图是自定义的因此我需要使用 Swift 进行设计因此当用户单击此 HTML 按钮时我想在 Swift 中捕获此单击以便可以
如何从 GAC 中提取程序集？

我必须处理一个包它将程序集直接安装到 GAC 中例如位于 windows assembly 深处的某个位置如何将实际程序集 DLL 从 GAC 转移到普通文件系统中 Thanks 我使用了来自的建议本文 http blogs msd
使用 iOS 6 UITableView dequeueReusableCellWithIdentifier:forIndexPath 时设置 UITableViewCell 的样式：

我正在尝试弄清楚如何设置UITableViewCellStyle当使用 iOS 6 中的新方法时UITableView 以前当创建UITableViewCell我会改变UITableViewCellStyle调用时使用枚举创建不同类型的默
如何将我的 koa 路线分割成单独的文件？

我正在尝试找出如何将我的路线分成单独的文件到目前为止我已经有了这个但它不起作用我刚刚得到Not found当我尝试访问时http localhost 3001 api things server js var koa require
循环赛分组名单组合

编辑我的问题并不像有人标记的那样重复另一个问题是不正确的甚至不起作用我尝试了几种方法对 itertools combinations 的结果进行分组但无法得出正确的输出在游戏中创建比赛需要它每支球队每天都需要比赛但仅限一次
计算机视觉：提取有关给定轮廓的形状的信息（例如尖的、圆形的......）

给定线条和顶点形式的形状的 2D 轮廓如何从中提取信息比如尖的圆的直线形状与给定形状的相似度代码不是必需的我更感兴趣涉及的概念和技术名称指导我的搜索提前致谢影像瞬间一种方法是计算二维轮廓所描述的形状的一阶和二阶中心
全文搜索：Whoosh Vs SOLR

我正在开发一个 Django 项目我需要在其中实现全文搜索我看过 SOLR 并发现了一些很好的评论但由于它是用Java实现的需要在系统上安装java环境和Python 在寻找 SOLR 的 python 等效项时我见过 Whoos
将 scala 代码概括为函数

所以我最近不小心写了一个Scala问题的Haskell答案由于对 Haskell 相当熟悉解决方案对我来说很容易 myMaxBy a gt a gt Ordering gt a gt a myMaxBy undefined myMaxB
在 BigQuery 中流式传输数据

在 BigQuery 中流式传输数据后新数据仅在表中可用一段时间因为我刷新页面数据消失了但我仍然可以查询主要问题是每次我关闭选项卡并再次从存储访问它时可以看到表中的数据但当我刷新页面时它又消失了数据在表中有时你会看到这样的消
Python、嵌套循环、匹配和性能

我正在尝试使用 Python 2 7 和 Levenshtein 函数将姓氏列表与全名列表进行匹配为了减少工作量我仅在第一个字母相同的情况下进行匹配尽管这似乎在性能方面没有太大差异如果找到匹配项则将从全名中删除匹配的单词以使后续

Python、嵌套循环、匹配和性能

Python、嵌套循环、匹配和性能 的相关文章

随机推荐

热门标签

Python、嵌套循环、匹配和性能的相关文章