检查字符串是否是字符串列表中的子字符串的最快方法

2023-11-27

我有一个包含 4000 个不同名字的静态列表：因此列表的长度很大（4000），但每个字符串大约有 4 到 12 个字符（它们是名字）。

然后，我有一个从数据库检索到的 10000 个字符串的动态列表：这些字符串可能具有任意长度。

我需要针对 10000 个字符串中的每一个输出该字符串是否包含 4000 个名称之一，如果包含，则输出哪一个。如果它包含多个名称，我只需要其中一个（即第一个）。而且，不太可能找到这样的名称，因此可能 10000 个中只有 10 个包含名称。

到目前为止我的代码：

names # list of 4000 short static names
fields # list of 10000 retrieved strings

def findit(element):
    for name in names:
        if name in element:
            return name
    return None

output = [findit(element) for element in fields]

这当然有效。但是，它非常慢，因为它不太可能找到名称，并且因为我正在测试是否是子字符串而不是相等（即我不能使用二等分或其他基于排序的索引技术）。它几乎每时每刻都会完整扫描所有名单。所以基本上，它执行大约 10000 x 4000 = 4000 万次“in”比较。

有没有一种算法可以优化这种搜索？

您可以考虑将名称列表转换为一个正则表达式。以这个小小的名单为例：

names = ['AARON',
    'ABDUL',
    'ABE',
    'ABEL',
    'ABRAHAM',
    'ABRAM',
    'ADALBERTO',
    'ADAM',
    'ADAN',
    'ADOLFO',
    'ADOLPH',
    'ADRIAN',
]

这可以用以下正则表达式表示：

\b(?:AARON|ABDUL|ABE|ABEL|ABRAHAM|ABRAM|ADALBERTO|ADAM|ADAN|ADOLFO|ADOLPH|ADRIAN)\b

但这不会非常有效。像树一样构建的正则表达式会更好地工作：

\b(?:A(?:B(?:E(?:|L)|RA(?:M|HAM)|DUL)|D(?:A(?:M|N|LBERTO)|OL(?:FO|PH)|RIAN)|ARON))\b

然后，您可以自动生成该正则表达式——可能首先创建一个dict- 名称列表中的树结构，然后将该树转换为正则表达式。对于上面的例子，中间树看起来像这样：

...可以选择简化为：

{
    'A': {
        'ARON': {
            '': {}
        }
        'B': {
            'DUL': {
                '': {}
            },
            'E': {
                '': {}, 
                'L': {
                    '': {}
                }
            },
            'RA': {
                'HAM': {
                    '': {}
                },
                'M': {
                    '': {}
                } 
            } 
        }, 

... etc

以下是执行此操作的建议代码：

import re 

def addToTree(tree, name):
    if len(name) == 0:
        return
    if name[0] in tree.keys():
        addToTree(tree[name[0]], name[1:])
    else:
        for letter in name:
            tree[letter] = {}
            tree = tree[letter]
        tree[''] = {}

# Optional improvement of the tree: it combines several consecutive letters into 
# one key if there are no alternatives possible
def simplifyTree(tree):
    repeat = True
    while repeat:
        repeat = False
        for key, subtree in list(tree.items()):
            if key != '' and len(subtree) == 1 and '' not in subtree.keys():
                for letter, subsubtree in subtree.items():
                    tree[key + letter] = subsubtree
                del tree[key]
                repeat = True
    for key, subtree in tree.items():
        if key != '': 
            simplifyTree(subtree)

def treeToRegExp(tree):
    regexp = [re.escape(key) + treeToRegExp(subtree) for key, subtree in tree.items()]
    regexp = '|'.join(regexp)
    return '' if regexp == '' else '(?:' + regexp + ')'

def listToRegExp(names):
    tree = {}
    for name in names:
        addToTree(tree, name[:])
    simplifyTree(tree)
    return re.compile(r'\b' + treeToRegExp(tree) + r'\b', re.I)

# Demo
names = ['AARON',
'ABDUL',
'ABE',
'ABEL',
'ABRAHAM',
'ABRAM',
'ADALBERTO',
'ADAM',
'ADAN',
'ADOLFO',
'ADOLPH',
'ADRIAN',
]

fields = [
    'This is Aaron speaking',
    'Is Abex a name?',
    'Where did Abraham get the mustard from?'
]

regexp = listToRegExp(names)
# get the search result for each field, and link it with the index of the field
results = [[i, regexp.search(field)] for i, field in enumerate(fields)]
# remove non-matches from the results
results = [[i, match.group(0)] for [i, match] in results if match]
# print results
print(results)

看到它运行repl.it

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

检查字符串是否是字符串列表中的子字符串的最快方法的相关文章

为什么类型提示不能在 for 循环中使用？

在 a 中注释目标for声明无效 gt gt gt for i str in test string File
Django celery 4 - ValueError：启动 celery 工作程序时，以 10 为基数的 int() 的文字无效

我已将 celery py 配置为其文档但我将 celery 代理 URL 放入 AWS SQS 但无法启动它工作当我运行 celery 工作程序时我得到的 ValueError 为 File Users abd Desktop pr
使用Python批量重命名文件

下面是我的代码来批量重命名给定目录中的图片 def multi filename change i 0 files askstring Select your folder Paste your directory path where y
在嵌入中附加文件 (Discord.py)

我目前正在编写一个不和谐的机器人discord py Rewrite我想将图像附加到嵌入中但我无法弄清楚 import discord from discord ext import commands from discord impor
如何获取 sklearn.metrics.classification_report 的输出作为字典？

我一直在尝试以字典的形式获得分类报告所以根据 scikit learn 0 20 文档我这样做 from sklearn import metrics rep metrics classification report y true y
mac安装Tensorflow出错

我正在尝试使用以下说明在 mac 中安装 Tensorflow https www tensorflow org install https www tensorflow org install 但是当我想导入tensorflow时我总是
Python HTTP Post 方法将响应返回为 magicmock 对象而不是值

我正在尝试使用 POST 方法触发某些 API 后检查响应状态代码响应状态代码是 Magicmock 实例类型我正在使用在 python 2 中工作但引发 TypeError 的比较运算符检查状态代码是否在 400 和 500 之间在P
使用 pyppeteer 与 asyncio 关联来抓取内容

我用 python 结合编写了一个脚本pyppeteer随着asyncio从其登陆页面抓取不同帖子的链接并最终通过跟踪通向其内页的 url 来获取每个帖子的标题我这里解析的内容不是动态的但是我利用了pyppeteer and asy
在 Windows 上导入 scipy.linalg 时出错（python 3.3）

我在 Windows 上使用 python 3 3 我下载了scipy 0 13 2 win32 py3 3 exe from scipy 库 http www lfd uci edu 7Egohlke pythonlibs scipy并安
如何在 psycopg2 线程连接类中重新连接到 postgreSQL？ SSL SYSCALL 错误导致的失败：在 Azure 中检测到 EOF？

我们的应用程序运行良好直到我们将 PostgreSQL 移植到 Azure 中的 Microsoft 数据库然后我们的应用程序会定期无故失败并且到处都会出现 SSL SYSCALL 错误删除等我们已经尝试了互联网上描述的所有内容
Huggingface 变形金刚模块未被 anaconda 识别

我正在使用 Anaconda python 3 7 Windows 10 我尝试通过安装变压器https huggingface co transformers https huggingface co transformers 在我的环境
如果每个区域内至少有 5 个连续行，如何在每个标题区域的末尾使用 Title[Name]2 发布新行？

我想在每个 Title 区域的末尾使用 Title Name 2 发布新行的最简单方法是通过一个计算连续行数的变量其中至少有 5 个连续行包含 1 1 1 1在每个标题区域内我不确定我对计数变量做错了什么也许确实必须在每个 Tit
让 Bazel 使用 Python3 运行（语法错误）

我正在尝试使用 Bazel 运行此代码 https github com google in silico labeling https github com google in silico labeling 这是关联的 Bazel BU
在 python 2 或 python 3 中编写 csv 文件的便携式方法

在我的 Windows 机器上我通常在 python 2 中这样做来编写 csv 文件 import csv f open out csv wb cr csv writer f delimiter cr writerow a b c f
如何创建始终有效的导入？

我正在努力在我的一个项目中建立一个工作结构问题是我有一个像这样的结构的主包和子包我遗漏了所有不必要的文件 code py mypackage init py mypackage work py mypackage utils py u
在Python 3中将二进制字符串转换为字节数组

尽管有很多相关的问题但我找不到任何符合我的问题的问题我想更改二进制字符串例如 0110100001101001 转换成字节数组同一个例子 b hi 我试过这个 bytes int i for i in 011010000110100
AIOHTTP - Application.make_handler(...) 已弃用 - 添加多重处理

我经历了我可以从 Python Web 服务器中获得多少性能的旅程这让我想到了 AIOHTTP 和 uvloop 尽管如此我仍然可以看到 AIOHTTP 并未充分利用我的 CPU 潜力我开始将多处理与 AIOHTTP 结合使用我
Python 3 在除两个大数时给出错误的输出？

a 15511210043330985984000000 25 b 479001600 12 c 6227020800 13 关于划分ans int a b c or ans int a b c we get ans等于5200299代替5
在 tkinter 和 python 中嵌套网格和框架

我正在尝试在更大的网格结构中的框架内设置一个网格我试图将其提炼为问题的最简单版本 from tkinter import Tk Frame Label Entry root Tk root geometry 800x800 frame1
TypeError：无法使用抽象方法实例化抽象类 <...>

这是我的代码 from abc import ABC from abc import abstractmethod class Mamifiero ABC docstring for Mamifiero def init self self

随机推荐

复选框不会在淘汰赛中被选中

我有一个复选框和用于更新数据的复选框的单击事件当我单击复选框时数据正在更新但复选框不会被选中这是我的 html 代码 td td
无效的代码签名权利[重复]

这个问题在这里已经有答案了我已遵循应用程序商店支持人员为寻求帮助而放置的所有程序但每当我上传后提交应用程序时状态都会变为无效的二进制文件并在邮件中显示以下消息 Invalid Code Signing Entitlements Y
当所有类型不受支持时 HTML5 视频后备

在 HTML5 规范中它建议您将后备材料放入
使用 JavaScript 或 jQuery 检测 Mac OS X 或 Windows 计算机的最佳方法

因此当用户使用 Mac 时我尝试将关闭按钮移至左侧而当用户使用 PC 时将关闭按钮移至右侧现在我通过检查用户代理来做到这一点但它很容易被欺骗无法进行可靠的操作系统检测有没有可靠的方法来检测浏览器运行的操作系统是Mac
removeCallbacks 不停止可运行

我从一个方法调用 myHandler postDelayed mMyRunnableHide 6000 其中调用 public Runnable mMyRunnableHide new Runnable public void run mT
ng-bootstrap - Typeahead 下拉宽度

我开始使用 ng bootstrap Typeahead 组件我对此非常满意我想要实现的一件事是让下拉项具有与输入字段相同的宽度而默认行为根据文本长度应用宽度应该是基本的CSS 我创建了一个基本的Example在普朗克正如您所注意
iOS 设备和模拟器的构建实际上有何不同？

既然iOS模拟器是模拟器为什么我需要专门为其构建呢模拟器的重点不在于它运行real某种虚拟机沙箱中的代码那么设备模拟器构建方式的实际差异是什么以及生成的应用程序有何不同 An application running nativ
Bouncy Castle scrypt 实现

我目前正在使用以下方法实现密码哈希scrypt 我已经找到了一个不错的scryptGitHub 上的实现令我惊讶的是我还发现了一个scryptBouncy Castle 库中的实施该类没有记录维基百科没有提到 Bouncy Castl
64位和32位进程互通 boost::message_queue

各位美好的一天我目前正在尝试找到一种在 64 位进程和 32 位进程之间传递数据的方法由于它是一个实时应用程序并且两者都在同一台计算机上运行因此我很难使用共享内存 shm 当我在寻找一些使用 shm 的同步机制时我对 boost
Android：使用UIL和TouchImageView不显示ImageView

我正在尝试从以下位置实现加载图像URL with Universal Image Loader and zoom with TouchImageView Mike Ortiz 但当尝试查看图像时黑屏被展示我已经检查过 URL 是否正确
Seaborn ImportError：DLL 加载失败：找不到指定的模块

我收到 ImportError DLL 加载失败找不到指定的模块导入模块时seaborn 我尝试卸载seaborn和matplotlib 然后使用重新安装 pip install seaborn 但没有运气我仍然遇到同样的错误 Imp
ora-06553 pls-306 调用“ogc_x”时参数数量或类型错误

我正在尝试在 oracle 10g 中进行查询事情是这样的 SELECT FROM h2h reg reg h2h cat estatus est WHERE reg FECH APLICACION SYSDATE AND REG ID
使用 Hibernate Validator (JSR 303) 进行跨领域验证

Hibernate Validator 4 x 中是否有跨字段验证的实现或第三方实现如果不是那么实现跨字段验证器的最简洁方法是什么例如如何使用 API 来验证两个 bean 属性是否相等例如验证密码字段与密码验证字段是否匹配在
Jquery UI 可拖动不会调整其他 DIV 的大小

在这嘭嘭嘭我有三个DIVs 除以另外两个DIV可拖动的灰色当可拖动时DIVs 向上向下或向左向右拖动其他DIVs 应该调整大小第一个可拖动 DIV 工作正常左侧的 DIV 可以垂直调整其他 DIV 的大小但第二个可拖动DIV
如何在 SQL Server 非标准架构表上使用 dplyr tbl

我的问题是我该如何使用dplyr函数例如tbl 在不使用默认 dbo 架构的 SQL Server 表上为了获得更多上下文我尝试将此处给出的 R 数据库示例应用到我自己的表中 https db rstudio com 向下滚动到标题为
git Remote prune、git prune、git fetch --prune 等有什么区别

我的情况是这样的在同一个存储库上工作的人已经从他的本地和远程存储库中删除了一个分支大多数在 Stack Overflow 或其他网站上询问此类问题的人都会遇到分支问题仍然显示在远程跟踪分支列表中的问题git branch a在底部 ma
按 IN 序列对 MySQL 结果排序？

当我使用 IN 从表中选择一组行时例如 SELECT x y x z FROM x WHERE x id IN 23 55 44 12 有没有 SQL 技巧可以让它们按照 IN 集中给定的顺序返回因此在示例中假设 x 具有 id 为
垂直居中响应式 iframe

我正在使用该技术此处描述使 iframe 视频响应本质上 iframe 绝对定位在宽度为 100 的包装元素内包装元素根据视频的宽高比设置填充 embed responsive position relative video heig
$ 在 Haskell 中意味着什么/做什么？

当您编写稍微复杂的函数时我注意到用得很多但我不知道它的作用是什么是中缀应用程序它定义为 a gt b gt a gt b f x f x or f x f x or id 它对于避免额外的括号很有用 f g x f g x 它的
检查字符串是否是字符串列表中的子字符串的最快方法

我有一个包含 4000 个不同名字的静态列表因此列表的长度很大 4000 但每个字符串大约有 4 到 12 个字符它们是名字然后我有一个从数据库检索到的 10000 个字符串的动态列表这些字符串可能具有任意长度我需要针对 100

检查字符串是否是字符串列表中的子字符串的最快方法

检查字符串是否是字符串列表中的子字符串的最快方法 的相关文章

随机推荐

热门标签

检查字符串是否是字符串列表中的子字符串的最快方法的相关文章