在Python中检查较长字符串中存在的模糊/近似子字符串？

2023-12-30

使用像leveinstein（leveinstein或difflib）这样的算法，很容易找到近似匹配。

>>> import difflib
>>> difflib.SequenceMatcher(None,"amazing","amaging").ratio()
0.8571428571428571

可以根据需要确定阈值来检测模糊匹配。

当前需求：根据较大字符串中的阈值查找模糊子字符串。

eg.

large_string = "thelargemanhatanproject is a great project in themanhattincity"
query_string = "manhattan"
#result = "manhatan","manhattin" and their indexes in large_string

一种强力解决方案是生成长度为 N-1 到 N+1（或其他匹配长度）的所有子字符串，其中 N 是 query_string 的长度，并对它们一一使用 levenstein 并查看阈值。

python 中是否有更好的解决方案，最好是 python 2.7 中包含的模块，或外部可用的模块。

---------------------------------更新和解决方案----------------

Python 正则表达式模块工作得很好，尽管它比内置的慢一点re用于模糊子串情况的模块，这是由于额外操作而产生的明显结果。所需的输出良好，并且可以轻松定义对模糊程度的控制。

>>> import regex
>>> input = "Monalisa was painted by Leonrdo da Vinchi"
>>> regex.search(r'\b(leonardo){e<3}\s+(da)\s+(vinci){e<2}\b',input,flags=regex.IGNORECASE)
<regex.Match object; span=(23, 41), match=' Leonrdo da Vinchi', fuzzy_counts=(0, 2, 1)>

新的正则表达式库很快就会取代 re ，其中包括模糊匹配。

https://pypi.python.org/pypi/regex/ https://pypi.python.org/pypi/regex/

模糊匹配语法看起来相当具有表现力，但这将为您提供一个或更少的插入/添加/删除的匹配。

import regex
regex.match('(amazing){e<=1}', 'amaging')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python27

fuzzysearch

在Python中检查较长字符串中存在的模糊/近似子字符串？的相关文章

如何在序列化器创建方法中获取 URL Id？

我有以下网址 url r member P
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
通过列表理解压平列表列表

我正在尝试使用 python 中的列表理解来展平列表我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目我编写了这个函数 def flat listoflist for item in listoflis
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
从零开始的 numpy 形状意味着什么

好的我发现数组的形状中可以包含 0 对于将 0 作为唯一维度的情况这对我来说是有意义的它是一个空数组 np zeros 0 但如果你有这样的情况 np zeros 0 100 让我很困惑为什么这么定义呢据我所知这只是表达空数组的
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
Pandas 数据帧到 numpy 数组 [重复]

这个问题在这里已经有答案了我对 Python 很陌生经验也很少我已经设法通过复制粘贴和替换我拥有的数据来使一些代码正常工作但是我一直在寻找如何从数据框中选择数据但无法理解这些示例并替换我自己的数据总体目标如果有人真的可以帮助
使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
如何从Python中的字符串中提取变量名称和值

我有一根绳子 data var1 id 12345 name John White python中有没有办法将var1提取为python变量更具体地说我对字典变量感兴趣这样我就可以获得变量的值 id和name python 这是由提供
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f
Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

如何将一个子程序作为参数传递给另一个子程序

我想将一个子例程作为参数传递给另一个子例程子程序question应作为参数传递给子例程answer 我怎样才能用 Perl 做到这一点 question sub question print question the term retur
Visual Studio 2017 的 Boost 1.65.1 几何距离策略编译错误

当尝试使用新版本的 boost 1 65 1 编译我的项目时出现以下错误 C Users twozn Dev soundtoolkit stk libraries boost geometry strategies distance hp
关闭 MFMailComposeViewController 会导致 EXC_BAD_ACCESS

我正在显示 MFMailComposeViewController 如下所示 IBAction contactUs id sender Tracker trackContactUsPressed MFMailComposeViewContr
Mongodb Java 查询日期范围

我需要使用 Mongodb Driver 3 4 0 for Java 查找 mongodb 中两个日期范围内的所有记录例子我有books收藏 id ObjectId 5acb40d27d63b61cb002bafe title Win
如何重启 kubernetes 服务的多个 Spring Boot 应用程序实例

我有一个 Spring Boot 服务 A 的负载均衡部署例如在 3 节点 kubernetes 集群上我还需要启用快速配置管理而无需重建部署完整的重新烘焙映像为此我组合了一个 Spring Boot 配置服务器并在服务 A
仅反应展开和折叠一个面板

需要反应方面的帮助尝试实现带有天气信息的可折叠卡片列表已经实现了展开和折叠的行为但是当我单击一个面板时另一个面板会同时打开我有 2 个面板需要 7 个面板来显示一周 7 天的天气如何只打开和关闭一个面板 Code import
Angular 2 AspNetCore WebApi CORS 问题：预检响应具有无效的 HTTP 状态代码 401

我正在尝试在 Angular 2 RC6 应用程序中针对我在 Visual Studio 2015 中实现的 AspNetCore WebApi 项目实现基于简单令牌的身份验证我已将示例应用程序放在 github 上 https gith
如何在 Windows 8.1 Phone 的子目录中包含“内容”文件？

我正在开发一个包含大量文件的项目游戏这些文件可以从 VS 2013 外部更改例如由艺术家这些文件位于子目录中我们的游戏需要它们在那里例如 images items block png 我尝试过使用构建后事件 xcopy C Y
创建 JObject C# 时删除双花括号

我正在尝试使用下面提到的结构创建 JsonObject id 1 name XXX age 30 使用代码 dynamic sampleJson new JObject sampleJson Add id 1 sampleJson Add
让我的 jQuery Ajax 脚本使用 CORS

我构建了一个通过 AJAX 从外部网站读取数据的应用程序它工作正常但我在另一个中发现question https stackoverflow com a 10881561 773263如果我想使用 Webworks 或 Phonegap
如何使用 shelf_web_socket 监听同一端口上的 http 和 ws 请求

https pub dartlang org packages shelf web socket https pub dartlang org packages shelf web socket显示这个例子 import package s
即使为空，复选框也会绑定（数据表控件）

我需要将我的复选框绑定到某处即使它为空这样我就不会收到有关无效转换的错误 DataTable dt new DataTable dt Columns Add Name dt Columns Add DeleteFlag typeof b
如何避免“IndexError：列表索引超出范围”错误？

假设有一个名为 my list 和一个名为的 int 变量list index 基本上列表 my list 可能会随着时间而改变因此 list index 可能会提高 IndexError list index out of rang
如何使用 Dart 将剪贴板中的图像粘贴到 Canvas 元素上？

我正在使用 Dart 开发个人白板 Chrome 应用程序有时能够快速复制和粘贴图像例如演示文稿中的幻灯片图表或讲义很有用以便我可以在图像上添加注释在授课或进行演示时如何将剪贴板上存储的图像粘贴到 Dart 中的画布元素上实际
无法启动浏览器进程！/usr/bin/chromium-browser'需要安装 chromium snap

我正在尝试使用 puppeteer 的 api 它基本上有一个功能可以吸引我不和谐的用户不太熟悉 puppeteer 所以介意我缺乏解释做了一些研究并找到了一些解决方案例如手动安装 chromium 这样做了运行 puppeteer
编译 gSOAP 客户端时未定义的引用

我正在尝试使用 C 语言为 Web 服务创建客户端我使用 wsdl2h 和soapcpp2 生成了 C 文件在 netbeans 中我将生成的文件和 gSOAP 包含目录添加到项目的包含目录中我的主文件如下所示 include
将 VSTO 部署到一个安装程序中

我已经使用 ClickOnce 部署了 VSTO 应用程序并得到了以下结果这个安装程序工作得很好然而我真正想要的是一个安装程序例如单个 exe 文件或单个 msi 文件这样分发起来会很方便我想我必须将所有 dll xml vs
如何仅选择数值

Table1 id 01 wire 02 steve ram123 03 从表1中我只想选择数值它不应显示字母数字值如 ram123 预期输出 01 02 03 如何查询这个条件 Try ISNUMERIC http msdn micr
C# 中 C++ const size_t 的等效项是什么？

我正在尝试将一些 Ogre 代码转换为 C 版本但遇到了一个问题 const size t nVertices 8 const size t vbufCount 3 2 nVertices float vertices vbufCount
在Python中检查较长字符串中存在的模糊/近似子字符串？

使用像leveinstein leveinstein或difflib 这样的算法很容易找到近似匹配 gt gt gt import difflib gt gt gt difflib SequenceMatcher None amazing

在Python中检查较长字符串中存在的模糊/近似子字符串？

在Python中检查较长字符串中存在的模糊/近似子字符串？ 的相关文章

随机推荐

热门标签

在Python中检查较长字符串中存在的模糊/近似子字符串？的相关文章