levenshteindistance

Python、嵌套循环、匹配和性能

我正在尝试使用 Python 2 7 和 Levenshtein 函数将姓氏列表与全名列表进行匹配为了减少工作量我仅在第一个字母相同的情况下进行匹配尽管这似乎在性能方面没有太大差异如果找到匹配项则将从全名中删除匹配的单词以使后续

python python27 nestedloops levenshteindistance

高效的字符串相似度分组

Setting 我有有关人员及其父母姓名的数据并且我想找到兄弟姐妹父母姓名相同的人 pdata lt data frame parents name c peter pan marta steward pieter pan marta

r string performance levenshteindistance

如何将python/cython unicode字符串转换为长整数数组，以进行levenshtein编辑距离[重复]

这个问题在这里已经有答案了可能的重复如何纠正 Damerau Levenshtein 实施中的错误 https stackoverflow com questions 3431933 how to correct bugs in thi

python python3x Cython levenshteindistance editdistance

PHP - 相互比较多维子数组并根据相似度阈值进行合并

简介此问题已于 2018 年 5 月 27 日更新我有 1PHP多维数组包含6个子数组每个子数组包含20个子子数组每个子数组又包含2个子子数组一个是字符串 header 另一个是未指定数量的关键字 keywords 我希望将 1

php Arrays multidimensionalarray Compare levenshteindistance

具有错误字符容限的最长公共子串

我在这里找到了一个脚本在寻找最低公共子串时效果很好但是我需要它来容忍一些不正确丢失的字符我希望能够输入所需的相似性百分比或者指定允许的丢失错误字符的数量例如我想找到这个字符串大黄色校车该字符串内部那天下午他们乘坐黄色

php stringmatching levenshteindistance longestsubstring

VBA 中的编辑距离 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我有包含数据的 Excel 工作表我想获取它们之间的 Levenshtein 距离我已经尝试导出为文

vba Excel levenshteindistance

mySQL：使用编辑距离查找 20,000 行中的重复项

我基本上有一个两列表其中包含主键和大约 20 000 行的公司名称我的任务是找到所有重复的条目我最初尝试使用 soundex 但它会匹配完全不同的公司只是因为它们的第一个单词相似这让我开始使用编辑距离算法问题是查询花费的时间是

mysql sql levenshteindistance

对 tsvector 中的每个元素使用 Levenshtein 函数？

我正在尝试使用 Postgres 创建模糊搜索并一直使用 django watson 作为基本搜索引擎来工作我有一个名为 search tsv 的字段它是一个 tsvector 其中包含我要搜索的模型的所有字段值我想使用 Leven

postgresql levenshteindistance fuzzysearch tsvector

如何纠正 Damerau-Levenshtein 实施中的错误？

我带着另一个较长的问题回来了尝试过许多基于 Python 的 Damerau Levenshtein 编辑距离实现我终于找到了下面列出的那个 as editdistance reference 它似乎提供了正确的结果并且似乎有一个有效

python python3x Cython levenshteindistance editdistance

优化编辑距离算法

我有一个存储过程它使用编辑距离来确定最接近用户键入内容的结果唯一真正影响速度的是在选择距离最小的记录之前计算所有记录的 Levenshtein 距离的函数我通过将 0 代替对 Levenshtein 函数的调用来验证这一点该表有 1

Optimization levenshteindistance editdistance

T-SQL 中的编辑距离

我对 T SQL 计算 Levenshtein 距离的算法感兴趣我在 TSQL 中实现了标准 Levenshtein 编辑距离函数并进行了多项优化与我所知的其他版本相比速度有所提高如果两个字符串的开头有共同的字符共享前缀结尾有

TSQL editdistance levenshteindistance

修改编辑距离以实现位置偏差

我使用 Levenshtein 距离算法将作为用户输入提供的公司名称与已知公司名称的数据库进行比较以找到最接近的匹配就其本身而言该算法工作正常但我想构建一个偏差以便如果字符串的初始部分匹配则编辑距离被认为较低例如如果搜索条件

Distance levenshteindistance

对于字符串距离，是否有比 Levenshtein 更快（不太精确）的算法？

我想运行 Levenshtein 但速度要快得多因为它是我正在构建的实时应用程序一旦距离大于10 它就会终止从评论来看人们似乎对Sift3 http sift codeplex com

javascript levenshteindistance

PHP - 查找两段文本之间匹配单词的数量？

我想找到两个文本之间相似单词的数量 Example str1 the cat is on the roof str2 the mouse is on the roof 屋顶上 str1 和 str2 中的单词相似所以输出将是5号 OR 百

php match levenshteindistance fuzzylogic

PHP：使用编辑距离来匹配单词

我一直在阅读和测试 php 中的一些示例编辑比较 input 和 words 输出比较 input hw r u my dear angel array of words to check against words array app

php levenshteindistance

如何修改 Levenshtein 算法，以了解它是否插入、删除或替换了字符？

所以我试图设计一个 Levenshtein 算法的衍生版本在其中我跟踪我在字符串中所做的转换插入 a 或用 a 代替 b Example 基本上假设我正在计算 bbd 和 bcd 的编辑距离编辑距离将为 1 变换将为用 b 代替

python Algorithm levenshteindistance

使用levenshtein距离计算两个完整文本的相似度[关闭]

Closed 这个问题是无关目前不接受答案我有两个想要比较的文本文件我所做的是我把它们都分成了句子我测量了一个文件中的每个句子与第二个文件中的每个句子之间的编辑距离我想计算这两个文本文件之间的平均相似度但是我很难提供任何有意义

Algorithm statistics levenshteindistance

Python 中的字符串相似度度量[重复]

这个问题在这里已经有答案了我想找到两个字符串之间的字符串相似度维基百科有其中一些例子 code google 有一个 Python 实现编辑距离在这些限制下是否有更好的算法希望有一个 Python 库我想在字符串之间进行模糊匹配

python string Algorithm levenshteindistance editdistance

编辑替代方案

我有一大堆查询并使用levenshtein来计算拼写错误现在levenshtein导致mysql占用完整的CPU时间我的查询是 UNION 语句中的全文搜索 levenshtein sql1 是我当前的查询 sql2 只是全文搜索速度

mysql levenshteindistance

狮身人面像和“你的意思是……？”建议想法。它会起作用吗？

我正在尝试想出最快的方法来提出搜索建议起初我认为 Levenstein UDF 函数与 mysql 表相结合就可以完成这项工作但是使用 levenshtein mysql 必须遍历表中的每一行大量的单词这会使查询非常慢现在我最近安

mysql sphinx keyword levenshteindistance searchsuggestion