提高字典模糊字符串匹配的性能

2024-01-03

所以我目前正在使用第二弦 http://secondstring.sourceforge.net/对于模糊字符串匹配，我有一个大字典可以比较（字典中的每个条目都有一个关联的非唯一标识符）。我目前正在使用 hashMap 来存储这本字典。

当我想要进行模糊字符串匹配时，我首先检查该字符串是否在 hashMap 中，然后迭代所有其他潜在键，计算字符串相似度并存储具有最高相似度的 k,v 对。根据我使用的词典，这可能需要很长时间（12330 - 1800035 个条目）。有什么办法可以加快速度或使其更快吗？我目前正在编写一个记忆函数/表作为加快速度的一种方法，但是其他人能想到更好的方法来提高速度吗？也许是不同的结构或我缺少的其他东西。

提前谢谢了，

Nathan

您正在寻找的是与 Levenshtein Distance 算法相结合的 BKTree (BK-Tree)。 BKtree 中的查找性能取决于您的搜索的“模糊”程度。其中模糊定义为搜索词与匹配项之间的距离（编辑）数量。

这是关于该主题的一个很好的博客：http://blog.notdot.net/2007/4/Damn-Cool-Algorithms-Part-1-BK-Trees http://blog.notdot.net/2007/4/Damn-Cool-Algorithms-Part-1-BK-Trees

关于性能的一些注意事项：http://www.kafsemo.org/2010/08/03_bk-tree-performance-notes.html http://www.kafsemo.org/2010/08/03_bk-tree-performance-notes.html

注释http://en.wikipedia.org/wiki/Levenshtein_distance http://en.wikipedia.org/wiki/Levenshtein_distance算法。

另外，这是一个用 Java 编写的 BK-Tree。应该可以让您了解界面：http://code.google.com/p/java-bk-tree/ http://code.google.com/p/java-bk-tree/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

datastructures

提高字典模糊字符串匹配的性能的相关文章

我可以为 Spring Boot 应用程序创建多个入口点吗？

In 春季启动需要指定一个主类它是应用程序的入口点通常这是一个具有标准 main 方法的简单类如下所示 SpringBootApplication public class MySpringApplication public s
android-透明RelativeLayout

我想要制作一个具有可绘制渐变作为背景的活动并将在其背景顶部显示 4 个面板相对布局现在我想让 4 个面板透明例如 50 以便也可以看到渐变背景我搜索了谷歌但我发现只能通过活动而不是布局来做到这一点如何做我想做的事您可以创建一
将json URL导入到java并使用jackson库解析它

我正在尝试读取 java 中的 json 链接并解析它以便我可以将它用于其他事务但问题是我收到错误我真的不知道该如何处理它们这是代码 package weather data import weather data import c
如何在 Spring Boot 1.4 中自定义 Jackson

我一直无法找到如何使用的示例Jackson2ObjectMapperBuilderCustomizer java在spring boot 1 4中自定义Jackson的功能 boot 1 4 中自定义 Jackson 的 doco http
Spring Batch 多线程

我正在编写一个 Spring Batch 并希望在需要时对其进行扩展我的 ApplicationContext 看起来像这样 Configuration EnableBatchProcessing EnableTransactionMan
使用Optional作为类中的属性是一个好习惯吗？ [复制]

这个问题在这里已经有答案了我读过一些关于目的的内容Optional 不幸的是我不记得在哪里在Java 8中我很惊讶作者没有提到使用Optional作为类中的属性由于我在课堂上经常使用选项我想知道这是否是一个好的做法或者我可以更好
使用java在mysql中插入带有\\的文件路径

我正在使用java制作一个独立的应用程序并且我需要插入用户从文件选择器中选择的图像的路径我正在获取文件的路径但是当我将其存储在数据库 mysql 中时它不会存储所以当我检索该路径时该文件不会显示如何存储文件的路径这样就可以使
全屏独占模式下的 AWT 框架在窗口弹出对话框中最小化

我正在开发一个在全屏独占模式下使用 awt 框架的应用程序一切正常直到弹出窗口可见这会抢走焦点我的应用程序将被最小化这是我的框架的初始化代码 if ApplicationConfig getInstance useFullscre
在 Eclipse 中导航 Java 调用堆栈

在调试器中像GDB http sources redhat com gdb 当您在断点处停止时您可以轻松地向上移动调用堆栈并检查相关的源和堆栈帧数据在 Eclipse 中如何做到这一点 In the 调试视角 http www ibm
为什么我无法解开根节点并反序列化对象数组？

为什么我无法通过展开根节点来反序列化对象数组 import java io IOException import java util Arrays import java util List import org codehaus jack
如何在Android Studio中关联.mp3文件

我想根据列表视图项单击播放 mp3 文件但是根据我的代码我运行我的应用程序出现此窗口因此由于缺少音频选项我真的不知道需要选择其中哪一个为了关联我的 mp3 文件 mainList setOnItemClickListener ne
如何更改tomcat jmx密码的文件权限

我正在尝试保护 Windows 平台上托管的本地 tomcat 实例上的 JMX 访问我已经创建了访问权限和密码文件并使用以下 VM 参数插入这些文件 Dcom sun management jmxremote password fil
使用 Spring 注入 Google Guava Hashmultimap

是否可以提供一个创建示例Multimap
如何从 REstAssured 中的 Json 数组获取 JSON 对象

任何人都可以帮我解决这个场景我是新来的RestAssured和处理JSON在我们的自动化脚本中我有一个API谁的回应是JSONArray i e id 1002 entity testcase fieldName TextName di
Spring @Configuration如何缓存对bean的引用

使用基于 Java 的配置时 Spring 如何防止再次调用 bar 我想知道编译时注释处理或通过代理方法 Configuration public class AppConfig Bean public Foo foo return ne
如何在其他窗口之上生成独立的 JFileChooser 对话框？

Like 其他一些人 https stackoverflow com questions 4161207 javavm windows 7 64bit jfilechooser not showing dialog box谁问过类似的问题
如何使用SAXReader解析GPX文件？

我正在尝试解析GPX file http en wikipedia org wiki GPS eXchange Format 我用 JDOM 尝试过但效果不太好 SAXBuilder builder new SAXBuilder Docu
确保对象实现 Comparable

我有一个小问题想知道如何解决它我有一个通用类Tuple
如何更改MultipartFile的originalFilename

我在服务器端有一个 MultipartFile 文件我想更改该文件的原始文件名但该类仅支持 getOriginalFilename 谁能帮我这个 PS 上传的是图片文件多谢您可以使用 MockMultipartFile 类更改名称
如何获取 EC2 实例的 CloudWatch 指标数据

我想获取我的 EC2 实例的 Cloudmetrics 数据以便我可以使用这些数据绘制图表并将其显示在我的 Android 设备上我怎么做有相同的示例程序或教程吗提前致谢这就是我正在做的 private static void f

随机推荐

Eclipse 缺少数据库连接

我在 Eclipse 中缺少 MySQL 和其他连接配置文件因此 JBoss 服务器会抛出错误由于声誉问题无法发布图片我只有通用 JDBC HSQLDB 使用 Eclipse Kepler 和 jboss eap 6 1 已经在我
使用 C 获取操作系统名称 [Linux，可移植发行版：Centos、Debian、Fedora、OpenSUSE、RedHat、Ubuntu]

我知道我可以使用这个简单的命令检查我的操作系统名称 lsb release ds 但我也知道它不能在我需要的所有平台上移植我试过struct utsname info and uname info 它工作得很好但只给了我基本名称
在 ggplot2 r 中操作 geom_bar 和 coord_polar 的描绘

我正在 ggplot 中使用 Polar coord 构建同心圆图表我需要删除特定的线这是代码和情节 df lt data frame A letters 1 12 B c rep Dim 1 4 rep Dim 2 4 rep Dim
实例化（子）类时，您将对象声明为什么“类型”有什么区别吗？

假设我有一个名为ParentClass和一个名为ChildClass The ParentClass是抽象的并且ChildClass延长了ParentClass根据 Java 术语此外 ParentClass有一个构造函数它需要一个i
使用 sed/awk 打印具有匹配模式或另一个匹配模式的行

我需要打印文件中与模式匹配的行OR使用不同的模式awk questions tagged awk or sed questions tagged sed 我觉得这是一项容易的任务但我似乎找不到答案有任何想法吗 POSIX 方式 awk
new Function 和 vm 有什么区别？

我想知道两者之间有什么区别新功能 https developer mozilla org en US docs Web JavaScript Reference Global Objects Function 实际上 eval https
将列表数组转换为 Keras 输入

给定一个以下形式的数组 array list 21603 125 737 579 2065 10399 1175 0 0 0 list 1896 3917 498 296 1452 523 754 450 3795 341 dtype ob
子类型字段编号顺序依赖于 protobuf-net

我可以看到 protobuf net 似乎需要在运行类型模型上具有确定性排序有什么好的策略可以使用而不需要在每个类上都有属性来进行排序如果您是通过属性实现的 protobuf 本身会如何执行 model Add typeof IMess
在github工作流程中运行超时命令

我有一个类似于下面代码的 GitHub 操作我有一个文件本来打算永远运行但在需要时会被用户中断我尝试过使用timeout但它不起作用并给出了一些奇怪的消息对此的一个小警告是如果该过程超时我希望这不会引发错误以便操作继续并报告
WPF 中的 BitmapImage 会锁定文件

I use Dim bmi As New BitmapImage New Uri fiInfo FullName UriKind Absolute bmi CacheOption BitmapCacheOption OnLoad 这不使用加
使用 javascript 查找渲染的换行符

我有这样的情况 div width 200px div example example example example example div 文本填满整个宽度时自动跳到下一行 div 使用 javascript 如何在上面的行中呈现渲染内
几次函数调用后变量的值消失

我正在制作一个支持代理的解析器因为使用免费代理它们经常死掉所以我的代码切换到其他代理这里没有问题但是切换的原因是我多次重新运行函数 2 7 和我解析的数据消失了我确信问题很愚蠢但我自己找不到答案谢谢回复想一想应该以某种方
在CFScript中获取新插入的记录ID

我有一些代码将记录与请求信息一起插入到日志中发送请求并发回响应后我将使用响应信息更新记录有没有办法获取新插入记录的 ID 以便我可以引用它并在收到响应后更新它我知道使用 CF 标签可以使用 SET NO COUNT 但它似乎在 CF
websockets项目的jetty运行错误

我正在尝试让 websockets 与 jetty 一起使用我正在日食当我尝试运行它时控制台上出现以下错误 java lang NoClassDefFoundError org objectweb asm ClassVisitor 我
Ruby 中的类和该类的单例有什么区别？

好吧我正在尝试用 Ruby 进行一些元编程但我有点困惑根据我读过的几篇文章例如this one http ryanangilly com post 234897271 dynamically adding class methods
根据 WooCommerce 中的产品或类别隐藏特定运输选项

我的 WooCommerce 网站使用 3 种不同的运输类型皇家邮件签收 7 天保证第二天已记录的交付有些产品只能使用选项 1 发货当该产品添加到购物车时我创建的运输类别有助于在购物车中显示选项 1 但其他两个选项仍然可见不允
如何在 Mac 中打开 conda shell

我是 conda 和 mac 的新手我主要使用 Ubuntu 和 pip mac 上有 conda shell吗我想我在某处读到没有如果是这种情况我该如何运行如下命令 conda env create f environment y
将图像数据存储在 MySQL 数据库中？

我正在实施一个处理大量图像的项目您认为以下两种方法的优缺点是什么我需要存储数千个项目每个项目作为多个字符串属性和一个图像每个项目作为 ID 整数 MyISAM 表 How would you store the images 方法1
Android和PHP登录认证

我正在尝试在 android 上制作一个应用程序其中用户需要登录应用程序才能使用它登录验证将由 PHP Web 服务完成我有一个login java class CustomeHTTPClient这是我从互联网上获得的示例代码有一种
提高字典模糊字符串匹配的性能

所以我目前正在使用第二弦 http secondstring sourceforge net 对于模糊字符串匹配我有一个大字典可以比较字典中的每个条目都有一个关联的非唯一标识符我目前正在使用 hashMap 来存储这本字典当我想要进

提高字典模糊字符串匹配的性能

提高字典模糊字符串匹配的性能 的相关文章

随机推荐

热门标签

提高字典模糊字符串匹配的性能的相关文章