如何使用 Trie 进行拼写检查

2024-04-30

我有一个根据单词词典构建的特里树。我想用它来进行拼写检查（并建议字典中最接近的匹配项，也许对于给定数量的编辑x）。我想我会在目标单词和字典中的单词之间使用 levenshtein 距离，但是有没有一种聪明的方法可以遍历 trie，而不需要对每个单词分别运行编辑距离逻辑？我应该如何进行遍历和编辑距离匹配？

例如，如果我有单词 MAN、MANE，我应该能够在 MANE 中重用 MAN 上的编辑距离计算。否则 Trie 就没有任何作用

我认为你应该尝试一下bk-trees http://en.wikipedia.org/wiki/BK-tree;它是一种非常适合拼写检查的数据结构，因为它可以让您有效地计算字典中单词的编辑距离。

This link http://nullwords.wordpress.com/2013/03/13/the-bk-tree-a-data-structure-for-spell-checking/深入了解应用于拼写检查的 BK 树

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 Trie 进行拼写检查的相关文章

用 C++ 生成 AST

我正在用 C 制作一个解释器到目前为止我已经有了词法分析器来生成标记问题是我不确定如何生成行走解析树我正在考虑使用数组数组来制作解析树但我不确定如何以正确的顺序将标记实际插入到解析树中我不确定是自上而下左右还是自下而上左右
“此应用程序已请求运行时以异常方式终止它”的原因是什么？

Visual C 运行时抛出一个常见错误此应用程序已请求运行时以异常方式终止它请联系应用程序的支持团队以获取更多信息该错误消息实际上是什么意思mean 让我用一个比喻来准确地解释我的问题如果我看到一条消息异常访问冲突 0xc00
使用并集查找（又名不相交集）检测图是否是二分图

我正在 Spoj 上做一个问题基本上可以简化为检测图是否是二分图我正在尝试使用 dfs 为图表着色但它太慢了有人评论这个没有 bfs 没有 dfs 没有二部图简单的并查集就可以做到确实速度很快提示 1 偶数长度的环不会影响两
shell脚本中关联数组的时间复杂度

我想知道在 shell 脚本中使用关联数组时如何构造实现另外我想知道基于 shell 脚本的关联数组的时间复杂度是否是最佳的因为我们可以使用字母和数字作为它们各自的键编辑他们使用什么哈希函数如果您使用关联数组则不能通过使用
迭代任意大小的子集

我可以迭代大小为 1 的子集 for int a 0 a lt size a 或大小为 2 的子集 for int a1 0 a1 lt size a1 for int a2 a1 1 a2 lt size a2 or 3 for int
需要一种将网络块范围折叠为超集范围列表的算法

我的数学不及格我需要一种有效的方法将网络范围缩小为超集例如如果我输入 IP 范围列表 1 1 1 1至2 2 2 5 1 1 1 2至2 2 2 4 10 5 5 5至155 5 5 5 10 5 5 6至10 5 5 7 我想返回以下
具有 2 个属性的背包算法。如何在 3d 数组中实现它？

当有超过 1 个属性时我无法理解背包问题当有 1 个属性时我必须编写一个使用具有 2 个属性的背包算法的程序老师告诉我们它必须在 3d 数组中完成错误的实现将导致 O 2 n 处理时间我无法想象这样的数组会是什么样子假设这是
负整数的基数排序

我正在尝试对整数包括负整数实现基数排序对于非负整数我计划为数字0 9创建一个10个队列的队列并实现LSD算法但我对负整数有点困惑我现在的想法是继续为它们创建另一个包含 10 个队列的队列并分别对它们进行排序然后在最后我将
在 O(n) 时间内排序？

我被这个问题困扰了 2周知道如何处理它吗令 L 为 n 个不同整数的列表假设 L 的 x 的元素在 1 750 范围内设计线性排序算法对 L 的元素进行排序我已经尝试过插入排序但我不确定我的方法是否正确 Construct an
实施二分查找有哪些陷阱？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案二分查找比看起来更难实现虽然二分搜索的基本思想相对简单但细节可能出人意料地棘手 Donald Knuth 新的二分搜索实现中最有可
Java递归方法求阶乘返回负输出[重复]

这个问题在这里已经有答案了我知道这是溢出但问题是 20 是相对较小的数字这不应该发生对吧有没有更好的方法来查找大数例如 1000 的阶乘而不会得到这种奇怪的结果 public class RecursiveFunctionsE
解开 Knuth 的结：如何重构意大利面条式代码？

这个问题的灵感来自如何将流程图转化为实施 https stackoverflow com questions 36647765它询问如何通过算法消除goto代码中的语句这answer https stackoverflow com a 3
每个术语出现的次数

我得到了一个数组a n 2 where n can be 10 5最大时有n个科目和n个学生全部编号为 1 2 n a i 0 and a i 1 1 lt i lt n 表示在第 i 个科目中所有来自a i 0 to a i 1 通过
哪些不同的术语表示相同的事物（或不同的术语，但人们认为它们表示相同的意思）？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话但却具有历史意义目前不接受新的
选择一组数字以达到最小总数的算法

给定一组数字n 1 n 2 n 3 n x 还有一个数字M 我想找到最好的组合 n a n b n c n gt M 该组合应达到达到或超过 M 所需的最小值没有其他组合可以提供更好的结果将在 PHP 中执行此操作因此可以使用 PH
应用对数来导航树

我曾经知道一种使用对数从树的一片叶子移动到树的下一个有序叶子的方法我认为它涉及获取当前叶子的位置值排名并将其用作从根向下到新目标叶子的新遍历的种子一直使用对数函数测试来确定是否沿着右或左节点向下到达叶子我已经不记得如何运用
AStar-名称解释

我正在寻找 AStar A 算法为何被称为 AStar 的解释所有类似的最短路径问题算法通常都以其开发者的名字命名那么 AStar 代表什么有称为 A1 和 A2 的算法后来证明A2是最优的实际上也是可能的最好算法所以他给它
“对象之间通过传递消息进行通信”到底是如何实现的？

在几本有关面向对象编程的介绍性文本中我遇到过上述陈述来自维基百科在 OOP 中每个对象都能够接收消息处理数据以及发送消息与其他对象相关并且可以被视为具有独特角色或责任的独立机器该语句在代码中到底意味着什么 class A
优先连接，Matlab 中的复杂网络

大家好我现在正在 MATLAB 中研究优先附件模型在理解以下内容时遇到一些困难假设我一开始有 4 个节点连接如下 time 0 1 lt gt 2 3 lt gt 4 在下一个时间步骤中我添加一个节点和 4 个连接然后添加另一个
pytesseract 无法从图像中识别复杂的数学公式

我在用pytesseractpython 中的模块 pytesseract从图像中识别文本但它不适用于包含复杂数学公式例如根推导积分数学问题或方程的图像代码2 py Import modules from PIL import

随机推荐

在 Kubernetes 中向 MySQL 添加另一个用户

这是我的MySQL apiVersion apps v1beta1 kind Deployment metadata name abc def my mysql namespace abc sk test labels project ab
jQueryUI：正确删除可拖动元素

我正在开发一个可视化编辑器它需要用户可以根据需要添加删除和拖动元素每个元素都是一个div使用 jQueryUI 实现可拖动新元素被附加到父元素上div代表工作空间每个元素内部都有一个用于将其删除的按钮这一切都很好我遇到的问题是
用于多部分/表单数据的 POSTMAN

如何将 POSTMAN 用于 Multipart form data 它具有自定义标头来测试我的控制器该控制器采用 2 个文件作为参数 public controller MultipartFile files POST HTTP 1 1
未捕获（承诺中）语法错误：获取函数中出现意外的标记'

我有几个结构如下的 JSON 文件我们称之为 info json data title Job company Company past fulltime Former Company intern Women IT Priority 5
Joomla：在组件中编写和调用辅助函数

初出茅庐的 Joomla PHP 开发人员在了解如何做到这一点时遇到了困难我发现搜索的所有内容都是旧版本的 Joomla 或其他框架因此第一次时一切都很混乱我想要一个可以从组件中的任何位置调用的辅助函数基本上它需要一个用户 ID
根据第二列求和并有条件地计数

我在试图解决这个看似简单的问题时感到沮丧我有一个像这样的数据集 df structure list Year c 2015L 2015L 2015L 2015L 2015L 2015L 2015L 2015L 2015L 2015L 20
使用 page_action 时不出现弹出窗口

我是 Google Chrome 扩展开发的新手我有以下两个疑问我使用时没有出现弹出窗口page action在manifest json中但在我使用时出现browser action 我想知道为什么还是我做错了该图标也显示为非活
如何卸载其他用户安装的应用程序？

当我尝试调试 Windows 8 应用程序并且另一个用户帐户上已安装了一个副本时我不断遇到此问题 DEP0700 应用程序注册失败另一个用户已经安装了此应用程序的打包版本未打包的版本无法替代它冲突的包是 PackageName 由
在 Objective-C 中向 nil 发送消息

作为一名正在阅读 Apple 的 Objective C 2 0 文档的 Java 开发人员我想知道向 nil 发送消息意味着更不用说它实际上如何有用了摘录自文档 Cocoa中有几种模式利用这一事实这消息返回的值为零也可能
在 JavaScript/Node.js 中将 Youtube Data API V3 视频持续时间格式转换为秒

我正在尝试将 ISO 8601 字符串转换为 JS Node 中的秒我能想到的最好的办法是 function convert time duration var a duration match d g var duration 0 if
asp和iis 6.0从哪里获取其日期格式

我发现了一个带有新网络服务器的小泡菜我们有一个新的网络服务器它显示的日期与我们旧的网络服务器不同我们在 Windows Server 2003 的 IIS 6 0 上运行 asp 经典网页我们以管理员身份登录并设置适当的区域设置然
Python 模块导入对一个文件有效，对另一个文件则失败

我面临着一个非常奇怪的问题我有三个文件第一个包含基类其他两个文件中的类继承自该基类奇怪的是昨天一切都工作正常但今天其中一个文件不再工作了在此期间我还没有接触过进口 orangecontrib init py prototype
在 Linq 中添加对 XML 文档的样式表引用？

我创建了一个 XML 文档并希望获得对 XSLT 文件的引用到此 XML 生成 XElement xml new XElement ReportedOn from dl in EL DocumentLog ToList join o i
MVC 模型在 OnExecuted 操作过滤器中为 null ...或者设置模型的更优雅的方式？

我有一个 ActionFilter 它覆盖了 OnActionExecuted 方法在 POST 操作中 filterContext Controller ViewData Model 始终为 null 我确实发现下面的文章似乎在说它不应
OrderBy / ThenBy 循环 - C# 中的嵌套列表

我有一个嵌套列表 List
在集线器外部获取 SignalR 用户 (Hub.Context)

有没有办法在集线器之外获取当前的 signalR 请求用户我可以在集线器方法内部使用 Hub Context User 但是如果集线器方法调用任何其他底层 Wcf 服务调用附加的BehaviorExtensionElement 用于添加
Java Web 启动和安全性

刚刚有人向我指出我的博客中的 Java Web Start 应用程序例如我的按键绑定 http tips4java wordpress com 2008 10 10 key bindings 条目由于以下安全错误而不再起作用经过一些
如何将 UTC 日期时间转换为另一个时区？

我怎样才能转换这样的日期 2012 07 16 01 00 00 00 它在UTC 00 00时区到UTC 04 00时区确保正确处理夏令时 Use DateTime http php net manual en class datet
检测 vb.net 中的浏览器关闭事件

我的网页如下所示
如何使用 Trie 进行拼写检查

我有一个根据单词词典构建的特里树我想用它来进行拼写检查并建议字典中最接近的匹配项也许对于给定数量的编辑x 我想我会在目标单词和字典中的单词之间使用 levenshtein 距离但是有没有一种聪明的方法可以遍历 trie 而不需要对每

如何使用 Trie 进行拼写检查

如何使用 Trie 进行拼写检查 的相关文章

随机推荐

热门标签

如何使用 Trie 进行拼写检查的相关文章