我有一个根据单词词典构建的特里树。我想用它来进行拼写检查(并建议字典中最接近的匹配项,也许对于给定数量的编辑x)。我想我会在目标单词和字典中的单词之间使用 levenshtein 距离,但是有没有一种聪明的方法可以遍历 trie,而不需要对每个单词分别运行编辑距离逻辑?我应该如何进行遍历和编辑距离匹配?
例如,如果我有单词 MAN、MANE,我应该能够在 MANE 中重用 MAN 上的编辑距离计算。否则 Trie 就没有任何作用
我认为你应该尝试一下bk-trees http://en.wikipedia.org/wiki/BK-tree;它是一种非常适合拼写检查的数据结构,因为它可以让您有效地计算字典中单词的编辑距离。
This link http://nullwords.wordpress.com/2013/03/13/the-bk-tree-a-data-structure-for-spell-checking/深入了解应用于拼写检查的 BK 树
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)