我可以添加一些基于编辑距离二创建拼写错误的东西,或者类似的东西,或者逆向工程Norvig 关于拼写检查的文章 http://norvig.com/spell-correct.html.
然而,最常见的拼写错误有哪些?
有人写过方法吗?
不存在一般的拼写错误生成算法,因为这种算法取决于目标语言和应用程序 - 即要生成垃圾邮件域,您基本上需要应用以下策略(以 meta.stackoverflow.com 为例):
- 缺失点:满足*as*tackoverflow.com(应该很容易;)
- 字符插入:meta.stack 溢出*ww*.com(只需添加每个字符的副本)
- 字符省略:meta.stackoverf*lw*.com(只需删除一个字符)
- 字符排列:meta.stackove*fr*low.com(这里是纯数学)
- 字符替换:元。*d*tackoverflow.com(现在这里我们至少可以有两种策略,见下文)
在角色替换的情况下,我们至少可以有两种情况:
- 发音相似的字母(即 c k、z ts ),具体取决于语言
- 附近字母邻近拼写错误(即 qwerty s d、d f)呃,我实际上在这里打错了 s d case :)
希望这可以帮助..
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)