至少可以考虑 3 种类型的 n-gram 来表示文本文档:
- 字节级 n 元语法
- 字符级 n 元语法
- 词级 n 元语法
我不清楚应该使用哪一个来完成给定的任务(聚类、分类等)。我在某处读到,当文本包含拼写错误时,字符级 n-gram 优于单词级 n-gram,因此“Maryloves dogs”仍然类似于“Mary lpves dogs”。
选择“正确”的表示形式还需要考虑其他标准吗?
Evaluate。选择表示的标准是任何有效的方法.
事实上,字符级别(!=字节,除非您只关心英语)可能是最常见的表示形式,因为它对拼写差异具有鲁棒性(如果您查看历史记录,则不一定是错误;拼写变化)。因此,出于拼写纠正的目的,这很有效。
另一方面,Google 图书 n-gram观众在他们的图书语料库中使用单词级 n-gram。因为他们不想分析拼写,而是分析术语随时间的使用情况;例如“儿童保育”,单个词并不像它们的组合那么有趣。这在机器翻译中被证明非常有用,通常被称为“冰箱磁铁模型”。
如果您不处理国际语言,字节也可能有意义。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)