是什么意思cut-off
and iteration
用于 OpenNLP 培训?或者自然语言处理。我只需要对这些术语进行外行解释。据我认为,迭代是算法重复的次数,截止是一个值,如果文本的值高于某个特定类别的截止值,它将映射到该类别。我对吗?
正确,这个词迭代指的是一般概念迭代算法,人们开始通过连续产生(希望越来越准确)一些“理想”解决方案的近似值来解决问题。一般来说,迭代次数越多,结果就越准确(“更好”),但当然需要执行的计算步骤也越多。
期限cutoff (aka 截止频率)用于指定减小尺寸的方法n-gram 语言模型(如 OpenNLP 使用的,例如其词性标注器)。考虑以下示例:
Sentence 1 = "The cat likes mice."
Sentence 2 = "The cat likes fish."
Bigram model = {"the cat" : 2, "cat likes" : 2, "likes mice" : 1, "likes fish" : 1}
如果在此示例中将截止频率设置为 1,则 n 元模型将简化为
Bigram model = {"the cat" : 2, "cat likes" : 2}
也就是说,截止方法从语言模型中删除那些在训练数据中不经常出现的 n 元语法。有时有必要减小 n-gram 语言模型的大小,因为偶数二元组(更不用说三元组、四元组等)的数量会随着语料库的增大而呈爆炸式增长。然后,剩余信息(n-gram 计数)可用于统计估计给定单词(或其 POS 标签)的概率
(n-1)
以前的
单词(或 POS 标签)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)