我一直在阅读有关文本分类的内容,并找到了几个可用于分类的Java工具,但我仍然想知道:文本分类与句子分类相同吗?
有没有专注于句子分类的工具?
“文本分类”和“句子分类”之间没有正式的区别。毕竟,句子是一种文本。但一般来说,当人们谈论文本分类时,恕我直言,他们指的是更大的文本单元,例如论文、评论或演讲。将政客的演讲分为民主党或共和党比对推文进行分类要容易得多。当每个实例有大量文本时,您不需要压缩每个训练实例以获取它可以为您提供的所有信息,并从词袋朴素贝叶斯模型中获得相当好的性能。
基本上,如果您在句子语料库中使用现成的 weka 分类器,您可能无法获得所需的性能数据。您可能需要使用 POS 标签、解析树、词序、ngram 等来扩充句子中的数据。还需要获取任何相关的元数据,例如创建时间、创建位置、句子作者的属性等。显然,所有这些都取决于您到底想对什么进行分类……适合您的功能需要对当前的问题具有直观的意义。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)