您能告诉我如何在 weka 中表示文本分类的属性或类吗?我可以使用什么属性进行分类?词频还是仅词? ARFF 格式的可能结构是什么?你能给我几行该结构的例子吗?
预先非常感谢您。
最简单的替代方法之一是从 ARFF 文件开始解决二类问题,例如:
@relation corpus
@attribute text string
@attribute class {pos,neg}
@data
'long text with words ... ',pos
文本表示为字符串类型,类是具有两个值的标称。
然后你可以应用两个过滤器:
-
字符串到字向量将文本转换为词向量表示。过滤器对每个单词使用一个属性。您可以调整参数来选择二进制/频率表示、词干或停用词。最佳表示取决于问题。如果文本不长,通常二进制表示就足够了。
-
Reorder为了将类属性移动到最后一个位置,Weka 假设它就在那里。
您可以在此 Weka wiki 页面中找到更多信息和其他转换数据的方法:http://weka.wikispaces.com/Text+categorization+with+WEKA http://weka.wikispaces.com/Text+categorization+with+WEKA
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)