我正在使用 WEKA 工具进行文本分类,并且必须将纯文本文件转换为 ARFF 格式。但是,我不知道该怎么做。谁能帮我将文本文件转换为 ARFF 格式?
谢谢伦克劳夫的回复,
我不明白这些要点“由于像记事本这样的文本编辑器只允许有限数量的列,因此您需要使用像记事本++这样的东西来将所有内容放在一行上。” ..你能简单解释一下吗..
假设文本数据就像一篇简单的体育文章,例如
" 篮球是一项团队运动,目标是将球投进水平放置的篮子中以得分,同时遵循一组规则。通常,两队五名球员在一个标记的矩形球场上比赛,每个宽度端都有一个篮子。篮球是世界上最受欢迎、观看次数最多的运动之一”...
这是我的文本文档,我想将其转换为 arff 格式.. 之后我需要使用该 arff 格式文件进行 SVM 文本分类..
对于文档分类任务,每个文档都被视为一个属性,并且必须用引号引起来。假设您有一个由 10 篇体育文章组成的语料库,这些文章被标记为支持洋基队或支持红袜队,分类器会自动将体育文章分类为支持洋基队或支持红袜队。您需要获取每个文档,将其用引号引起来,将其放在一行上,然后将您的 {yankees, red_sox} 属性值放在引号括起来的字符串后面。
@relation yankeesOrRedSox
@attribute article string
@attribute yankeesOrSox { yankees, red_sox }
@data
"text of article 1 here", yankees
.
.
.
"text of article 10 here", red_sox
关键是将文章放在一行上。当我开始使用 Weka 进行文本分类时,这是一开始让我感到非常沮丧的一点。由于像记事本这样的文本编辑器只允许有限数量的列,因此您需要使用像记事本++这样的东西来将所有内容放在一行上。 Notepad++ 有一个连接行功能,允许您将大量文本放在一行上。
希望这可以帮助。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)