地狱大家!我正在使用斯坦福核心 NLP 包,我的目标是对推文直播进行情感分析。
按原样使用情感分析工具对文本“态度”的分析非常差。许多积极因素被标记为中性,许多消极因素被评为积极。我已经在文本文件中获取了超过一百万条推文,但我不知道如何实际获取train该工具并创建我自己的模型。
链接到斯坦福情绪分析页面 http://nlp.stanford.edu/sentiment/code.html
“可以使用 PTB 格式数据集使用以下命令重新训练模型:”
java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath dev.txt -train -model model.ser.gz
dev.txt 中的示例(前导 4 代表 5 ... 4/5 正中的极性)
(4 (4 (2 A) (4 (3 (3 warm) (2 ,)) (3 funny))) (3 (2 ,) (3 (4 (4 engaging) (2 film)) (2 .))))
test.txt 中的示例
(3 (3 (2 If) (3 (2 you) (3 (2 sometimes) (2 (2 like) (3 (2 to) (3 (3 (2 go) (2 (2 to) (2 (2 the) (2 movies)))) (3 (2 to) (3 (2 have) (4 fun))))))))) (2 (2 ,) (2 (2 Wasabi) (3 (3 (2 is) (2 (2 a) (2 (3 good) (2 (2 place) (2 (2 to) (2 start)))))) (2 .)))))
来自 train.txt 的示例
(3 (2 (2 The) (2 Rock)) (4 (3 (2 is) (4 (2 destined) (2 (2 (2 (2 (2 to) (2 (2 be) (2 (2 the) (2 (2 21st) (2 (2 (2 Century) (2 's)) (2 (3 new) (2 (2 ``) (2 Conan)))))))) (2 '')) (2 and)) (3 (2 that) (3 (2 he) (3 (2 's) (3 (2 going) (3 (2 to) (4 (3 (2 make) (3 (3 (2 a) (3 splash)) (2 (2 even) (3 greater)))) (2 (2 than) (2 (2 (2 (2 (1 (2 Arnold) (2 Schwarzenegger)) (2 ,)) (2 (2 Jean-Claud) (2 (2 Van) (2 Damme)))) (2 or)) (2 (2 Steven) (2 Segal))))))))))))) (2 .)))
我接下来有两个问题。
每个文件的意义和区别是什么? Train.txt/Dev.txt/Test.txt ?
我如何使用充满推文的原始、未解析的文本文件来训练我自己的模型?
我对 NLP 很陌生,所以如果我缺少任何必需的信息或任何东西,请批评!谢谢你!