如何训练斯坦福 NLP 情感分析工具

2024-05-02

地狱大家！我正在使用斯坦福核心 NLP 包，我的目标是对推文直播进行情感分析。

按原样使用情感分析工具对文本“态度”的分析非常差。许多积极因素被标记为中性，许多消极因素被评为积极。我已经在文本文件中获取了超过一百万条推文，但我不知道如何实际获取train该工具并创建我自己的模型。

链接到斯坦福情绪分析页面 http://nlp.stanford.edu/sentiment/code.html

“可以使用 PTB 格式数据集使用以下命令重新训练模型：”

java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath     dev.txt -train -model model.ser.gz

dev.txt 中的示例（前导 4 代表 5 ... 4/5 正中的极性）

(4 (4 (2 A) (4 (3 (3 warm) (2 ,)) (3 funny))) (3 (2 ,) (3 (4 (4 engaging) (2 film)) (2 .))))

test.txt 中的示例

(3 (3 (2 If) (3 (2 you) (3 (2 sometimes) (2 (2 like) (3 (2 to) (3 (3 (2 go) (2 (2 to) (2 (2 the) (2 movies)))) (3 (2 to) (3 (2 have) (4 fun))))))))) (2 (2 ,) (2 (2 Wasabi) (3 (3 (2 is) (2 (2 a) (2 (3 good) (2 (2 place) (2 (2 to) (2 start)))))) (2 .)))))

来自 train.txt 的示例

(3 (2 (2 The) (2 Rock)) (4 (3 (2 is) (4 (2 destined) (2 (2 (2 (2 (2 to) (2 (2 be) (2 (2 the) (2 (2 21st) (2 (2 (2 Century) (2 's)) (2 (3 new) (2 (2 ``) (2 Conan)))))))) (2 '')) (2 and)) (3 (2 that) (3 (2 he) (3 (2 's) (3 (2 going) (3 (2 to) (4 (3 (2 make) (3 (3 (2 a) (3 splash)) (2 (2 even) (3 greater)))) (2 (2 than) (2 (2 (2 (2 (1 (2 Arnold) (2 Schwarzenegger)) (2 ,)) (2 (2 Jean-Claud) (2 (2 Van) (2 Damme)))) (2 or)) (2 (2 Steven) (2 Segal))))))))))))) (2 .)))

我接下来有两个问题。

每个文件的意义和区别是什么？ Train.txt/Dev.txt/Test.txt ？

我如何使用充满推文的原始、未解析的文本文件来训练我自己的模型？

我对 NLP 很陌生，所以如果我缺少任何必需的信息或任何东西，请批评！谢谢你！

每个文件的意义和区别是什么？ Train.txt/Dev.txt/Test.txt ？

这是标准的机器学习术语。训练集用于（令人惊讶地）训练模型。开发集用于调整模型可能具有的任何参数。您通常会做的是选择一个参数值，在训练集上训练模型，然后检查训练后的模型在开发集上的表现如何。然后，您选择另一个参数值并重复。此过程可帮助您找到模型的合理参数值。

完成此操作后，您可以继续测试模型在测试集上的表现。这是unseen- 你的模型以前从未遇到过任何这些数据。测试集与训练和开发集分开非常重要，否则您将根据以前见过的数据有效地评估模型。这是错误的，因为它不会让您了解模型的实际效果。

我如何使用一个原始的、未解析的文本文件来训练我自己的模型，其中包含推文？

您不能也不应该使用一组未解析的文档进行训练。递归深度模型的全部要点（以及它表现如此出色的原因）是它可以从解析树的每个级别的情感注释中学习。您上面给出的句子可以这样格式化：



(4 
    (4 
        (2 A) 
        (4 
            (3 (3 warm) (2 ,)) (3 funny)
        )
    ) 
    (3 
        (2 ,) 
        (3 
            (4 (4 engaging) (2 film)) (2 .)
        )
    )
)

通常，情感分析器是通过文档级注释进行训练的。您只有一个分数，并且该分数适用于整个文档，忽略了文档中的短语可能表达不同情绪的事实。斯坦福大学团队投入了大量精力来注释文档中的每个短语以表达情感。例如，这个词film其本身的情绪是中性的：(2 film)。然而，这句话engaging film是非常积极的：(4 (4 engaging) (2 film)) (2 .)

如果您已标记推文，则可以使用任何其他文档级情感分类器。这情感分析 /questions/tagged/sentiment-analysisstackoverflow 上的 tag 已经有一些非常好的答案，我不会在这里重复。

PS 你给你的推文贴上标签了吗？全部100万吗？如果你这样做了，我愿意为该文件付给你很多钱:)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何训练斯坦福 NLP 情感分析工具的相关文章

将 jar 作为 Linux 服务运行 - init.d 脚本在启动应用程序时卡住

我目前正在致力于在 Linux VM 上实现一个可运行的 jar 作为后台服务我已经使用了找到的例子here https gist github com shirish4you 5089019作为工作的基础并将 start 方法修改为
“_加载小部件时出现问题”消息

加载小部件时如果找不到资源或其他内容则会显示加载小部件时出现问题就这样惊人的此消息保留在主屏幕上甚至没有说明加载时遇到问题的小部件我通过反复试验弄清楚了这一点但我想知道发生这种情况时是否有任何地方可以找到错误消息 Andr
使用cameltestsupport进行Camel单元测试，模板始终为空

我正在用 Camel 做一个简单的单元测试我想做的就是从文件在资源下读取 JSON 内容将其发送到 Java 类进行验证这是我试图测试的路线无论我做什么模板我用来发送正文 json 始终为空这是我的代码 public cl
Grails 2.3.0 自动重新加载不起作用

我最近将我们的项目升级到 grails 2 3 0 一切工作正常除了每当我更改代码时自动重新加载都无法工作的问题这包括所有项目工件控制器域服务 gsps css 和 javascript 文件我的旧版本 grails 可以正常工
为什么 java 编译器不报告 Intellij 中多播表达式的未经检查的强制转换警告？

为什么下面的代码没有报告 Intellij IDEA 的未经检查的警告jdk 1 8 0 121自从Supplier
Java：使用 HttpURLConnection 的 HTTP PUT

如何执行 HTTP PUT 我正在使用的类似乎认为它正在执行 PUT 但端点将其视为我执行了 GET 我做错了什么吗 URL url new URL https HttpURLConnection conn HttpURLConnectio
Condition 接口中的 signalAll 与对象中的 notificationAll

1 昨天我才问过这个问题条件与等待通知机制 https stackoverflow com questions 10395571 condition vs wait notify mechanism 2 我想编辑相同的内容并在我的问题中添加
在 HTTP 标头中发送 UTF-8 值会导致 Mojibake

我想使用 servlet 发送阿拉伯语数据HTTPServletResponse给客户我正在尝试这个 response setCharacterEncoding UTF 8 response setHeader Info arabicWo
如何将 android.net.Uri 转换为 java.net.URL？ [复制]

这个问题在这里已经有答案了有没有办法从Uri to URL 我正在使用的库需要这个它only接受一个URL但我需要在我的设备上使用图像如果该方案的Uri is http or https new URL uri toString 应该
在java中实现你自己的阻塞队列

我知道这个问题之前已经被问过并回答过很多次了但我只是无法根据互联网上找到的示例找出窍门例如this http tutorials jenkov com java concurrency blocking queues html or t
隐式超级构造函数 Person() 未定义。必须显式调用另一个构造函数？

我正在开发一个项目但收到错误隐式超级构造函数 Person 未定义必须显式调用另一个构造函数我不太明白它这是我的人物课程 public class Person public Person String name double D
RSA OAEP、Golang 加密、Java 解密 -BadPaddingException：解密错误

我正在尝试解密使用 RSA OAEP 在 Golang 中加密的字符串但出现 BadPaddingException 解密错误很难弄清楚我错过了什么这是Golang加密方法 func encryptString rootPEM io
Git 无法识别重命名和修改的包文件

我有一个名为的java文件package old myfile java 我已经通过 git 提交了这个文件然后我将我的包重命名为new所以我的文件在package new myfile java 我现在想将此文件重命名和内容更改提交
Java 数组的最大维数

出于好奇在 Java 中数组可以有多少维爪哇language不限制维数但是JavaVM规范将维度数限制为 255 例如以下代码将无法编译 class Main public static void main String args
如何在 Quartz 调度程序中每 25 秒运行一次？

我正在使用 Java 的 Quartz Scheduling API 你能帮我使用 cron 表达式每 25 秒运行一次吗这只是一个延迟它不必总是从第 0 秒开始例如序列如下 0 00 0 25 0 50 1 15 1 40 2 0
如何在Java中正确删除数组[重复]

这个问题在这里已经有答案了我刚接触 Java 4 天从我搜索过的教程来看讲师们花费了大量精力来解释如何分配二维数组例如如下所示 Foo fooArray new Foo 2 3 但我还没有找到任何解释如何删除它们的信息从内存的情
挂钩 Eclipse 构建过程吗？

我希望在 Eclipse 中按下构建按钮时能够运行一个简单的 Java 程序目前当我单击构建时它会运行一些 JRebel 日志记录代码我有一个程序可以解析 JRebel 日志文件并将统计信息存储在数据库中是否可以编写一个插件或
在android中跟踪FTP上传数据？

我有一个运行 Android 的 FTP 系统但我希望能够在上传时跟踪字节这样我就可以在上传过程中更新进度条安卓可以实现这个功能吗现在我正在使用org apache common net ftp我正在使用的代码如下另外我在 A
Java &= 运算符应用 & 或 && 吗？

Assuming boolean a false 我想知道是否这样做 a b 相当于 a a b logical AND a is false hence b is not evaluated 或者另一方面这意味着 a a b Bitwi
JAXB - 列表<可序列化>？

我使用 xjc 制作了一些课程 public class MyType XmlElementRefs XmlElementRef name MyInnerType type JAXBElement class required false

随机推荐

Angular Service Worker，缓存离线应用程序的 api 调用

我正在尝试让服务工作者以角度方式处理 API 请求我希望该应用程序能够离线工作并且我有以下配置 name api urls https x com cacheConfig strategy performance maxSize 20
如果基于更改值，Azure 逻辑应用程序条件无法在循环中工作

我需要编写一个简单的 LogicApp 它连接到 http 端点接收一些 JSON 循环遍历 JSON 消息并根据消息中的值将其分块提交到不同的 http 端点在这样做时我得出的结论是 For Each 循环内的条件始终评估循环之前
如何在多个设备上运行 Uiautomator 测试？

我正在尝试在 bat 文件中进行 Uiautomator android Ui 测试但我无法让它们并行运行这是我的执行流程并连接了 3 个设备 gt adb devices XXXX XXXX XXXX gt adb push bin
bigquery url 解码

有没有一种简单的方法可以在 BigQuery 查询语言中进行网址解码我正在使用一个表该表有一列包含某些值中的 URL 编码字符串例如 http xyz com example php url http 3A 2F 2Fwww exam
使用 html/javascript/css 的弹出表单

我必须在弹出窗口中打开一个 html 表单弹出窗口不应该是一个窗口通常使用 window open 创建而应该像下面的链接中出现的那样在 Firefox 中打开 http www w3schools com js tryit asp
如何获取 UITableView 中特定行的高度

In my UITableView我使用委托方法为不同的行设置了不同的高度 tableView heightForRowAtIndexPath 现在给定一个NSIndexPath 我想获取之前为特定行指定的高度你可以用这个 CGRect
CIFIlter 是否有替代方案可以在 watch os 6 中生成二维码

我正在开发一个独立于手表的应用程序我想在 watchkit 上生成二维码但是由于 coreImage 不能与 watchkit 一起使用我们还有其他方法可以做到这一点吗 Thanks 我使用支持 watchos 的库例如EFQRCo
以编程方式将 LinearLayout 高度更改为 0

我正在调整大小LinearLayout从原来的高度到0 with ViewGroup LayoutParams params getLayoutParams params height newHeight requestLayout 一切正
代码改进：此模式的更好替代方案？

在类似的问题中这种模式叫什么软锁 https stackoverflow com questions 7259436 what is this pattern called soft lock 我询问下面的代码清单的模式名称 publi
产生并处理软件中断

有人可以告诉我如何在Linux下生成软件中断然后用request irq处理它吗或者也许这是不可能的您可以使用软中断来代替您可以通过编辑 include linux interrupt h 来定义您的 sofirq 然后使用函数 ra
有没有办法忽略 ASP.NET Core 中 HTTP 日志记录中的 swagger 响应？

我有一个使用 net 7 创建的 asp net Web api 我启用了http 日志记录 https learn microsoft com en us aspnet core fundamentals http logging vie
Smart Lock 登录提示 setPhoneNumberIdentifierSupported 不起作用

我正在尝试使用 HintRequest 获取用户电话号码 PendingIntent intent Auth CredentialsApi getHintPickerIntent googleApiClient new HintReques
如何响应 vaadin 中表格行的点击

我有以下代码 public Button getBtnSubmit com vaadin ui Button ClickListener l if null l btnSubmit addListener l return btnSubmi
如何将 Android USB 连接模式更改为仅充电？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话但却具有历史意义目前不接受新的答案
我可以设置默认的全局 Java 套接字超时吗？

我遇到了一个问题应用程序中涉及 http 和 ftp 连接的各个位置在 java net SocketInputStream socketRead0 上无限期地挂起在终止 java 进程之前一次观察几个小时我想全局覆盖默认的套接字超时
“ok glass”菜单中没有连接消息

我正在开发一个应用程序当用户从菜单中选择选项时它会在时间轴中添加一张实时卡就像示例应用程序一样我注意到当您没有任何连接时玻璃上的本机应用程序例如 Google 会在 ok glass 菜单中显示无网络连接消息并且无法运行
Javascript对象引用链接到数组中的对象？

如果我有一个对象 var array var theobject null array push song The Song artist The Artist song Another Song artist Another Artist
R如何删除字符串中非常特殊的字符？

我正在尝试删除字符串中的一些非常特殊的字符我读过其他帖子例如从 R 中的字符串中删除所有特殊字符 https stackoverflow com questions 10294284 remove all special charac
Plotly 中所有地理范围的列表

我正在尝试使用在地图上绘制数据plotly js 我知道您可以通过以下方式获得一个国家的地图 layout dict title geo dict scope usa 我们有可用范围的列表吗不同的地区某个地方我尝试过谷歌搜索但似乎找不
如何训练斯坦福 NLP 情感分析工具

地狱大家我正在使用斯坦福核心 NLP 包我的目标是对推文直播进行情感分析按原样使用情感分析工具对文本态度的分析非常差许多积极因素被标记为中性许多消极因素被评为积极我已经在文本文件中获取了超过一百万条推文但我不知道如何实际获

如何训练斯坦福 NLP 情感分析工具

如何训练斯坦福 NLP 情感分析工具 的相关文章

随机推荐

热门标签

如何训练斯坦福 NLP 情感分析工具的相关文章