R文本挖掘之五情感分析

2023-10-27

Part5情感分析

这是这个系列里面最后一篇文章了，其实这里文本挖掘每一个部分单拎出来都是值得深究和仔细研究的，我还处于初级研究阶段，用R里面现成的算法，来实现自己的需求，当然还参考了众多网友的智慧结晶，所以也想把我的收获总结出来分享给大家，希望也能像我一样在看大家的分享时得到自己的启发。

网上翻了下中文文本情感分析的一些文章，再回想了一下我自己做情感分析的方法，觉得我的想法真的是简单粗暴直接。这是一篇介绍中文文本情感分析倾向的论文。http://wenku.baidu.com/link?url=TVf5LgNS6esnunpgubvM14z24m0f4lTyD483gw_hEnp2RyeL6XzanSlz8oCcZCFlwKLqD0PdBhVUcV4-0loTdGp3hL-kqeTTwJ3l91HfTa3，中间讲到做情感分析目前主要有三种方法。第一种由已有的电子词典或词语知识库扩展生成情感倾向词典；第二种，无监督机器学习的方法。第三种基于人工标注语料库的学习方法。

上面三种方法不仔细一一说明了，它们都有一个共同的特点，需要一个情感倾向的语料库。我在R中的实现方案与第一种方法类似，整理一个褒义词词库一个贬义词词库（这个万能的互联网上有自己稍加整理就OK）。给文本做分词，并提取出中间的情感词。给每条文本定情感倾向评分初始值为1，跟褒义贬义词词库做匹配，褒义词+1，贬义词-1，计算出每条文本的最终情感倾向评分，为正值则是正面评价，为负值则是负面评价。方法可以基本实现情感倾向判断，但还可以改进。像前面参考论文中讲到的，还可以根据词语的词性强弱来评定感情的强，不只是+1和-1之分；还有考虑一些词语在不同语境下情感倾向可能会不同，比如论文中讲到的“骄傲”，这个我在想可能需要整理出有这样特殊情况的词语；还有负负得正的情况，比如“不喜欢是不可能的事情！”，照我的评分标准它的结果就是负面评价了；反问的情况，“哪里便宜了？”，评出来结果变成了正。“便宜”这个词我把它放在褒义词表下，其实仔细考虑如果是说“便宜实惠”肯定是褒义，如果说“便宜没好货”，也会是褒义，这就不对了，还是第二个问题不同语境下情感倾向会不同。

R中的实现过程：

1. 数据输入处理

数据还是某品牌官微，取它微博中的1376条评论，情感褒义词库和贬义词库，将数据读入到R中。附词库下载地址：http://www.datatang.com/data/44317/，可能不是很全，需要自己整理丰富，我在看服装相关的文本时，发现有些词像“褪色”，“开线”，“显瘦”，“显胖”都没有在里面，这些就需要自己另外加进去。

[plain] view plain copy

hlzj.comment <- readLines("hlzj_commentTest.txt")
negative <-readLines("D:\\R\\RWorkspace\\hlzjWorkfiles\\negative.txt")
positive <-readLines("D:\\R\\RWorkspace\\hlzjWorkfiles\\positive.txt")
length(hlzj.comment)

[1] 1376

[plain] view plain copy

length(negative)

[1] 4477

[plain] view plain copy

length(positive)

[1] 5588

2. 对评论做分词处理并评级

过程类似Part2中讲到的分词处理。然后我自己写了个方法getEmotionalType()，将分词结果与negative表和positive表作对照计算得分。

[plain] view plain copy

commentTemp <- gsub("[0-9０１２３４５６７８９ < > ~]","",hlzj.comment)
commentTemp <-segmentCN(commentTemp)
commentTemp[1:2]

[[1]]

[1] "恭喜""大家""又" "没有" "找到" "俺"

[[2]]

[1] "没有" "私信" "給" "我" "小编" "把" "我" "给" "漏" "了"

[plain] view plain copy

EmotionRank <-getEmotionalType(commentTemp,positive,negative)

[1] 0.073

[1] 0.145

[1] 0.218

[1] 0.291

[1] 0.363

[1] 0.436

[1] 0.509

[1] 0.581

[1] 0.654

[1] 0.727

[1] 0.799

[1] 0.872

[1] 0.945

[plain] view plain copy

EmotionRank[1:10]

[1] 1 0 2 1 1 2 3 1 0 0

[plain] view plain copy

commentEmotionalRank <-list(rank=EmotionRank,comment=hlzj.comment)
commentEmotionalRank <-as.data.frame(commentEmotionalRank)
fix(commentEmotionalRank)

[plain] view plain copy

getEmotionalType <- function(x,pwords,nwords){
emotionType <-numeric(0)
xLen <-length(x)
emotionType[1:xLen]<- 0
index <- 1
while(index <=xLen){
yLen <-length(x[[index]])
index2 <- 1
while(index2<= yLen){
if(length(pwords[pwords==x[[index]][index2]]) >= 1){
emotionType[index] <- emotionType[index] + 1
}else if(length(nwords[nwords==x[[index]][index2]]) >= 1){
emotionType[index] <- emotionType[index] - 1
}
index2<- index2 + 1
}
#获取进度
if(index%%100==0){
print(round(index/xLen,3))
}
index <-index +1
}
emotionType
}

查看到结果如下，第一个图里看着还挺正常的，第二个图好像是hlzj赞助的RM里出现了衣服被撕坏的时候的评论。没有黑他们家的意思，只是想找个例子来说明下差评的效果，好像不是很理想。那些反问的话无法识别判断，还有一些比较口语化的“醉了”，“太次”这样的词没有放到情感词库里，对这些评论的情感倾向识别效果不是很好。

像前面说的，方法有待改进，我的方法只是一个最基础的情感分析的实现方式，有任何问题欢迎指正。

转载请注明来源，谢谢！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

文本挖掘

R文本挖掘之五情感分析的相关文章

如何在Shiny中动态生成的条件面板中格式化条件？

我正在尝试使用 for 循环在 Shiny 中创建小部件每个块包含 label 复选框选择选择器两个数字输入我想根据复选框的值和选择选择器的值来设置显示或隐藏两个数字输入的条件在我创建的 for 循环中我为每个小部件变量添加了一
如何识别数据集中其他列之和的列

我想编写一个函数最好用 R 语言但也欢迎其他语言它可以识别数据集中列之间的关系仅限于加法减法其实际应用是在大型多列财务数据集上运行它其中某些列是其他列的小计并识别此类小计理想情况下我希望允许一些小的差异例如允许舍入问题
xts 函数不将我的 POSIXct 日期视为适当的基于时间的对象

我创建了一个包含两列的数据框 gt head data frame Date Rainfall 1 1992 01 06 14 00 00 0 3 2 1992 01 06 15 00 00 0 2 3 1992 01 06 16 00 0
R中按字母顺序对每一行字符串进行排序

我环顾四周似乎找不到解决这个问题的好方法我有一个包含行名称的列我想按字母顺序对每一行进行排序以便稍后可以识别具有相同名称但顺序不同的行数据如下 names lt c John D Josh C Karl H John D Bob
Rstudio 更有意义的窗口标题

我在 Ubuntu 16 04 下使用 R studio 版本 1 0 143 窗口标题仅显示一个非常无信息的 RStudio 我希望至少有当前选项卡的名称或者最好是与此选项卡对应的文件的完整路径在 Windows 下完整路径似乎出现
在R中，如何平均空间网格正方形上的空间点数据

现在设法解决问题我有一组大约 50 000 个点它们具有坐标和一个与其关联的值我希望能够将点放入网格中对落在网格正方形中的所有点的关联值进行平均所以我想最终得到一个对象来识别每个网格方块并给出网格方块内的平均值如果有帮助的话我
在 R 中将列表列表转换为数据帧：Tidyverse 方式

我正在寻找将列表列表转换为 R 中的数据帧的 Tidyverse 方法 Create a list of lists a lt seq 1 10 1 b lt seq 1 20 2 Function to calculate the sum
如何调整ggplot2中的标题位置

这是代码 require ggplot2 require grid pdf a pdf png a png a lt qplot date unemploy data economics geom line opts title A b l
在 Ubuntu 上安装软件包需要很长时间

我之前使用 Windows 作为操作系统 RStudio 用于 Windows 今天切换到 Ubuntu 并再次安装了 R 和 RStudio 当我尝试从 CRAN 安装一些软件包时仅tidyverse 使用install package
rvest - 在 1 个标签中抓取 2 个类

我是新来的如何提取标签中具有 2 个类名或仅 1 个类名的元素这是我的代码和问题 doc lt paste span class a1 b1 text1 span span class b1 text2 span library rve
rmarkdown 中的内部链接不起作用

我使用 rmarkdown 来渲染 pdf 文档现在我想在文本中添加内部链接在帮助页面中降价 http rmarkdown rstudio com authoring pandoc markdown html links 它说内部链接定
闪亮的演示文稿 (ioslides)：自定义 CSS 和徽标

我安装了以下内容 RStudio 预览版版本 0 98 864 2014 年 5 月 24 日 knitr 和shiny 的开发版本来自 devtools install github c yihui knitr rstudio shi
R：变换不规则时间字符串

我有两个不同的时间序列来自不同的数据帧具有不同的不规则格式但问题是相同的我只想提取小时分钟秒和毫秒时代系列看起来像这样 ts1 08 27 23 445 08 27 24 280 08 27 25 115 I tried st
Shiny 中的模态对话框：可以调整宽度但不能调整高度

在我的 Shiny 应用程序中我有几个来自闪亮BS 包的模式窗口我可以像这样调整这些模式窗口的宽度 tags head tags style HTML modal lg width 1200px abs 1 background col
反转默认比例梯度ggplot2

我是新手我正在尝试设计热图这是我的代码 ggplot gd aes Qcountry Q6 1 Q6d order TRUE geom tile aes fill prob colour white theme minimal labs
从 R 主题模型中的 DocumentTermMatrix 中删除空文档？

我正在使用 R 中的 topicmodels 包进行主题建模我正在创建一个 Corpus 对象进行一些基本的预处理然后创建一个 DocumentTermMatrix corpus lt Corpus VectorSource vec
尽管提供了群落矩阵，纯素食 DBRDA 物种得分为空

我使用纯素社区生态包在 R 中执行了基于距离的冗余分析 dbRDA 我想在 dbRDA 结果的排序图中显示鱼类营养群体对样本之间差异营养级鱼类组合的丰度数据的相对贡献 IE 将箭头和营养级组名称叠加到排序图上其中箭头线的长度表示
R比例置信区间因子

我正在尝试总结家庭调查的数据因此我的大部分数据都是分类因子数据我想用对某些问题的回答频率图来总结它例如回答某些问题的家庭百分比的条形图误差线显示置信区间我发现了这个很棒的教程我认为它是我祈祷的答案 http www coo
解释 survreg 中的威布尔参数

我正在尝试使用从 R 中的 survreg 估计的参数生成逆威布尔分布我的意思是对于给定的概率这将是在 MS Excel 中实现的小型模拟模型中的随机数返回使用我的参数预计出现故障的时间我理解逆威布尔分布的一般形式是 X b l
如何在 R 地图库中绘制正确的颜色

我正在尝试使用 R 地图库为特定国家绘制特定颜色我可以填写颜色但它们与各自的国家地区没有正确关联我想知道是否有人能知道为什么我的数据框是 filld 有 3 列第一列是国家名称第二列只是一些数字数据第三列是颜色 countr

随机推荐

教妹学Java(十三)：if-else 语句详解

大家好我是沉默王二一个和黄家驹一样身高和刘德华一样颜值的程序员本篇文章通过我和三妹对话的形式来谈一谈 if else 语句教妹学 Java 没见过这么有趣的标题吧语不惊人死不休没错本篇文章的标题就是这么酷炫接受不了的同学就
ETL工具

这些年几乎都与ETL打交道接触过多种ETL工具现将这些工具做个整理与大家分享一 ETL工具国外 1 datastage 点评最专业的ETL工具价格不菲使用难度一般下载地址 ftp ftp seu edu cn Pub D
一步一步写STL:空间配置器（1）

侯捷说追踪一流程序并从中吸取养分模仿着他写的程序比那些自以为靠自己努力写出来的下三流程序价值高得多至少我这么认为世界上99 999 的程序在STL面前都是下三流水平侯捷老师这句话对STL的评价太高了以前只是熟练使用STL
Tensorflow运行机制

TensorFlow是一种基于数据流图的编程框架它使用数据流图来描述计算过程其中节点表示操作边表示数据流从而实现了高效的分布式计算和自动求导在TensorFlow中计算过程分为两个阶段构建阶段和执行阶段在构建阶段我们使用T
达梦数据库-分区表维护

分区表的维护主要有增加分区删除分区交换分区合并分区拆分分区 1 增加分区添加一个新的分区 2 删除分区删除一个就分区 3 交换分区将分区数据跟普通表交换 2张表结构必须一样 4 合并分区将临近的两个分区合并为一个分区目前仅
绘图中的渐变

绘图渐变指的就是在指定区域内指定开始位置到指定结束为止一种颜色颜色逐渐变成另一种颜色的图 qt中的渐变分为三个类别 1线性类别 QLinearGradient 2 角度渐变 QConicalGradient 3 辐射渐变 QRadia
Android Studio 给方法添加注释自动生成参数的快捷设置

没有废话直接上图 Android Studio gt File gt Setting gt Keymap gt 发现框输入comment gt 选择Other的Fix doc comment 2 选择 Add keyboard short
Videos from Embedded Linux Conference 2014

本文转载至 http free electrons com blog elc2014 videos As the summer is coming to an end we finally managed to publish the vi
Kubernetes详解（二十）——ReplicaSet控制器

今天继续给大家介绍Linux运维相关知识本文主要内容是ReplicaSet控制器一 ReplicaSet控制器概述 ReplicaSet控制器是Pod类控制器的一种实现该控制器用于确保其管控的Pod对象副本数量在任意时刻都能够满足用户
XXE-lab（全踩坑）实录

在bWAPP中有一关是XML External Entity Attacks XXE 传送门比较简单的了解了一下XXE 师傅的博客浅谈XML实体注入漏洞 XXE漏洞全称XML External Entity Injection即xml外
解决Windows系统下VNC Viewer无法连接到远程主机上的VNC Server的问题

问题如下笔记本 IP 10 100 172 194 上装了VNC Viewer 台机 IP 10 100 100 103 上装了VNC Server 原本笔记本连接无线网可以通过VNC远程连接到办公网的台机的桌面自从台机重装了系统后
去掉suse里ls默认显示隐藏文件的特性

以root权限suse终端时执行ls命令隐藏文件文件名以开头也都显示出来了这一点我是不太喜欢既然是隐藏文件一般情况下就不要出现尤其是 root目录一堆隐藏文件很影响我查找文件要去掉这个特性先执行alias命令一
arxiv文章下载很慢怎么办？

对于我们这样的深度学习屌丝来说没钱没资源没数据没时间只能看看别人的论文生存了经常会到arxiv上下载一些文章比如cvpr的文章但是由于国内封锁下载很慢甚至接连几天打不开arxiv的网站咋办强烈推荐使用中科院arxi
usb描述符以及传输方式

lsusb命令 Bus 002 表示第2个usb主控制器 Device 002 表示系统给usb鼠标分配的设备号 ID 8087 8002 Intel Corp 表示usb设备的ID 这个ID由芯片制造商设置可以唯一表示该设备 8087
洛谷P5731 【深基5.习6】蛇形方阵

include
电脑itunes,iTunes

Music TV and podcasts take center stage iTunes forever changed the way people experienced music movies TV shows and podc
内存管理之分段与分页

内存管理之分段与分页转载自多名技术分享者仅供参考第一篇要理解分段和分页那么得理解为什么会出现分段和分页的技术首先这两个技术都是为了利用和管理好计算机的资源内存在分段这个技术还没有出现之前程序运行是需要从内存中分配出足够多
【Verilog】Verilog定义二维数组（2D Array）

目录定义的种类第一种赋值方法第二种赋值方法第三种赋值方法定义的种类首先看几组定义类型第一种定义一个位宽为8的 data1 reg 和 data2 wire 的变量 reg 7 0 data1 wire 7 0 data
java.io.IOException: InvalidResourceRequestException: Invalid resource request

1 背景做一次kylin计算选择mr进行计算cube 但是报错首先是这一报错报错打开是 yarn上的原因为 2019 05 09 15 07 38 495 ERROR Thread 52 org apache hadoop mapr
R文本挖掘之五情感分析

本文是转载原文地址 CSDN R语言做文本挖掘 Part5情感分析 Part5情感分析这是这个系列里面最后一篇文章了其实这里文本挖掘每一个部分单拎出来都是值得深究和仔细研究的我还处于初级研究阶段用R里面现成的算法来实现自己的需求

R文本挖掘之五情感分析

R文本挖掘之五情感分析 的相关文章

随机推荐

热门标签

R文本挖掘之五情感分析的相关文章