Emoji表情符号用于文本情感分析-Improving sentiment analysis accuracy with emoji embedding

2023-11-19

Abstract:
Due to the diversity and variability of Chinese syntax and semantics, accurately identifying and distinguishing individual emotions from online texts is challenging. To overcome this limitation, we incorporate a new source of individual sentiment, emojis, which contain thousands of graphic symbols and are increasingly being used for expressing emotion in online conversations. We examined popular sentiment analysis algorithms, including rule-based and classification algorithms, to evaluate the impact of supplementing emojis as additional features to improve the algorithm performance. Emojis were also translated into corresponding sentiment words when constructing features for comparison with those directly generated from emoji label words. In addition, considering different functions of emojis in texts, we classified all posts in the dataset by their emoji usage and examined the changes in algorithm performance. We found that emojis are effective as expanding features for improving the accuracy of sentiment analysis algorithms, and the algorithm performance can be further increased by taking different emoji usages into consideration. In this study, we developed an improved emoji-embedding model based on Bi-LSTM (namely, CEmo-LSTM), which achieves the highest accuracy (around 0.95) when analyzing online Chinese texts. We applied the CEmo-LSTM algorithm to a large dataset collected from Weibo from December 1, 2019 to March 20, 2020 to understand the sentiment evolution of online users during the COVID-19 pandemic. We found that the pandemic remarkably impacted individual sentiments and caused more passive emotions (e.g., horror and sadness). Our novel emoji-embedding algorithm creatively combined emojis as well as emoji usage with the sentiment analysis model and can handle emotion mining tasks more effectively and efficiently.
由于汉语句法和语义的多样性和可变性，准确识别和区分网络文本中的个人情感是一项挑战。为了克服这一限制，我们加入了一种新的个人情感来源，表情符号，它包含数千个图形符号，越来越多地被用于在线对话中表达情感。我们研究了流行的情感分析算法，包括基于规则的算法和分类算法，以评估补充表情符号作为额外特征对提高算法性能的影响。在构造特征以与表情符号标签词直接生成的特征进行比较时，表情符号也被翻译成相应的情感词。此外，考虑到表情符号在文本中的不同功能，我们根据表情符号的使用情况对数据集中的所有帖子进行分类，并检查算法性能的变化。我们发现表情符号作为扩展特征对于提高情感分析算法的准确性是有效的，并且通过考虑不同表情符号的使用可以进一步提高算法的性能。在本研究中，我们开发了一种基于Bi-LSTM（即CEmo-LSTM）的改进表情嵌入模型，该模型在分析在线中文文本时达到了最高的准确率（约0.95）。我们将CEmo LSTM算法应用于2019年12月1日至2020年3月20日从微博收集的一个大型数据集，以了解2019冠状病毒疾病大流行期间在线用户的情绪演变。我们发现，这种流行病显著影响了个人情绪，并导致更多的消极情绪（例如，恐惧和悲伤）。我们的新表情嵌入算法创造性地将表情以及表情的使用与情感分析模型相结合，可以更有效地处理情感挖掘任务。

Main Work:
However, these studies mainly considered emojis as one feature and did not research the sentiment effects of emojis on the whole texts. Little attention has been given to the SA model combined with different emoji usages in texts.
In this study, we proposed an emoji-embedding architecture named CEmo-LSTM to improve the accuracy of sentiment identification and classification in SA tasks. We further evaluated the benefits of introducing emojis to the accuracy of SA in both the traditional rule-based and supervised learning algorithms. Additionally, the most effective approach for embedding emojis in SA algorithms was examined. We compared the performance of the CEmo-LSTM model with that of other mainstream SA models in different experimental settings. Finally, by collecting all posts and embedded emojis published by users on Weibo during the COVID-19 outbreak, we utilized CEmo-LSTM to analyze the sentiment evolution of online users and measured the impact of the COVID-19 pandemic on individual moods. To the best of our knowledge, this is the first study that comprehensively evaluates the effectiveness of introducing emoji usage into SA algorithms.
然而，这些研究主要将表情符号作为一个特征，而没有研究表情符号对整个文本的情感影响。很少有人关注SA模型与文本中不同表情符号的结合。
在本研究中，我们提出了一种表情符号嵌入架构CEmo-LSTM，以提高SA任务中情感识别和分类的准确性。我们进一步评估了在传统的基于规则和监督学习算法中引入表情符号对SA准确性的好处。此外，还研究了在SA算法中嵌入表情符号的最有效的ap方法。我们比较了CEmo-LSTM模型与其他主流SA模型在不同实验环境下的性能。最后，通过收集2019冠状病毒疾病爆发期间用户在微博上发布的所有帖子和嵌入表情，我们利用CEmo-LSTM分析了在线用户的情绪演变，并衡量了2019冠状病毒疾病疫情对个人情绪的影响。据我们所知，这是第一次全面评估将表情符号使用引入SA算法的有效性的研究。

Research Process:

Data collection: We collected all data from Weibo that were posted publicly by users located in Wuhan (the capital of the Hubei province in China), including microblog text, posting time, author ID, and gender, from December 1, 2019 to March 20, 2020. By comparing the sentiments in posts published by Wuhan users before and after the COVID-19 outbreak, we can analyze the sentiment evolution of online users and further explore the impact of COVID-19 on individual moods. Overall, 38,183,194 microblog posts from 2,239,472 unique users were collected. We found that emotion tokens (i.e., emoji characters) were commonly used in Weibo posts. There were 15,609,843 posts containing emoji symbols, accounting for 40.88% of the total posts. In addition, 1,279,828 users used emojis at least once, accounting for 57.15% of all unique users.
数据收集：从2019年12月1日至2020年3月20日，我们从位于武汉（中国湖北省省会）的用户公开发布的微博上收集了所有数据，包括微博文本、发布时间、作者ID和性别。通过比较2019冠状病毒疾病爆发前后武汉用户发表的帖子中的情绪，我们可以分析网络用户的情绪演变，进一步探讨2019冠状病毒疾病对个人情绪的影响。总体而言，共收集了2239472名独立用户的38183194篇微博帖子。我们发现，情感标记（即表情符号）在微博帖子中普遍使用。共有15609843条含有表情符号的帖子，占帖子总数的40.88%。此外，1279828名用户至少使用过一次表情符号，占所有唯一用户的57.15%。
Annotation: Although there have been some annotated corpora on Chinese and English for SA [23,24], they do not explicitly model the interaction between emojis and text. To fill in this gap, we manually annotated a Chinese microblog corpus. A total of 10 annotators (graduate students majoring in data analytics) were engaged to label the corpus, which consists of 10,000 randomly selected microblog posts. The sentiment polarities of the posts were manually classified as positive, negative, and neutral, denoted by 1, -1, and 0, respectively (Table 1). The annotators were asked to label each post by considering both the plain text and embedded emojis.
As there are several principal functions for which emojis are used (e.g., sentiment expression, sentiment enhancement, and sentiment modification) [25], the emoji usage of each post containing emojis was also annotated. Specifically, the emoji usage of each post was classified into three categories, strengthening, reversing (or revising), and uncertain, labelled by 1, -1, and 0, respectively, indicating whether the sentiment of the embedded emojis was consistent (1) or inconsistent (-1) with the sentiment of the text-only post (Table 2). The label 0 was used to denote when the effect of emojis in the post could not be confidently determined. We found that most emojis embedded in the posts were used to strengthen and clarify the sentiment of the original texts, accounting for approximately 73.6% of all posts with emojis included in the corpus. Finally, all 10,000 microblog posts were labelled with their sentiment polarities, of which 5499 posts containing emojis were also annotated with their emoji usages.
注释：尽管有一些关于SA的中英文注释语料库[23,24]，但它们并没有明确地模拟表情符号和文本之间的交互。为了填补这一空白，我们手动注释了一个中文微博语料库。共有10名注释员（数据分析硕士研究生）参与了语料库的标注工作，语料库由10000条随机选择的微博帖子组成。这些帖子的情感极性被手动分为积极、消极和中性，分别用1、-1和0表示（表1）。注释者被要求通过考虑纯文本和嵌入表情来标记每篇文章。
由于使用表情符号有几个主要功能（例如，情感表达、情感增强和情感修改）[25]，因此还对每个包含表情符号的帖子的表情符号用法进行了注释。具体而言，每个帖子的表情符号用法分为三类，强化、反转（或修订）和不确定，分别用1、-1和0标记，表明嵌入表情符号的情绪与纯文本帖子的情绪是一致的（1）还是不一致的（-1）（表2）。标签0用于在无法确定帖子中表情符号的效果时进行注释。我们发现，大多数嵌入在帖子中的表情符号被用来加强和澄清原文的情感，约占语料库中包含表情符号的所有帖子的73.6%。最后，所有10000条微博帖子都贴上了情感极性标签，其中5499条包含表情符号的帖子也标注了表情符号的用法。
CEmo-LSTM model:

As illustrated in Figure 1, our model includes the input sentence, word (emoji) representation, word embedding layer, Bi-LSTM layer, dropout layer, and a softmax layer. Given an input post

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Emoji表情符号用于文本情感分析-Improving sentiment analysis accuracy with emoji embedding 的相关文章

毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
台积电再被坑，2纳米光刻机优先给Intel和三星，美国太霸道了

外媒指出今年ASML的10台2纳米光刻机分配已经基本确定了 Intel拿到6台三星获得3台台积电只能得到一台考虑到美国对ASML的强大影响力外媒的这些消息应该有较高的可信性 Intel在先进工艺制程方面自从2014年量产14纳米之
作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初
2024 人工智能与大数据专业毕业设计(论文)选题指导

目录前言毕设选题选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生
手把手教你用 Stable Diffusion 写好提示词

Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好前面文章写了一篇文章一份保姆级的 Stable Diffusion
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
用通俗易懂的方式讲解：使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成

检索增强生成 Retrieval Augmented Generation RAG 是一种结合了检索 Retrieval 和生成 Generation 的技术它有效地解决了大语言模型 LLM 的一些问题比如幻觉知识限制等随着 RAG
2023最新pytorch安装（超详细版）

前言一判断是否有Nvidia 英伟达显卡二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
AI在保护环境、应对气候变化中的作用

对于AI生命周期数据领域的全球领导者而言暂时搁置我们惯常的AI见解和AI生命周期数据内容产出来认识诸如世界地球日这样的自然环境类活动日似乎是个奇怪的事情我们想要知道数据是否真的会影响我们的地球环境简而言之是确实如此但作为一
AI-基于Langchain-Chatchat和chatglm3-6b部署私有本地知识库

目录参考概述部署安装环境准备原理和流程图一键启动启动WebAPI 服务启动WebUI服务 Docker部署
【卡尔曼滤波】具有梯度流的一类系统的扩散映射卡尔曼滤波器研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据文章
「优选算法刷题」：移动零

嗨这个假期罗根开始接触了算法在为今年的蓝桥杯做准备所以开个新专栏记录记录自己做算法题时的心得一题目给定一个数组 nums 编写一个函数将所有 0 移动到数组的末尾同时保持非零元素的相对顺序请注意必须在不复制数组的情况下
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
CorelDRAW2024官方中文版重磅发布更新

35年专注于矢量设计始于1988年并不断推陈出新致力为全球设计工作者提供更高效的设计工具 CorelDRAW 滋养并见证了一代设计师的成长在最短的时间内交付作品 CorelDRAW的智能高效会让你一见钟情 CorelDRAW 全称 Co
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
开始弃用NeRF？为什么Gaussian Splatting在自动驾驶场景如此受欢迎？（浙江大学最新）...

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述文章首先回顾了3D Gaussian的原理和应用借着全面比较了3D GS在静态
用栈实现队列（OJ中报错的处理）

用栈实现队列 ERROR AddressSanitizer myQueueFree函数中栈的释放处现了问题没有调用StackDestory而是直接free了这个是栈初始化时 capacity与malloc申请的空间大小没有匹配请你仅使
高精度运算合集，加减乘除，快速幂，详细代码，OJ链接

文章目录零前言一加法高精度加法步骤 P1601 A B 二减法高精度减法步骤
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来
AI 赋能绿色制冷，香港岭南大学开发 DEMMFL 模型进行建筑冷负荷预测

近年来城市化进程加速所带来的碳排放量骤增已经严重威胁到了全球环境多个国家均已给出了碳达峰碳中和的明确时间点一场覆盖全球全行业的绿色革命已经拉开序幕在一众行业中建筑是当之无愧的能耗大户其中又以暖通空调 Heating

随机推荐

栈头文件C语言

Stack ADT h 栈模型头文件数据类型定义 typedef char Name typedef struct stack node Name name struct stack node next Stack Node typede
GD32450i-EVAL学习笔记 6 - ADC

目录 1 初始化ADC 1 1 使能RCU 1 2 设置频率 1 3 设置分辨率 1 4 设置数据对齐方式 1 5 使能扫描模式 1 6 设置触发模式 1 6 使能ADC 2 初始化通道规则 3 通道使能 4 软件触发使能 5 获取ADC的
C#List类容输出

将集合中的类容添加间隔符号后输出为string List
vue之babel自动埋点

公司项目是vue单页面技术这天组长对我说为了凸显我们的作用做点外行或者新手看起来高深的东西例如自动埋点当时我的表情先是然后摸鱼摸习惯了就是这种状态最后组长说领导的态度决定我们的绩效没办法为了money 无奈打开了老朋友
nacos集群部署遇到的问题总结

问题一内存不足问题描述 nacos is starting with cluster Error occurred during initialization of VM Could not reserve enough space f
Eclipse android apk打包

Eclipse android 开发更改apk名字有以下几步第一步修改工程包名在eclipse里找到项目包和java包原则上都一样就可以按 F2 修改名字随之源 java也会得到相应的修改然而每个 java文件都需要把如
Fortify 代码扫描安装使用教程

前言 Fortify 能够提供静态和动态应用程序安全测试技术以及运行时应用程序监控和保护功能为实现高效安全监测 Fortify具有源代码安全分析可精准定位漏洞产生的路径以及具有1分钟1万行的扫描速度 Fortify SCA 支持丰富
现在投资创客教育

很多人会问创客要不要投资就像吃西红柿鸡蛋面要不要用刀叉一样你当然可以用也可以用筷子格物斯坦表示如果没有筷子喜欢用手抓着吃也是可以的啊投资人是路径的一种不是唯一更不是全部投资创客教育是教育培训行业比较热门的话题该行业未来是
Python基础语法学习之变量与赋值

近几年Python飞速发展开始学习Python的人群不在仅仅局限于编程开发者许多其他行业的从业者也开始将Python作为自己的职业技能本文仍然是针对零基础的初学者继续学习Python的基础语法变量与赋值主要内容包括变量和赋值的概
el-checkbox-group限制勾选数量
代理模式：静态代理和动态代理

代理模式代理对象增强对目标对象的功能分类静态代理动态代理 jdk代理通过实现接口 cglib通过实现类实现静态代理 JDK动态代理 CGLIB代理模式通过回调拦截器方法实现代理对象的生成
【计算机视觉】直接线性变换（DLT）求解P矩阵（2 使用SVD分解）（附MATLAB代码）

引言之前的帖子已经完成了一种计算直接线性变换的方法是直接通过矩阵运算来进行的不过随后得到的结果并不能满足精度要求如果只是用来作为迭代优化的一个初值的话对于精度的要求倒也不用那么高但在查阅资料时又发现了另一种解法是通过SVD分解
DataFrame对象创建

文章目录前言一创建DataFrame对象二使用步骤前言一创建DataFrame对象示例将字典年龄 23 22 21 岗位客服运营公关年购买量 10 15 8 转换成一个DataFrame对象二使用步骤代码
搭建主数据管理平台，解决多个系统数据不统一的问题

如今的电子产业环境要求电子制造商必须能对产业中的各种变化做出迅速的反应而这些变化产生了前所未有的大量数据包括来自产品类别增加供应中断和需求波动以及其它因素等多方面的数据这些数据以多种格式存在于各种系统之中虽然企业为管理它们花费了
FastAPI准备之pydantic类型检查工具

官方文档 https pydantic docs helpmanual io 这些组织都在用 Jupyter notebook FastAPI Amazon Web Services Uber Microsoft 优势可以和IDE结合可
hbase与spark笔试题（选择题）

转自 https www cnblogs com cxzdy p 5388451 html http www bigdatastudy net show aspx id 175 cid 14 一 HBASE笔试题 HBase来源于哪篇博文
CVS命令深入研究 zz

CVS命令深入研究作者 leizhimin 日期 2006 11 2 环境 Windows server 2003 sp1简体中文版 cvsnt 2 5 03 2260 msi 目录一 CVS命令整体结构二 CVS帮助察看方法概述三
浅谈我所见识的数据治理项目

开篇一张图与正文不一定有关图片来源于朋友圈 01 写在前面熟悉笔者的朋友可能知道笔者之前做的并非纯数据相关工作产品或项目笔者属于半路出家的数据人之前也几乎没有直接接触过数据仓库数据中台数据平台等产品或项目与数据库是一直打
大数据Mapreduce编程——矩阵乘法

编程要求完成矩阵乘法的 Map 函数和 Reduce 函数 1 设计两个矩阵 3050 50100 在每个单元格中填入一个 0 99 的随机数并写入两个文件中作为 Map 函数的输入 2 测试运行矩阵乘法的 MapReduce 框架
Emoji表情符号用于文本情感分析-Improving sentiment analysis accuracy with emoji embedding

Abstract Due to the diversity and variability of Chinese syntax and semantics accurately identifying and distinguishing

Emoji表情符号用于文本情感分析-Improving sentiment analysis accuracy with emoji embedding

Emoji表情符号用于文本情感分析-Improving sentiment analysis accuracy with emoji embedding 的相关文章

随机推荐

热门标签