cogmen: contextualized gnn based multimodal emotion recognition(2022)

2023-11-09

cogmen:基于语境gnn的多模式情感识别

摘要

情感是人类互动的固有部分,因此,开发理解和识别人类情感的人工智能系统势在必行。

在涉及不同人群的对话中,一个人的情绪受到另一个说话者的话语以及他们自己在话语中的情绪状态的影响。

在本文中,我们提出了基于语境化(语境)图神经网络的多模式情感识别(cogmen)系统,该系统利用局部信息(即说话人之间的相互/内部依赖)和全局信息(语境)。该模型使用基于图神经网络(gnn)的架构来建模对话中的复杂依赖关系(局部和全局信息)。

我们的模型在iemocap和mosei数据集上给出了最先进的(sota)结果,详细的烧蚀实验表明了在这两个层面上建模信息的重要性。

研究内容

情绪是人类固有的,引导着他们的行为,并指示潜在的思维过程(minsky,2007)。因此,理解和识别情绪对于开发与人类直接交互的人工智能技术(如个人数字助理)至关重要。在许多人之间的对话中,每个人都会经历和表达情绪的起伏。多模式情感识别的任务解决了在不同环境(例如对话)中监测个体表达的情感(通过各种模式,例如视频(面部)、音频(语音))的问题。

1、话语中表达的情感状态与语境直接相关;例如,如果潜在的语境是关于一个快乐的话题,比如庆祝一个节日或描述一个假期,那么就会有更多的积极情绪,比如喜悦和惊喜。考虑图1中所示的示例,其中语境描述了一个激动人心的对话。演讲者1对自己的承认感到兴奋会影响整个语境中的情绪流动。

2、在会话环境中,情绪可能是一种交际反应,其来源于另一个人所说的句子,起到刺激作用。说话人2的情绪状态显示了u2、u4和u6中对说话人1的依赖,并通过对说话人1的反应好奇来维持u8和u10中描述的个人内部状态。

示例会话描述了全局信息以及说话人之间和内部依存关系对话语情感状态的影响。

此外,情绪是一种多模态现象;一个人从不同的模式(例如音频、视频)中提取线索来推断他人的情绪,因为不同模式中的信息通常是相辅相成的。

在本文中,我们利用这些直觉,提出了cogmen:基于语境化图神经网络的多模式情感识别架构,该架构解决了语境对话语的影响以及用于预测对话期间每个说话人每句话情感的相互依存和内部依存。

关于单峰(仅使用文本)预测已经有很多工作,但我们的重点是多峰情感预测。正如在多模态情绪预测的文献中所做的那样,我们不关注与单峰模型的比较。实验和消融研究表明,我们的模型利用了信息的来源(即局部和全局),在多模式情感识别数据集iemocap和mosei上给出了最先进的(sota)结果。

 

Figure 1: 两个说话者之间的对话的例子,每句话都唤起相应的情绪。

提出的方法型架构

图2显示了详细的体系结构。输入的话语作为语境提取器模块的输入,该模块负责捕获全局语境。语境提取器为每个话语(utterance)提取的特征形成了一个基于说话人之间交互的图(Graph Formation)。该图作为Relational - GCN的输入,然后是graph transformergraph transformer使用形成的图来捕捉话语之间的内部和内部关系。最后,作为情感分类器的两个线性层使用所有话语获得的特征来预测相应的情感。

Figure 2: The proposed model (COGMEN) architecture.  

文章贡献

•我们提出了一种基于语境图神经网络(GNN)的多模式情感识别架构,用于预测对话中每个说话人的每个话语的情感。我们的模型在对话中利用了局部和全局信息。我们使用图形变换(SHI等人,2021)对多模式情感识别系统中的说话人关系进行建模。

•我们的模型在IEMOCAP和MOSEI的多模式情感识别数据集上给出了SOTA结果。

•我们对模型及其不同组件进行了彻底分析,以显示局部和全局信息的重要性以及 GNN组件的重要性。

数据集

我们在两个广泛使用的数据集上进行情感识别任务的实验:IEMOCAP(BUSSO等人,2008)和MOSEI(ZADEH等人,2018B)。数据集统计数据如表1所示。

 

Table 1: Dataset Statistics.

IEMOCAP是一个二元多模式情感识别数据集,其中对话中的每个话语都被标记为六种情感类别之一:愤怒、兴奋、悲伤、幸福、沮丧和中性。在文献中,两种IEM OCAP设置用于测试,一种具有4种情绪(愤怒、悲伤、幸福、中性),另一种具有6种情绪。我们对这两种设置都进行了实验。

MOSEI是一个多模式情绪识别数据集,由7种情绪(-3(高度消极)到+3(高度积极))和6种情绪标签(幸福、悲伤、厌恶、恐惧、惊讶和愤怒)注释。注意,不同数据集的情绪标签不同。我们使用加权F1分数和准确性作为评估指标(详见附录C)。

补充知识

情感识别是自然语言处理中一个正在积极研究的问题。广泛的应用范围包括情感理解系统,近年来,从语料库到情感生成的意见挖掘吸引了积极的研究兴趣。基准多模式数据集的可用性,如cmu mosei(zadeh等人,2018b)和iemocap(busso等人,2008),加速了该领域的进展。

从广义上讲,这一领域的大多数现有工作主要可分为两个领域:单峰方法和多峰方法。单峰方法倾向于将文本视为一种突出的通信模式,并仅使用文本模态来解决情感识别任务。相比之下,多模式方法更自然,考虑多种模式(音频+视频+文本),并将它们融合到识别情感中。在本文中,我们提出了一种多模式的情感识别方法。然而,我们简要概述了一些重要的单峰方法,因为其中一些技术适用于我们的环境。

单峰方法:cosmic(yu等人,2019)利用常识知识执行纯文本情感分类问题。dialogxl(shen等人,2021a)使用xlnet(yang等人,2019)作为对话特征提取的架构。与我们的工作平行的其他流行方法使用基于图的神经网络作为基线,并解决基于rnn的架构中的语境传播问题,包括dialoguegcn(ghosal等人,2019)、rgat(ishiwatari等人,2020)、congcn(张等人,2019)和Sumaggin(sheng等人,2020)。最近的一些方法,如dag erc(shen等人,2021b)结合了传统基于图的神经模型和基于递归的神经模型的优点

多模式方法:由于情绪和面部线索之间的高度相关性(ekman,1993),融合模式以提高情绪识别引起了人们极大的兴趣(sebe等人,2005)。一些最初的方法包括datcu和rothkrantz(2014),他们将声音信息与视觉线索相融合,用于情感识别。wollmer等人(2010年)在多模态环境中使用语境信息进行情感识别。在过去十年中,深度学习的发展推动了多模式环境下的广泛方法。内存融合网络(mfn)(zadeh等人,2018a)提出使用多视图门控存储器同步多模式序列,存储随时间变化的视图内和视图间交互。图形多功能神经网络(bagher-zadeh等人,2018)扩展了多功能神经网络的概念,并引入了动态融合图(dfg),该图学习对n-模态相互作用进行建模,并动态改变其结构,以根据推理过程中每个n-模态动态的重要性选择融合图。会话记忆网络(cmn)(hazarika等人,2018b)利用会话历史中的语境信息,并使用选通递归单元将每个说话人过去的话语建模为记忆。张量融合网络(tfn)(zadeh等人,2017)使用模式的外积。其他流行的方法包括dialoguernenn(majumder等人,2019),该方法提出了不同话语的注意力机制,并通过其局部gru和全局gru模拟情感动态。b2+b4(kumar和vepa,2020),使用条件选通机制学习跨模态信息。bc lstm(poria等人,2017)提出了一种基于lstm的模型,该模型从周围的话语中捕获语境信息。multilogue net(shenoy和sardana,2020)提出了一种基于语境感知rnn的解决方案,并将成对注意力用作所有三种模式(音频、视频和文本)的融合机制。最近,(delbrouck等人2020)提出了tbje,这是一种基于transformer的架构,具有模块化共同注意力(yu等人,2019),用于联合编码多种模式。consk gcn(fu等人,2021)使用带知识图的图卷积网络(gcn)lian等人(2020年)使用基于gnn的架构,使用文本和语音模式进行情感识别af can(wang等人,2021a)提出了基于语境注意的rnn,用于建模说话人之间的交易和依赖。

实验细节

实现细节:对于IEMOCAP,使用OPENSMILE提取音频特征(尺寸100)(EYBEN等人,2010),从BALTRUSAITIS等人(2018)提取视频特征(尺寸512),使用SBERT提取文本特征(尺寸768)(REIMERS和GUREVYCH,2019)。

MOSEI数据集音频特征取自DELBROUCK等人(2020),使用80个滤波器组的LIBROSA(MCFEE等人,2015)提取,使特征向量大小为80。视频特征(尺寸35)取自ZADEH等人(2018B)。使用SBERT获得文本特征(大小768)。语篇特征是句子层面的静态特征。对于音频和视觉模式,我们通过平均所有标记级特征来使用句子/话语级特征。

我们通过级联融合了所有可用模式(a(音频)+t(文本)+v(视频):atv)的功能。我们还探讨了其他融合机制(附录g.1)。然而,级联提供了最好的性能。我们使用贝叶斯优化技术对我们提出的模型进行了超参数搜索(详见附录a)。

基线

基线:通过将COGMEN与许多基线模型进行比较,我们对COGMEN进行了全面评估。对于IEMOCAP,我们将我们的模型与现有的多模式框架进行比较(表2),其中包括DIALOGUERNN(MAJUMDER等人,2019)、 BC-LSTM(PORIA等人,2017)、CHFUSION(MAJUMDER等人,2018)、MEMNET(SUKHBATAR等人,2015)、TFN(ZADEH等人,2017)、MFN(ZADEH等人,2018A)、CMN(HAZARIKA等人,2018B)、ICON(HAZARIKA等人,2018A)和AF-CAN(王等人,2021B)

对于MOSEI,COGMEN与多模式模型进行了比较(表4),包括多模式网络(SHENOY和SARDANA,2020年)和TBJE(DELBROUCK等人,2020年)(关于基线的详细信息和分析,见§6)。

实验

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

cogmen: contextualized gnn based multimodal emotion recognition(2022) 的相关文章

  • 扬帆证券:产业化破题在即 人形机器人超预期演进

    大模型助力下的拐点 特斯拉A股产业链上 两笔重磅出资几乎一起现身 总规划超百亿元 1月4日 拓普集团公告 与宁波经济技能开发区办理委员会签署了 机器人电驱系统研发生产基地项目出资协议书 公司拟出资50亿元 建设机器人核心部件生产基地 此次出
  • 文档扫描与矫正-仿射变换

    图像变换是计算机视觉和图像处理中的关键技术之一 它允许我们对图像进行各种形式的变形 调整和校正 其中 仿射变换是一种常见的变换方式 在文档扫描过程中 由于拍摄角度和畸变等原因 文档图像可能存在一定程度的形变 仿射变换可以用于校正文档图像 使
  • 欧盟反垄断主管即将会见库克,iPhone NFC功能要开放了?

    1月5日路透社报道 欧盟反垄断主管玛格丽特 维斯塔格 Margrethe Vestager 即将在下周举办会议 会见苹果 博通 英伟达等多个科技公司CEO 苹果首席执行官蒂姆 库克 Tim Cook 就在其中 欧盟反垄断想来大家应该已经不陌
  • 用通俗易懂的方式讲解:图解 Transformer 架构

    文章目录 用通俗易懂方式讲解系列 1 导语 2 正文开始 现在我们开始 编码 从宏观视角看自注意力机制 从微观视角看自注意力机制 通过矩阵运算实现自注意力机制
  • 【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究(Python代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 2 1 有 无策略奖励 2 2 训练结果1
  • 【路径规划】基于A*算法路径规划研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
  • 蒙特卡洛在发电系统中的应用(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
  • 问CHAT很繁琐的问题会不会有答案呢?

    问CHAT 什么已有的基于极值理论的极端温度重现期主要针对极端高温事件 对极端低温事件研究较少 CHAT 回复 为这主要可能是由于以下几个原因 1 气候变化与全球变暖 当前 全球变暖和气候变化的问题备受关注 这导致科研者更加关注极端高温事件
  • 喜报|华测导航荣获“张江之星”领军型企业称号

    近日 2023年度 张江之星 企业培育名单发布 上海华测导航荣获2023年度 张江之星 领军型企业称号 据悉 张江之星 企业培育是上海科创办为落实 关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见 张江高新区加快世界领先科技园区
  • 利用CHAT写实验结论

    问CHAT 通过观察放置在玻璃表面上的单个水滴 人们可以观察到水滴充当成像系统 探究这样一个透镜的放大倍数和分辨率 CHAT回复 实验报告标题 利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率 一 实验目的 通过对比和测量 研究和探索玻
  • 面对AI革新时,Soul App等社交应用的“出圈”解法是什么?

    2023年初 ChatGPT掀开海内外互联网 AI革新 的序幕 公众在惊讶于ChatGPT对于海量信息富有逻辑的整合归纳 帮助大家提升工作及学习效率之余 更为期待的莫过于有一天人工智能的 意识觉醒 十余年前由斯派克 琼斯 Spike Jon
  • 明日 15:00 | NeurIPS 2023 Spotlight 论文

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入 哔哩哔哩直播通道 扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍 黄若孜 腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
  • 基于opencv的大米计数统计(详细处理流程+代码)

    在我每周的标准作业清单中 有一项是编写计算机视觉算法来计算该图像中米粒的数量 因此 当我的一个好朋友M给我发了一张纸上的扁豆照片 显然是受到上述转发的启发 请我帮他数一下谷物的数量时 它勾起了我怀旧的回忆 因此 我在我的旧硬盘上寻找很久以前
  • 手把手教你用 Stable Diffusion 写好提示词

    Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度 文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好 前面文章写了一篇文章 一份保姆级的 Stable Diffusion
  • 做大模型也有1年多了,聊聊这段时间的感悟!

    自ChatGPT问世以来 做大模型也有1年多了 今天给大家分享这一年后的感悟 过去一年应该是AI圈最万千瞩目的一年了 大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注 以至于有一年的时间好像经
  • 如何用GPT进行论文润色与改写?

    详情点击链接 如何用GPT GPT4进行论文润色与改写 一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图 图像识别 文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
  • 回望计算机视觉会议ICCV的31年

    作者 原野寻踪 编辑 汽车人 原文链接 https zhuanlan zhihu com p 670393313 点击下方 卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 点击进入 自动驾驶之心 全栈算法 技术交流群 本文只做
  • 基于节点电价的电网对电动汽车接纳能力评估模型研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 数据
  • 考虑光伏出力利用率的电动汽车充电站能量调度策略研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 数据
  • AI 赋能绿色制冷,香港岭南大学开发 DEMMFL 模型进行建筑冷负荷预测

    近年来 城市化进程加速所带来的碳排放量骤增 已经严重威胁到了全球环境 多个国家均已给出了 碳达峰 碳中和 的明确时间点 一场覆盖全球 全行业的 绿色革命 已经拉开序幕 在一众行业中 建筑是当之无愧的能耗大户 其中又以暖通空调 Heating

随机推荐

  • Redis为服务器设置密码

    以下以Windows版本为例 在 redis windows service conf 文件 设置 requirepass foobared requirepass 123456 masterauth
  • AD常用使用快捷键和技巧

    PCB布线常使用 ctrl m 测量长度 ctrl C 取消显示测量长度 Q 单位切换 shift ctrl r 取消显示标注 shift S 显示层切换 ctrl 右击 高亮显示一条线 ctrl D PCB 2D显示设置 层 透明度 A
  • OpenCV:imwrite函数保存图片

    imwrite函数功能 用于将图像保存到指定的文件 可以为各种格式的图像 函数原型 bool cv imwrite const String filename InputArray img const std vector
  • js实现input的赋值

    input框赋值 如下所示 是一个文本框的html代码 实际开发中 要涉及到将数据库中的数据取出然后放入input框中
  • UML 用例图、顺序图、状态图、类图、包图、协作图、流程图

    面向对象的问题的处理的关键是建模问题 建模可以把在复杂世界的许多重要的细节给抽象出 许多建模工具封装了UML 也就是Unified Modeling Language 这篇课程的目的是展示出UML的精彩之处 UML中有九种建模的图标 即 用
  • vue事件对象、冒泡、阻止默认行为

    事件对象
  • 【满分】【华为OD机试真题2023 JAVA&JS】任务混部

    华为OD机试真题 2023年度机试题库全覆盖 刷题指南点这里 任务混部 知识点差分 时间限制 1s 空间限制 256MB 限定语言 不限 题目描述 公司创新实验室正在研究如何最小化资源成本 最大化资源利用率 请你设计算法帮他们解决一个任务混
  • sql-labs注入1-10关

    sql labs注入第1 10关 Less 1 输入 id 1登录页面正常 Order by对前面的数据进行排序 这里有三列数据 我们就只能用order by 3 超过3就会报错 order by 4 的结果显示结果超出 爆数据库名 id
  • SpringBoot+MyBatis搭建迷你小程序

    本项目如下 maven的安装目录在哪 setting文件放在哪 仓库在哪 分别为G Program Files x86 apache maven 3 5 4 conf 与G Program Files x86 apache maven 3
  • 【高等代数】行列式的定义和性质

    文章目录 逆序数 逆序数的定义 逆序数的一个重要性质 行列式的定义 行列式的性质 逆序数 逆序数的定义 一个排列中的某两个数字 如果前面的数大于后面的数 那么它们就是一个逆序 一个排列中逆序的总数就称为这个排列的逆序数 逆序数用 j 1
  • JAVA的安装与卸载

    1 java的卸载 1 删除java的安装目录 2 删除系统环境变量里的JAVA HOME和Path里面的bin目录和jre bin目录 3 cmd输入java version 查看是否删除取消 2 java的安装 1 百度搜索jdk1 8
  • 【算法题】螺旋矩阵III (求解n阶蛇形矩阵)

    一 问题的提出 n阶蛇形矩阵的特点是按照图1所示的方式排列元素 n阶蛇形矩阵是指矩阵的大小为n n 其中n为正整数 题目背景 一个 n 行 n 列的螺旋矩阵可由如图1所示的方法生成 观察图片 找出填数规律 填数规则为从 1 开始填到 n n
  • Zinx框架学习 - 构建最基础的Server

    Zinx V0 1 构建最基础的Server Zinx的框架结构 整体思路 客户端发送请求到服务器端 服务端会有一个Goroutine专门处理listenner和监听这个过程 然后有客户端连接过来之后会启动一个客户端处理Goroutine
  • Mayor‘s posters (线段树+离散化)

    题目链接 Mayor s posters 思路 由于看到l r的值最大可达到1e7 这时候如果强行build 那么大概率会出错 看到n的值只有1e4 这时候我们应该想到用离散化去解决这个问题 而且 这里还有一个坑点 假如所给区间为 1 4
  • Java 基础 - 注解

    目录 注解基础 Java内置注解 元注解 注解与反射接口 自定义注解 注解基础 注解是JDK1 5版本开始引入的一个特性 用于对代码进行说明 可以对包 类 接口 字段 方法参数 局部变量等进行注解 它主要的作用有以下四方面 生成文档 通过代
  • Redis设置密码

    Redis设置密码 redis安装完后 默认是没有密码的 1 设置临时密码 设置用户的密码为123456 CONFIG SET requirepass 123456 redis提示OK表示密码设置成功 注意 临时密码当redis服务停止过后
  • IDEA JAVA使用BilibiliClient抓取哔哩哔哩用户动态等数据信息

    关于 一直在想办法获取哔哩哔哩的相关对象 对媒体运营数据进行自动管理 于是写了一个BiliClient的JAR包 自己使用 也分享出来 希望可以帮助大家 目前该项目已经上传GITHUB和Maven中央仓库 可以直接使用依赖引入 引入Mave
  • java “错误:编码GBK 的不可映射字符”解决方法

    本人用sublime text编写了java代码 通过DOS 编译 提示 错误 编码GBK的不可映射字符 如下图 解决方法有以下两种 1 运行时使用 javac encoding UTF 8 Convert java 2 记事本打开java
  • React动态添加onClick点击事件及动态添加hover样式

    1 React类组件中根据flag的值变化 动态添加onClick点击事件 flag为true时返回的是一个包含onClick属性的对象 属性值为一个箭头函数 再使用ES6扩展运算符对对象进行展开 2 React类组件中根据flag的值变化
  • cogmen: contextualized gnn based multimodal emotion recognition(2022)

    cogmen 基于语境gnn的多模式情感识别 摘要 情感是人类互动的固有部分 因此 开发理解和识别人类情感的人工智能系统势在必行 在涉及不同人群的对话中 一个人的情绪受到另一个说话者的话语以及他们自己在话语中的情绪状态的影响 在本文中 我们