「深度学习表情动作单元识别」 最新2022研究综述

2023-11-07

551693385fecbd38d27ad76c5e90bca2.jpeg

来源:专知

dc4ea51b8bc351ddfd24e123283103c7.png

基于深度学习的表情动作单元识别是计算机视觉与情感计算领域的热点课题.每个动作单元描述了一种人脸局部表情动作,其组合可定量地表示任意表情.当前动作单元识别主要面临标签稀缺、特征难捕捉和标签不均衡3个挑战因素. 基于此,本文将已有的研究分为基于迁移学习、基于区域学习和基于关联学习的方法,对各类代表性方法进行评述和总结. 最后,本文对不同方法进行了比较和分析,并在此基础上探讨了未来动作单元识别的研究方向.

https://www.ejournal.org.cn/article/2022/0372-2112/0372-2112-2022-50-8-2003.shtml

1 引言

近年来,“以人为本,服务于人”得到人工智能研究越来越广泛的关注,面部表情是人类情感最自然和直接的表现方式,对其的分析和识别[1~3]是计算机视觉与情感计算领域的热门研究方向,在医疗健康[4]、公共安全[5]等领域具有广泛的应用前景.由于人们在日常生活中较少表现大幅度的面部动作,更多是通过局部细微表情来表达情感,如悲伤时眉毛下垂、惊讶时张开嘴,因此许多工作关注对局部表情动作而不仅仅是整体表情的识别.

人脸动作编码系统(Facial Action Coding System,FACS)[6,7]定义了几十个表情动作单元(Action Unit,AU),是目前描述人脸局部细微表情最全面和客观的系统之一.如图1所示,快乐、悲伤、惊讶等整体表情被定量地解析为多个AU的组合,每个AU是一个基本面部动作,与一或多个人脸局部肌肉动作有关.在一个人脸表情中,可能只出现一个AU,也可能同时出现多个AU.虽然FACS只定义了几十个AU,但是每个AU具有从低到高的多个强度级别,因而AU的组合可表示7 000种以上真实存在的表情[8],满足了精细刻画表情的需要.

35d4c2ab09b521234e6fd1ae34f70ef0.jpeg

图1   整体表情与AU的关系示例

深度学习在计算机视觉的各个领域都获得了巨大成功,近些年越来越多的人脸表情识别工作采用深度神经网络,基于其强大的特征提取能力,显著提升了表情识别的精度.然而早期的人脸表情识别综述[9~11]主要介绍传统的非深度学习方法,由于这类方法采用人工设计的特征,限制了表情识别的性能.近年来,Corneanu等人[12]总结了基于RGB图像、3D、热成像或多模态数据的人脸表情识别工作,Li等人[13]将讨论范围限定在基于深度学习的方法.然而,上述综述仅关注识别整体表情的工作,忽视了表情AU识别.另外,贲晛烨等人[14]和徐峰等人[15]对微表情识别进行了综述,但也没有关注AU识别.Martinez等人[16]和Zhi等人[17]虽然详细回顾了AU识别工作,但其中大部分仍是基于传统的非深度学习方法.

鉴于此,本文主要讨论基于深度学习的表情AU识别工作,对这一领域的代表性方法进行分类、评述和总结,弥补现有人脸表情识别综述的不足.本文接下来首先介绍AU识别的问题定义、挑战和评测数据集,然后从迁移学习、区域学习和关联学习3个角度对已有工作进行概述,之后将一些主流AU识别方法的性能进行了比较,最后探讨了AU识别未来的研究趋势.

2 问题定义、挑战和评测数据集


2.1 AU的定义

人脸表情出现时,一些局部区域会发生肌肉动作.人脸动作编码系统(FACS)[6,7]基于人脸解剖学所划分的局部肌肉,定义了一个基本面部动作即动作单元(AU)的集合.每个AU涉及一个或多个局部肌肉,具有0,1,2,3,4,5这6个强度级别,其中0表示不出现而5则表示出现的强度最大,因而可以客观且定量地描述人脸精细表情.图2展示了常见的27个AU的示例图片及定义,其中9个AU出现在上半脸,18个AU出现在下半脸.可以发现,每个AU都是一种局部的面部动作,刻画了细微表情.形式化地,任一人脸表情可以由这些AU出现的强度所构成的向量

602935e469ef17e17f3148933af7f5a6.jpeg

来表示,其中未出现的AU的强度即为0.

e6fe9bce082316de3d23bf79256a90dd.jpeg

图2   常见的27个AU的示例图片及定义[6,18]

表1列出了每类整体表情中可能出现的AU[16],这些AU同时出现或部分同时出现于整体表情,例如快乐表情可以由AU 6,AU 12和AU 25的组合来表示,悲伤表情可以由AU 1,AU 4,AU 6和AU 17的组合来表示.值得注意的是,人们在意识到自身表露出一种可能不合适的表情时经常会试图抑制它来隐藏真实的情绪,而只要试图掩盖原来的表情其面部便会自发地出现微表情(Micro-Expression)[19].微表情的持续时间很短,一般的界定标准为持续时间不超过500 ms[20],这是其区别于宏表情(Macro-Expression)的主要特征[21].微表情也可以用AU的组合进行描述,表2具体定义了每类微表情对应的AU组合[22],其中I,II,III,IV,V和VI类分别与快乐、惊讶、愤怒、厌恶、悲伤和恐惧相关,VII类与蔑视等其他微表情相关.例如,微表情I类可以由AU 6,AU 7和AU 12的组合或单个AU 6来表示.因此,研究AU识别对微表情识别同样具有重要意义.

5439a8de47ab45ea826f75236d0796bd.jpeg

83f6e58952e85608eda54672cb70b908.jpeg

经过观察,AU 的组合可以形成 7 000 多种真实存 在的表情[8] . 在某一人脸表情中,可能单独出现一个 AU,也可能同时出现多个 AU. 当多个 AU同时出现时, 若它们是可加性的(Additive),则 AU 的组合出现并不 改 变 各 AU 的 外 观 ;若 它 们 是 不 可 加 性 的(NonAdditive),即它们的肌肉动作存在交叠区域,会融合成 新的肌肉动作,则各 AU 的外观会被改变 . 此外,一些 AU 组合如 AU 1 和 AU 4 在悲伤和恐惧表情中都会出 现,比其他组合出现的频率更高. 另外,某些AU之间是 相互排斥的,如 AU 1 和 AU 7,两者不会同时出现在任 一表情中,若一个AU出现则另一个AU不会出现。

2. 2 基于深度学习的AU识别的定义

基于深度学习的 AU 识别主要包含 3 个环节,即人 脸检测、人脸对齐和 AU 识别,如图 3 所示 . 人脸检测 指在输入图像上检测人脸的位置;人脸对齐指基于人 脸配准所定位的面部特征点对人脸进行变换,使得变 换后人脸与参照人脸(一般为平均脸)的对应特征点位 置相同或相近;AU 识别是基于深度神经网络实现,无 须额外提取人工设计的特征,其从每张对齐后的人脸 图像所提取的特征都对应于相同的面部语义位置,这有利于提升网络的特征学习以及进一步的分类或回归 能力 .

2.3 基于深度学习的AU识别的挑战

AU作为出现在面部局部区域的细微表情动作,较难被准确捕捉,且人工地对其标注也较困难,因此基于深度学习的AU识别主要面临如下3个挑战因素.

(1)标签稀缺性:AU需要由经过培训的专家来标注,且标注过程较耗时,因而人工标注的成本很高[6],使得目前大多数被标注的数据集规模较小、样本多样性较低.由于深度学习方法通常需要大量的训练数据,因此标签稀缺性是限制模型精度的重要因素.

(2)特征难捕捉性:AU是非刚性的,其外观随人和表情的变化而变化,且每个AU的形状不规则、不同AU的大小一般不相同.而且,人脸表情中时常会同时出现2个以上具有交叠区域的AU,存在不可加性,例如AU 1和AU 4在图1的悲伤表情中同时出现,它们会改变各自原来的外观,融合成新的面部肌肉动作.这些都导致各AU所关联的局部表情细节难以被准确地捕捉.

(3)标签不均衡性:在人们经常表现的表情中,某些AU出现的频率比其他AU更高,且每一AU出现的频率时常低于不出现的频率,即AU的标签具有不均衡性,而当前AU数据集规模小、多样性低的情况加剧了这种不均衡性.这些导致了AU识别模型对多个AU同时预测时容易偏向于提升出现频率较高AU的精度,而其他AU的精度则受到抑制,且容易偏向于将AU预测为不出现.

尽管深度学习显著提升了AU识别的性能,上述挑战仍是导致AU识别精度较低、不同AU精度差异较大的主要因素,如何克服这样的挑战是当前AU识别研究的热门方向.

2.4 AU数据集

自FACS[6,7]被提出以来,学术界克服AU数据采集、标注的困难,发布了多个AU数据集,促进了AU识别技术的发展.早期的数据集,如CK[25]和MMI[18],是在受控环境下采集的具有良好光照和简单背景的正面或近似正面的人脸图片,受试者被要求人为地显露出指定的面部表情.最近十年,研究人员更多地关注受试者被诱发而自发产生的表情,代表性数据集包括受控环境下采集的BP4D[26]和DISFA[27]等.近年来,学术界发布了几个非受控场景下采集的数据集,如EmotioNet[28]和Aff-Wild2 (AU Set)[29],其包含的图片来自互联网等野外(Wild)场景,在光照、遮挡、姿态等方面变化多样.

本文接下来对一些流行的AU数据集进行介绍,由于数据集的采集环境(受控、非受控)、表情激发方式(人为、自发)、样本多样性(人脸身份数、图片或视频数)、数据形式(2D,3D)都会影响模型的训练效果,表3对数据集的这些属性进行了总结.此外,图4展示了这些数据集的示例图片.

27698c1339ea309c8f1d829a5a8a1e25.jpeg

3 基于深度学习的AU识别方法进展

针对标签稀缺性,可以利用迁移学习将有用的知识迁移到当前任务;针对特征难捕捉性,可以从准确捕捉AU的关联区域从而提取AU特征来切入;针对标签不均衡性,可以考虑利用AU间的关联对不均衡的AU进行平衡.本文接下来分别予以介绍.

3.1 基于迁移学习的方法

迁移学习的目标是弥补有人工标签的训练样本的不足,将相关联的样本、标签、模型或先验知识等迁移过来,提升当前任务的模型性能.

3.1.1 基于已有模型的迁移学习

最常见的迁移学习方法是在当前数据集上微调其他图像数据集上预训练的模型,由于不同类型的图像时常具有相似的颜色分布和背景环境等属性,预训练模型所携带的知识也有利于当前模型的训练.Zhou等人[40]基于一个在ImageNet[41]上预训练的VGG16[42]网络,实现AU强度估计和头部姿态估计.Ji等人[43]在整体表情识别和人脸识别这2个与AU相关联任务的数据集上分别预训练ResNet-34网络[44],接着在AU数据集上分别微调2个网络,并将2个网络预测的AU出现概率取平均作为最终的预测值.预训练的数据集与当前数据集之间存在域(Domain)差异,且微调过程可能会丢失一些有用信息,因而限制了微调预训练模型的有效性.

另一个基于已有模型的思路是生成伪标签,即利用训练好的AU识别模型对图片自动地标注,这实质上是利用了AU识别模型中存储的训练数据的知识.Benitez-Quiroz等人[28]发布了一个从互联网上抓取的非受控场景人脸图片数据集EmotioNet,其中优化集具有准确的人工标签,而训练集只有受控场景图片上训练的模型所标注的伪标签.考虑到自动标注模型的训练数据与被标注图片之间存在域差异,自动标注的伪标签并不准确.为改进EmotioNet的伪标签,Werner等人[45]采用一个自训练方法,以多任务的形式同时在优化集和训练集上训练深度卷积神经网络(Deep Convolutional Neural Network,DCNN),其中优化集对应的分类器分支作为最终分类器,然后利用训练好的模型对训练集图片重新标注伪标签,再重新训练网络,重复这一过程直至性能已收敛或已满足精度要求.然而,这一自训练方法依赖优化集的人工标签.

3.1.2 基于已有标签的迁移学习

由于人工标注AU的成本高昂,很多情况下数据集中只有部分样本拥有完整的AU标签,而其余样本没有AU标签或只有一部分AU的标签.这里极端的情况是所有样本都没有AU标签,而只有粗略的标签如整体表情标签是可用的,由于其对表情的描述没有AU精细,因而标注成本很低.

由表1不难看出,AU与整体表情之间存在条件依赖关系.Peng等人[46]从多个AU数据集中统计出给定整体表情下某一AU出现的条件概率,并结合先验的AU间关系,从表情标签生成AU的伪标签.进一步地,Peng等人[47]基于全部样本的表情标签和部分样本的AU标签,提出一个对偶半监督的生成对抗网络(Generative Adversarial Network,GAN)[48],联合地学习AU分类器和人脸图片生成器.由于任务的对偶性,AU分类器的输入输出联合分布和人脸生成器应该是一致的,该方法通过对抗学习迫使输入输出联合分布收敛到AU-表情标注数据的真实分布.Zhang等人[49]将表情独立的和表情依赖的AU概率作为约束融入目标函数,促进AU分类器的训练.然而,将固定的先验知识应用于所有样本忽视了不同样本间AU动态变化的特性.

另一些方法在具有AU标签的样本基础上,引入大量无标签的样本.Wu等人[50]基于深度神经网络学习人脸特征,并利用受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)从部分样本的完整AU标签中学习标签分布,然后通过最大化AU映射函数相对于所有无标签数据的标签分布的似然对数,同时最小化有标签数据的AU预测值和真实值之间的误差,来训练AU分类器.然而,从有限样本学习的标签分布可能并不适用于其他样本.Zhang等人[51]利用4种先验的AU约束来额外地监督训练过程:越临近帧的特征越相似、一段AU动作中强度随帧非递减、面部对称性、相对于中性表情外观的差异性.该方法在训练时要求图像序列中某一AU在一段动作过程中峰值和谷值所在帧具有该AU的标签,降低了适用性.

此外,相关联任务的已有标签也可以被利用来促进AU识别.Shao等人[52]采取多任务学习,基于CNN联合地实现人脸AU识别和人脸配准,利用任务间的关联性使得彼此相互促进,且配准分支学习的特征被传入AU识别任务,有利于提升AU识别精度.Jyoti等人[53]将整体表情识别网络所提取的特征传入AU识别网络,促进AU识别.Tu等人[54]采用底部层共享的人脸识别网络和AU识别网络,其中人脸识别网络学习身份特征,然后AU识别网络所提取的特征在减去身份特征后进一步回归AU预测值.这类方法的效果很大程度上依赖任务间的关联性强弱以及所设计多任务结构的有效性.

3.1.3 基于域映射的迁移学习

域映射指从一个域映射到另一个域,其中域包括图像、特征、标签等.近年来,一些工作通过域适应(Domain Adaptation)来提取源域知识,使其适应目标域,从而促进目标域任务的学习.一个常见做法是将目标图片的表情编辑为源图片的表情,从而将源图片的AU标签迁移到新生成的目标图片上,实现数据扩增.Liu等人[55]以源AU标签为条件,基于条件GAN[56]生成源表情参数,再与目标图片的其他人脸属性参数组合,利用3D可变模型(3D Morphable Model,3DMM)[57]生成具有源表情和目标图片纹理的新图片.Wang等人[58]在不依赖3DMM的情况下同时训练GAN和AU分类器,合成具有源图片AU属性且保留目标纹理的新图片.然而这2个工作针对的源图片和目标图片都仅来自受控场景.

除了域适应外,域映射的另一个应用是自监督学习,其从数据本身的结构推断出监督信号而不需要AU标签.Wiles等人[59]提出一个人脸属性网络,输入为来自同一视频的目标帧和源帧,首先编码器学习目标帧和源帧的人脸属性特征,两者被串联起来输入到解码器中生成具有源帧表情和目标帧姿态的新图像,其中解码器对生成图像上每一像素与源帧像素的位置对应关系进行预测,同时约束生成图像与目标帧相似,这里人脸属性特征包含了表情信息,因而可以用于AU识别.考虑到AU是面部肌肉动作,Li等人[60]将视频中2张不同帧之间的人脸变化视为动作,并以此为自监督信号来学习特征,具体采用一个双循环自编码器,将AU相关的动作和头部姿态相关的动作解耦出来,从而得到AU相关的特征.然而这些方法要求训练时输入的一对图像来自同一视频且具有相同的人脸身份,限制了其适用性.

3.2 基于区域学习的方法

AU为人脸局部肌肉动作,因而提取其特征需要准确定位关联区域,每个AU的关联区域包括其所在部位以及存在一定关联的其他部位.

3.2.1 特征点辅助的区域学习

FACS基于客观的人脸解剖学来定义AU,每个AU的中心与人脸特征点之间有先验的位置关系,图5展示了一些常见AU的位置定义规则[61,52],因此可以通过特征点来准确确定AU的中心位置,从而提取与AU关联的局部特征.Jaiswal等人[62]利用特征点为每个AU预定义方形的感兴趣区域(Region of Interest,ROI)以及对应的二进制掩膜(Mask),其中掩膜上特征点形成的多边形区域内点的值为1而其他点的值为0,然后基于CNN从裁剪的ROI和掩膜提取每个AU的特征.Ali等人[63]先利用一个卷积层提取低层特征,然后根据特征点位置在这一特征图(Feature Map)上裁剪与AU的ROI对应的方块,并分别利用一个CNN从每个方块进一步提取特征.Ma等人[64]利用特征点为AU定义边界框(Bounding Box),将通用的物体检测问题融入AU识别,预测AU在哪个边界框出现,若某一AU不出现于当前人脸,则对于所有边界框都应被预测为不出现.这些方法将ROI内所有位置视为相等的重要性,没有考虑到离AU中心越近的位置应该与AU越相关.

71e41b831760825d068190d640b562bf.jpeg

图5   常见AU的中心位置及可视化注:其中每2个相同颜色的点表示某一AU的2个对称的中心.“尺度”指2个内眼角之间的距离. 白色的点表示49个人脸特征点,其中一些点被AU的中心覆盖

Li等人[61,65]为每个AU的ROI定义注意力(Attention)分布,ROI内离中心越近的位置其注意力权重越大,然后在AU识别网络中利用注意力图对特征图中的AU特征进行增强,并在网络的末端从特征图上裁剪每个AU的ROI方块.Sanchez等人[66]依据AU的标签将其注意力分布定义为高斯分布,特征点决定分布的中心位置而AU强度决定分布的振幅和大小,然后利用CNN从输入图像回归每个AU的注意力图来实现AU强度估计.考虑到AU会随人和表情变化而非刚性变化且不可加性导致AU的外观改变,Shao等人[52]在CNN中利用配准分支所预测的特征点定义初始注意力图,然后利用AU识别的监督信号自适应地优化每个AU的注意力图,从而更准确地捕捉AU关联区域.然而,上述方法均被特征点先验知识所约束,每个AU的注意力高亮区域集中在预定义ROI的附近,难以准确捕捉远离预定义ROI的关联区域.

3.2.2 自适应区域学习

当利用AU标签来有监督地训练深度神经网络时,网络在特征学习过程中会隐式地自适应捕捉AU的关联区域.Liu等人[67]迭代地在CNN学习的特征图上选择与目标表情标签相关性最高的特征,这些特征所在区域被期望为与AU关联的感受野,然后将这些感受野内的特征输入到RBM来实现表情分类.考虑到不同人脸区域的AU具有不同的结构和纹理属性,对不同区域应该采用独立而不是共享的滤波器,Zhao等人[68]引入分块卷积层,将特征图划分为相同大小的多个小块,在每一小块内部采用独立的卷积滤波器来提取特征,该特征图能够隐式地捕捉AU的关联区域.为了适应不同大小的AU,Han等人[69]提出自适应大小的卷积滤波器,在训练CNN时学习卷积层的滤波器大小和权重参数.然而,这些方法没有以显式的方式来自适应学习关联区域,因此只能粗略地确定AU的区域位置.

近年来,一些工作在网络中加入注意力学习模块,显式地捕捉AU关联区域.Shao等人[24]不依赖特征点的先验约束,直接通过AU识别的监督信号自适应地学习通道级注意力和空间注意力,同时利用全连接条件随机场(Conditional Random Field,CRF)捕捉像素级关系来优化空间注意力,从而选择和提取每个AU的关联特征.Ertugrul等人[70,71]分别采用一个CNN从裁剪的人脸块提取特征,接着利用注意力机制对各个块所提取的特征进行加权,实现AU识别.虽然上述工作能够较好地捕捉AU特征,但仍包含了一些不相关的信息,影响AU识别的精度.

3.3 基于关联学习的方法

人脸表情涉及多个局部位置的肌肉动作,因而像素位置间的关系可以被利用起来.表情中会时常出现多个AU,但不会所有AU都出现,因而除部分AU相互独立(不相关)外,多数AU之间并不独立,可能同时出现(正相关),也可能相互排斥(负相关).而且,在视频中AU是动态变化的,挖掘时域关联可以促进AU识别.

3.3.1 像素级关联学习

Shao等人[24]利用全连接CRF捕捉像素级关联关系,对每个AU的空间注意力进行优化,从而捕捉更准确的AU特征.Niu等人[72]首先利用CNN提取人脸特征,这一特征的空间上每一点沿通道的特征向量被作为一个局部特征,接下来利用长短期记忆(Long Short-Term Memory,LSTM)网络学习局部特征间的关系,由于不同AU涉及不同位置的肌肉动作,该方法对每个AU分别采用一个LSTM来学习不同局部特征的贡献.鉴于密集的人脸特征点可以描述人脸几何结构,Fan等人[73]利用图卷积网络(Graph Convolutional Network,GCN)从特征点空间位置形成的几何图结构中学习一个隐向量,该隐向量包含人脸形状模式以及特征点间的相互依赖关系,在特征学习过程中被用来增强表征能力.在这些工作中像素与AU的对应并不明确,使得像素级关系对AU识别的促进作用较有限.

3.3.2 AU级关联学习

考虑到AU的强度级别从0到5是有序的(Ordinal),Tran等人[74]引入变分有序高斯过程自编码器(Variational Ordinal Gaussian Process Auto-Encoder,VO-GPAE),在学习隐特征时施加AU强度有序关系的约束.Benitez-Quiroz等人[75]提出一个全局-局部损失,其中局部损失分别促进每个AU的预测,而全局损失对2个或2个以上AU真实值均为出现即正相关的情况进行约束,促进对正相关AU的预测.Walecki等人[76]将CNN和CRF组合在一个端到端的框架中,其中CRF的一元能量项捕捉AU强度的有序结构,二元能量项捕捉AU间的依赖关系.Corneanu等人[77]将CNN和循环神经网络(Recurrent Neural Network,RNN)组合成一个深度结构推理网络(Deep Structure Inference Network,DSIN),其中RNN由许多结构推理单元构成,采用门控策略控制每2个AU结点间的信息传递,从而推理AU之间的结构关系.Jacob等人[78]采用一个注意力网络来回归每个AU由特征点所预定义的注意力图,然后将注意力增强后的AU特征输入到一个变换器(Transformer)中,捕捉AU间的关系.

近年来,图神经网络(Graph Neural Network,GNN)开始被应用于AU关联学习.Li等人[79]从多个AU数据集统计出AU对的3种依赖关系,基于此构建有向的AU关系图,每个AU是一个结点,结点间的有向边类型包括正相关和负相关2种,AU间不相关则没有边相连,然后利用门控GNN[80]对AU关系建模.Liu等人[81]和Niu等人[82]首先基于数据集统计的依赖关系构建AU关系图,然后利用GCN建模AU间的关系.由于AU间依赖可能随人和表情的变化而变化,另一些工作采用动态的关系图结构.Fan等人[83]提出一个语义对应卷积(Semantic Correspondence Convolution,SCC)模块,将前一层的每个特征图通道作为一个结点,构建K-近邻图,动态地计算通道间的语义对应,由于每个通道编码了AU的一个特定模式,这样可以学习AU间的关系.Song等人[84]提出不确定图卷积(Uncertain Graph Convolution),自适应地学习基于概率的掩膜来捕捉个体样本的AU间依赖以及不确定性.Song等人[85]提出一个混合信息传递神经网络,利用性能驱动的蒙特卡罗马尔可夫链采样方法来学习AU关系图,然后在信息传递过程中动态地组合不同类型信息使它们相互补充.

此外,为了抑制标签不均衡导致的预测偏置,许多工作通过调整采样率和权重来进行平衡.Li等人[61]在深度神经网络的训练过程中对训练集中出现频率较低的AU采用更大的随机采样率,使得每个小批量(Mini-Batch)中不同AU出现的频率较均衡.另一些工作[24,52,77]在计算AU识别损失时,给每一AU所赋的权重与该AU出现的频率成反比,从而加强了出现频率较低的AU.此外,为了平衡每个AU的出现频率和不出现频率,Li等人[79]对交叉熵损失中出现频率的熵项乘以训练集中该AU的不出现频率,而对不出现频率的熵项乘以该AU的出现频率,这样,若某一AU的不出现频率大于出现频率,其对应于出现的损失项被加强.Song等人[84]提出自适应加权损失函数,通过自适应地学习认知不确定性(Epistemic Uncertainty)来计算小批量中每个样本的权重,不确定性越高的样本被赋以越大的权重,从而抵消数据不均衡.

上述方法所学习的AU关联依赖训练数据集的AU标签分布,使得训练的AU识别模型难以适应跨数据集测试,泛化能力较低.

3.3.3 时域关联学习

当前采用时域关联学习的方法一般先提取视频中每帧人脸图像的空间特征,然后利用LSTM等时间序列模型对时域上帧间关联进行建模.Chu等人[86]采用CNN提取各帧空间特征,并用LSTM 对帧间的时域信息进行建模,最后在CNN和LSTM的末端将时空特征进行融合.Bishay等人[87]设计一个三层级的框架:在第一层级利用CNN学习人脸外观特征,并利用多层感知机从人脸特征点学习几何特征;在第二层级利用RNN从连续帧学习时域上的关联;在第三层级将各网络的预测结果进行融合.He等人[88]将双向LSTM与RNN结合起来学习时域特征.Song等人[89]利用多个LSTM同时挖掘时域和空间域上的关联信息.Yang等人[90]采用2D的CNN对每帧图像提取特征,同时采用3D的CNN捕捉图像序列的时空信息,从而实现AU识别.Yang等人[91]利用单张图像及一张锚定图像来无监督地学习光流,从而捕捉时域信息,再将光流输入到AU识别网络进行AU预测,这里光流网络和AU识别网络被联合地训练,使得AU标签可以提供语义信息从而促进光流的学习.Zhang等人[92]利用注意力机制实现特征融合和标签融合,其中前者用于捕捉人脸局部块间的空间关系,而后者用于捕捉时域动态关系.

这些工作主要是将已有的时间序列模型应用于AU识别任务,并未明确地对AU在时域上动态非刚性变化的过程进行分析和处理,限制了时域关联学习的有效性.

4 代表性AU识别方法对比

表 4、表 5 分别对代表性的基于深度学习的 AU 检 测和AU强度估计方法进行了总结和对比,从中可以观 察到如下几方面的现象.

b688804cc109faf06e24b8717263b385.jpeg

9905e1f36ae331db42885c77cc2d5f1e.jpeg

(1)目前研究AU检测的工作多于AU强度估计,这是因为强度估计不仅需要判断每个AU是否出现,还需识别AU的强度,更具挑战性.

(2)大多数AU识别工作将迁移学习、区域学习和关联学习中多种策略进行结合,而不是仅基于一种学习策略,这是因为实现高精度的AU识别需要同时解决标签稀缺性、特征难捕捉性和标签不均衡性的挑战.

(3)采用关联学习的工作如R-T1[65],D-PAttNet[71]和DPG[89]取得相比于其他工作更高的精度,表明AU间关联以及时域关联对AU识别具有重要意义.

(4)当前基于迁移学习的工作如MLCR[82]和TAE[60]并未取得相比于其他工作明显的性能优势,说明这类方法仍有较大的挖掘空间,需要进一步从AU的特性出发,提出有效的模型来充分利用已有的样本、标签、模型以及先验知识.

(5)与JÂA-Net[52]和G2RL[73]相比,R-T1[65],AU R-CNN[64],KBSS[51]和SCC[83]等工作无法在BP4D和DISFA上同时取得较高的精度,说明AU识别模型的可靠性和泛化能力也是需要着重研究的地方.

5 总结与展望

目前,表情AU识别技术已取得较大的发展,但其精度仍有很大的提升空间,无法很好地满足实际应用需求.未来可从以下几方面进一步进行探索.

(1)已有基于迁移学习的工作尚无法有效地解决标签稀缺性挑战. 未来可以采取融合多种策略的方式:①将具有AU标签的样本作为源样本,利用GAN将无标签目标样本的表情编辑为源表情,则其具有源样本的AU标签,这些新生成的目标样本提高了训练数据的多样性;②利用最新的人脸配准开源库对样本标注特征点,同时结合具有整体表情标签的数据集,挖掘特征点、整体表情与AU间关联性,促进AU识别;③将自监督学习、有监督学习、域适应多种方法综合起来,利用自监督学习从无标签样本中学习AU本质属性的特征表示,利用有监督学习从具有AU标签的样本中学习AU识别模型,利用域适应使得其他域训练的模型可以被应用于当前域.

(2)当前的AU识别模型在对多个AU同时预测时仍易于偏向提升出现频率较高AU的精度,以及偏向将AU预测为不出现,标签不均衡性依然严重限制着AU识别的精度.可选的解决方案为:①利用GAN进行数据扩增,尽量使所生成的数据集在每个AU的出现与不出现频率、不同AU间的出现频率方面保持均衡;②借鉴已有的处理长尾分布等不均衡数据的方法,对不均衡的AU标签分布进行建模,充分挖掘不同AU间的关联关系.

(3)现有的工作主要关注受控环境,更接近实际应用场景的非受控AU识别的相关研究仍较少.未来可从以下角度切入非受控环境的研究:①研究受控域到非受控域的AU迁移方法,利用具有AU标签的受控域数据集生成新的非受控域样本,扩增非受控域训练数据;②提高方法对不同头部姿态的鲁棒性,可以定位3D的人脸特征点、构造UV 映射、计算3D人脸表面的测地距离,这些辅助信息都可以加到深度神经网络中,在输入、中间的特征提取或者后置处理环节提升AU识别的精度;③利用特征解耦方法将光照、姿态、遮挡等信息从AU特征中分离,实现光照无关、姿态无关、遮挡无关的AU识别.

(4)当前的AU数据集具有样本规模小且多样性低、标签稀缺且不均衡、缺乏非受控样本等不足.未来可以构建一个规模大、样本多样性丰富、AU标注全面的非受控环境数据集.由于对AU进行人工标注的成本很高,在标注的过程中,可以基于主动学习(Active Learning)[94~96],从一个具有人工标注的小训练集开始,训练模型并对未标注样本进行预测,然后基于预测结果选择信息最丰富、存在出现频率较低AU的未标注样本进行人工标注,再将新标注的样本加入训练集并更新模型,重复上述步骤直至被训练的模型在测试集上的性能已收敛或已满足精度要求,这样可以保证有限的标注成本用在最需要的样本上.

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

092beb019b367befcc0797d8a5515cfb.jpeg

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

「深度学习表情动作单元识别」 最新2022研究综述 的相关文章

  • Spark 中 BroadCast 导致的内存溢出(SparkFatalException)

    背景 本文基于 Spark 3 1 1 open jdk 1 8 0 352 目前在排查 Spark 任务的时候 遇到了一个很奇怪的问题 在此记录一下 现象描述 一个 Spark Application Driver端的内存为 5GB 一直
  • 医疗机构如何释放数据要素价值 推动数据资产化

    在智慧医院建设加速的今天 数据已经成为医疗机构核心的资产之一 无论是基于数据的智慧运营决策 还是医疗AI模型训练与推理 都需要大规模数据的利用 在近日国家数据局等17部门联合印发的 数据要素 三年行动计划 2024 2026年 中 要求医疗
  • 【OCR】实战使用 - 如何提高识别文字的精准度?

    实战使用 如何提高文字识别的精准度 我们在平常使用OCR的时候 经常会出现文字识别不精准的情况 我们改如何提高文字识别的精度呢 以下是一些提高OCR Optical Character Recognition 光学字符识别 文字识别精准度的
  • API接口:技术、应用与实践

    随着数字化时代的到来 API接口在软件开发和数据交互中扮演着越来越重要的角色 本文深入探讨了API接口的基本概念 技术原理 设计方法 最佳实践以及在各行业的应用案例 关键词 API接口 软件开发 数据交互 技术原理 设计方法 一 引言 随着
  • 机器学习与人类智能的融合:未来趋势与挑战

    1 背景介绍 人工智能 Artificial Intelligence AI 是指一种以计算机程序为代表的智能方法 可以理解 学习和应用人类智能的某些方面 机器学习 Machine Learning ML 是人工智能的一个子领域 它涉及到计
  • 流程管理的未来:人工智能如何改变业务运行

    1 背景介绍 流程管理是企业在实现业务目标时所采取的一系列有序 连贯的活动 它涉及到许多领域 如生产 销售 研发 财务等 随着企业规模的扩大和市场竞争的激烈 流程管理的复杂性也不断增加 人工智能 AI 技术的发展为流程管理提供了新的机遇 有
  • 线性代数在数据挖掘中的应用

    1 背景介绍 线性代数是数学的一个分支 主要研究的是线性方程组和向量的相关概念和方法 在数据挖掘领域 线性代数的应用非常广泛 包括数据处理 特征提取 模型训练等方面 本文将从以下几个方面进行阐述 背景介绍 核心概念与联系 核心算法原理和具体
  • 心灵与大脑的沟通:如何让大脑更好地理解我们的情感

    1 背景介绍 心理学和人工智能之间的界限已经不断模糊化 尤其是在情感智能方面 情感智能是一种新兴的人工智能技术 旨在让计算机更好地理解和回应人类的情感 这篇文章将探讨如何让大脑更好地理解我们的情感 以及在这个过程中涉及的核心概念 算法原理
  • AI大模型应用入门实战与进阶:Part 7 Transformer模型解析

    1 背景介绍 自从2020年的大模型如GPT 3等开始引起广泛关注 人工智能领域的研究和应用得到了重大推动 在这一波技术创新中 Transformer模型发挥着关键作用 这篇文章将深入探讨Transformer模型的核心概念 算法原理和实例
  • 人工智能与机器学习:未来的编程范式

    1 背景介绍 人工智能 Artificial Intelligence AI 和机器学习 Machine Learning ML 是现代计算机科学的重要领域之一 它们旨在让计算机能够自主地学习 理解和进化 以解决复杂的问题 随着数据量的增加
  • 技术管理者的核心能力在哪?

    作为管理者我曾经被下属当面问过 你为什么不写代码 诚然 我最近两年 代码越写越少 会越开越多 但 存在真的合理吗 我的核心能力应该是什么 看了一篇文章 它提出一个观点 技术管理者的核心能力在于技术判断力 通过在技术领域和非技术领域的长期积累
  • 用CHAT如何写大学生会计综合模拟实训报告

    CHAT回复 标题 大学生会计综合模拟实训报告 一 前言 随着信息化时代的发展 现代会计工作不再只依赖手动运算和记录 而是更加倚重电脑软件系统的配合运用 因此 对我们大学生来说 把握会计理论知识的同时 积极掌握相关的实践应用技能变得非常重要
  • 2024年华数杯国际赛B题:光伏发电功率 思路模型代码解析

    2024年华数杯国际赛B题 光伏发电功率 Photovoltaic Power 一 问题描述 中国的电力构成包括传统能源发电 如煤 油和天然气 可再生能源发电 如水电 风能 太阳能和核能 以及其他形式的电力 这些发电模式在满足中国对电力的巨
  • 扬帆证券投资者必知:股票配股与增发的区别你清楚吗?

    配股和增发都是股票再融资的方式 不过二者有一定的区别 1 发行对象不同 配股是向原股东发售一定量股票 一般会以低于市价的价格发售 增发是向全体社会公众发行股票 即新老股东都能获得 2 发行前是否需要公告价格 配股会事先公告配股价 配股的定价
  • 扬帆证券:突发利好!外资重大转变,A股收到多份喜报

    A股财报季 利好音讯密集传来 1月16日晚间 A股多家上市公司披露了成绩预告 其间成绩预增 扭亏等利好公告数量占比超80 其间 普瑞眼科公告 估计2023年净赢利同比添加高达1163 98 1285 51 别的 多家上市公司公告称 估计20
  • 扬帆证券:三只松鼠去年扣非净利预增超1.4倍

    在 高端性价比 战略驱动下 三只松鼠 300783 重拾增势 1月15日晚间 三只松鼠发布成绩预告 预计2023年度净赢利为2亿元至2 2亿元 同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元 同比增速达146 9 至17
  • 渗透测试常用工具汇总_渗透测试实战

    1 Wireshark Wireshark 前称Ethereal 是一个网络分包分析软件 是世界上使用最多的网络协议分析器 Wireshark 兼容所有主要的操作系统 如 Windows Linux macOS 和 Solaris kali
  • 2024 人工智能与大数据专业毕业设计(论文)选题指导

    目录 前言 毕设选题 选题迷茫 选题的重要性 更多选题指导 最后 前言 大四是整个大学期间最忙碌的时光 一边要忙着备考或实习为毕业后面临的就业升学做准备 一边要为毕业设计耗费大量精力 近几年各个学校要求的毕设项目越来越难 有不少课题是研究生
  • ESM10A 消除对单独 PLC 的需求

    ESM10A 消除对单独 PLC 的需求 ESM10A 可以消除对单独 PLC 的需求 该程序是在 PC 上开发的 然后使用免费提供的简单易用的 EzSQ 软件下载到逆变器 似乎这些改进还不够 日立还在 SJ700 中添加了其他新功能 例如
  • 实力认证!鼎捷软件荣膺“领军企业”和“创新产品”两大奖项

    近日 由中国科学院软件研究所 中科软科技股份有限公司联合主办的 2023中国软件技术大会 于北京成功举办 本届大会以 大模型驱动下的软件变革 为主题 数十位来自知名互联网公司和软件巨头企业的技术大咖 不同领域行业专家 畅销书作者等分享嘉宾

随机推荐

  • Python/练习题

    1 执行 Python 脚本的两种方式 交互方式 命令行 Windows操作系统下 快捷键cmd 输入 python 启动交互式python解释器 文件方式 python文件 2 简述位 字节的关系 一个二进制位是计算机里最小表示单元 一个
  • 《第1阶段》——边界值分析法

    Video Number 091820 学习时间 4月23日 091820 边界值分析法 对输入或输出的边界值进行测试的一种黑盒测试设计方法 通常是作为等价类划分法的补充 这种情况下 其测试用例来自等价类的边界 不是从某等价类中随便挑一个作
  • quasar在axios.js中使用响应拦截器不能正常跳转解决

    问题描述 提示 这里描述具体问题 在quasar框架中的 src boot axios js中使用router push 无效 router index js import route from quasar wrappers import
  • 最近用matplotlib绘制了一张天气折线图,分享给大家

    usr bin env python coding utf 8 作者 志在星空 时间 2022 04 04 19 38 文件名 绘制折线图 py 软件 PyCharm import matplotlib pylab as pyl impor
  • 机器学习中的范数规则化之(一)L0、L1与L2范数

    机器学习中的范数规则化之 一 L0 L1与L2范数 zouxy09 qq com http blog csdn net zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题 过拟合与规则化 我们先简单的来理解下常用的L0 L1 L2和
  • 某验滑块js逆向 - 底图还原

    注 本篇博客仅供学习使用 请勿用做其他商业用途 如有侵权 请联系本菜鸟 前段时间本小菜鸟研究了某验的点选类型验证码 今天开始研究他们的另一类验证码 滑块 先直接上流程 和点选的步骤基本相同 1 请求gt register slide off
  • 【Linux】shell的简单模拟实现

    目录 一 大概思路 二 命令行显示及获取用户输入命令 三 分析命令 四 创建子进程执行命令 五 导入环境变量 六 源码 总结 前言 我们已经接触了很长时间的Linux 我们对shell特别的好奇 正好前面我们学习了shell的运行原理 以及
  • Ambari——大数据平台的搭建利器(一)

    Ambari是hadoop分布式集群配置管理工具 是由hortonworks主导的开源项目 它已经成为apache基金会的孵化器项目 已经成为hadoop运维系统中的得力助手 引起了业界和学术界的关注 Ambari采用的不是一个新的思想和架
  • matlab系统稳定性仿真实验,基于Matlab的电力系统暂态稳定仿真实验与分析

    基于Matlab的电力系统暂态稳定仿真实验与分析 第29卷第4期2010年4月 实验室研究与探索 RESEARCHANDEXPLORATIONINLABORATORY Vol 29No 4Apr 2010 Matlab 1引言 长期以来 电
  • vue2与vue3的区别

    1 vue2和vue3双向数据绑定原理发生了改变 vue2 的双向数据绑定是利用ES5 的一个 API Object definePropert 对数据进行劫持 结合 发布订阅模式的方式来实现的 vue3 中使用了 es6 的 ProxyA
  • glTexSubImage2D的使用详解

    Name glTexSubImage2D glTextureSubImage2D specify a two dimensional texture subimage C Specification void glTexSubImage2D
  • LeetCode第3题解析

    给定一个字符串 请你找出其中不含有重复字符的 最长子串 的长度 示例 1 输入 abcabcbb 输出 3 解释 因为无重复字符的最长子串是 abc 所以其长度为 3 示例 2 输入 bbbbb 输出 1 解释 因为无重复字符的最长子串是
  • 【洛谷 P1170】兔八哥与猎人 题解(数学+辗转相除法)

    兔八哥与猎人 题目描述 兔八哥躲藏在树林旁边的果园里 果园有 M N M times N M N 棵树 组成一个 M M M 行
  • 本地从0搭建Stable Diffusion WebUI及错误记录

    从0开始搭建本地Stable Diffusion WebUI环境 一 环境配置 1 使用的电脑配置 系统 Windows10 处理器 英特尔 i7 内存 24GB 显卡 NVIDIA GTX 1060 6GB 2 镜像源 阿里云 清华大学
  • MySql 简介

    目录 数据存取演变历史 数据库软件应用史 数据库的本质 数据库的分类 1 关系型数据库 关系型数据库有哪些 2 非关系型数据库 非关系型数据库有哪些 MySQL简介 基本使用 系统服务制作 密码相关操作 SQL与NoSQL 数据库的概念 数
  • Spring Junit 单元测试@Test 报错 ServletContext找不到 No qualifying bean of type javax.servlet.ServletContext

    Spring Junit 单元测试 Test 报错 ServletContext找不到 No qualifying bean of type javax servlet ServletContext found for dependency
  • 微信小程序画布详解

    有的时候需要插入动画 这时就需要用到画布 接下来浅谈一下画布的功能和用法吧 wxml代码
  • Log Structured Merge Trees(LSM) 原理(LSM 算法的原理是什么?)

    十年前 谷歌发表了 BigTable 的论文 论文中很多很酷的方面之一就是它所使用的文件组织方式 这个方法更一般的名字叫 Log Structured Merge Tree LSM是当前被用在许多产品的文件结构策略 HBase Cassan
  • nginx basic auth配置踩坑记

    nginx的basic auth配置由ngx http auth basic module模块提供 对HTTP Basic Authentication协议进行了支持 用户可通过该配置设置用户名和密码对web站点进行简单的访问控制 basi
  • 「深度学习表情动作单元识别」 最新2022研究综述

    来源 专知 基于深度学习的表情动作单元识别是计算机视觉与情感计算领域的热点课题 每个动作单元描述了一种人脸局部表情动作 其组合可定量地表示任意表情 当前动作单元识别主要面临标签稀缺 特征难捕捉和标签不均衡3个挑战因素 基于此 本文将已有的研