视觉理解论文系列(一)——ERNIE-VIL

2023-05-16

简介

ERNIE-VIL是百度出品的知识增强视觉-语言预训练模型,首次将场景图知识融入到多模态预训练中,大幅提升了机器的“理解能力”。通过在预训练阶段加入场景图预测任务,使得模型能更精准的把握视觉-语言跨模态间的细粒度对齐。
论文观点,细粒度的语义对于区分不同对象、不同属性和不同关系的场景至关重要。因此,更好的视觉语言联合表示应该表现出不同模式之间详细的语义对齐。
在这里插入图片描述
以上这些样本中,只有物体、属性、关系上的细微差别,如果不能很好的抓住这些细粒度语义特征,将无法较好的把这些数据样本区分开来,导致在许多的视觉-语言任务中不会有很好的效果。

融合场景图知识的ERNIE-VIL


【A woman in a blue dress is putting her little white cat on top of a brown car in front of her house.】

当我们看到一张图片时,首先关注的是图像中的物体(Objects)和特点属性(Attributes)以及物体间的关系(Relationships)。以此图为例,人、车、房子、猫、树等构成了图片内容的基本元素;而物体的属性,如白色的猫、穿蓝色衣服的女人、棕色的汽车则是对物体做了更加精细的刻画;物体间的位置和语义关系,“猫在车上”、“车在房子前面”等构成了物体间的关联。这说明了对象、属性、关系共同构成了描述视觉场景的细粒度语义(Detailed Semantics)。
本篇论文的切入点在于如何让模型学到更好的细粒度特征表示。首先,基于从文本[1]解析出的场景图,ERNIE-VIL提出了3个多模态场景图预测(Scene Graph Prediction)任务,分别是:
物体预测(Object Prediction):随机选取图像中的一部分物体,如图中的"house",将其在句子中对应的词进行掩码处理,模型根据文本上下文和图片对被掩码的部分进行预测。损失函数设计,最小化负对数似然:
L o b j ( θ ) = − E ( w , v )   D l o g ( P ( W o i ∣ W \ _ o i , V ) ) L_{obj(\theta)}=-E_{(w,v)~D}log(P(W_{o_i}|W_{\backslash \_o_i},V)) Lobj(θ)=E(w,v) Dlog(P(WoiW\_oi,V))

属性预测(Attribute Prediction):对于场景图中的物体-属性对,如<dress,blue>,随机选取一部分词对其进行掩码,模型依据物体、上下文和图片对其进行预测。
L a t t r ( θ ) = − E ( w , v )   D l o g ( P ( a i ∣ W o i , W \ _ a i , V ) ) L_{attr(\theta)}=-E_{(w,v)~D}log(P(a_i|W_{o_i},W \backslash \_a_i,V)) Lattr(θ)=E(w,v) Dlog(P(aiWoi,W\_ai,V))
关系预测(Relationship Prediction):随机选取一部分“物体-关系-物体”三元组,如<car, in front of ,house>,然后对关系进行掩码,模型依据图片和上下文和物体对其预测。
L r e l ( θ ) = − E ( w , v )   D l o g ( P ( W r i ∣ W o i 1 , W o i 2 , W \ _ w r i , V ) ) L_{rel(\theta)}=-E_{(w,v)~D}log(P(W_{r_i}|W_{o_i1},W_{o_i2},W \backslash \_w_{r_i},V)) Lrel(θ)=E(w,v) Dlog(P(WriWoi1,Woi2,W\_wri,V))
在这里插入图片描述
通过场景图预测任务,ERNIE-VIL学习到跨模态之间的细粒度语义对齐,如将语言中的“人”、“白色的猫”、“车在房子前面”等细粒度的语义信息对应到图像中的相应区域上去。
除了以上提出的场景图预测任务之外,ERNIE-VIL的预训练还使用了掩码语言模型(Masked Language Modeling) , 掩码图像区域预测(Masked Region Prediction), 图文对齐(Image-Text Matching)等任务。

实验结果

在这里插入图片描述

[1]Peter Anderson, Basura Fernando, Mark Johnson, and Stephen Gould. Spice: Semantic propositional image caption evaluation. In European Conference on Computer Vision, pages 382–398. Springer, 2016.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

视觉理解论文系列(一)——ERNIE-VIL 的相关文章

随机推荐