AAAI 2020 | 北理工&阿里文娱:你所看视频的介绍,可以用到这样的「图像描述」技术...

2023-05-16

点击我爱计算机视觉标星,更快获取CVML新技术


机器之心发布

机器之心编辑部

人工智能顶级会议 AAAI 2020 将于 2 月 7 日-2 月 12 日在美国纽约举办,不久之前,AAAI 2020 公布论文介绍结果:今年最终收到 8800 篇提交论文,评审了 7737 篇,接收 1591 篇,接收率 20.6%。本文对北京理工大学、阿里文娱摩酷实验室合作的论文《MemCap:Memorizing Style Knowledge for Image Captioning》进行解读。

该论文提出了一种通过记忆机制对语言风格相关的知识进行编码的风格化图像描述方法。由于语言风格无法直接从图像中得到,我们使用记忆模块存储语言风格相关的知识,并在生成风格化描述时根据图片中的内容检索这些知识。

 论文链接:https://wuxinxiao.github.io/assets/papers/2020/MemCap.pdf

一.研究动机

图像的自然语言描述(image caption)任务涉及对图像内容的理解与自然语言的生成,是连接了计算机视觉与自然语言处理两个领域的问题。目前的大多数图像描述方法专注于为图像生成准确,客观的描述,这些描述没有明显的语言风格。实际上,特定语言风格的描述更具有应用价值。例如,用户在社交网络中上传了图 1(a) 所示的图片,普通的图像描述模型可能将其描述为「一只头上套着袋子的猫坐在沙发上」,虽然准确,但吸引力有限。如果生成的描述带有语言风格,如「这只淘气的喵星人想体验窒息的感觉」,会在社交网络中带来更好的传播效果,引起更多人的注意。又例如图 1(b) 中视频的推荐标题,带有鲜明的语言风格。若能自动生成类似的、带有某种风格的描述并作为标题,将极大地减轻视频推荐平台的运营人员的负担,提高视频推荐的分发效果。

 

图 1(a) ;图 1(b)。

风格化图像描述既要求能准确地理解视觉信息以体现客观内容,又要求能生成合适的语言风格以表达主观情感。然而,与语言风格相关的内容一般较为抽象,无法直接从视觉内容感知,这使得生成风格化描述变得十分困难。人们在理解图像内容时,通常可以利用联想能力,从先验知识中搜索并提取相应的风格化语料。当人们看到图 2,用正面的情感倾向描述其内容时,经常会将「好吃」与「食物」建立联系。本文作者提出了 MemCap 方法以模仿这一过程,通过风格化记忆模块,存储与语言风格相关的知识。在生成描述时,从风格化记忆模块中提取相关的知识,得到风格化的语句。

 

图 2:一些风格化描述的示例,与风格有关的部分用红色标出。

考虑到在实际的语料中,与视觉内容相关的词汇一般与体现语言风格相关的词汇共存,使得风格化记忆模块难以学习到干净的风格化语料。我们在本文中提出一种句子分解算法,分离与视觉内容相关的部分以及与语言风格相关的部分。

二.方法

方法概览

MemCap 模型包含风格化记忆模块 M,风格化图像描述模块 C,图片场景图生成器 E,句子场景图生成器 F 以及风格化句子分解模块 P,如图 3 所示。风格化记忆模块将场景图作为输入,检索与场景图有关的风格化知识 m。这部分知识与场景图送入图像描述模块 C 中,生成最终的描述。

由于本文方法只使用未配对的风格化句子进行微调,我们将风格化的句子分解为与内容相关的部分 W_c 和与风格相关的部分 W_s,并将 W_c 转换为场景图,作为 M 和 C 的输入。同时,W_s 被用于更新 M 中存储的风格化知识。M 与 C 通过端到端的方式进行训练。在测试时,将图片转换为场景图,作为 M 和 C 的输入。

 

图 3 :MemCap 模型示意图。其中蓝色部分表示使用风格化语料微调的过程,红色部分表示生成风格化描述的过程。

风格化句子分解

给定风格化句子 y^s,句子分解的目的是分离出与风格无关的部分 W_c 以及与语言风格有关的部分 W_s。考虑到与语言风格有关的部分在客观描述(factual description)中很少出现,我们先获取句子的依存解析树,然后从解析树中去除导致较高困惑度的部分,即与语言风格有关的部分。在依存树中,每个单词 w_i 对应树中的一个节点 v_i。将第 t 次迭代中剩余的句子记作 y_((t))^s。在第 t 次迭代中,尝试去除节点 v_j 及其子树,并重新评价剩余的句子的困惑度。若困惑度最低的句子 y ̂_((t,j))^s 的困惑度小于 y_((t))^s 的困惑度则进入下一次迭代,否则算法中止,并将 y_((t))^s 作为与风格无关的部分。

场景图的向量表示

对于场景图 G=(V,E),其节点集合 V 包含三种不同的节点:物体节点 o_i,关系节点 r_ij 以及属性节点 a_i^k。对于每个节点,使用其对应的类别标签的词嵌入作为节点的向量表示。对于物体节点 o_i 与关系节点 r_ij,其上下文相关的表示 u_(o_i ) 以及 u_(r_ij ) 分别使用如下公式计算:

(1)

 

其中 e_(o_i ),e_(r_ij ) 以及 e_(a_i^k ) 分别为物体 o_i,关系 r_ij 以及属性 a_i^k 的向量表示。整个场景图 G 的向量表示 e_c 为所有物体节点与关系节点的上下文相关表示的平均,即 

风格化记忆模块

对于风格 s,风格化记忆模块包含两个矩阵 M_s 以及〖M'〗_s,分别存储与语言风格相关的知识以及与之对应的客观内容。风格化记忆模块使用注意力机制实现对风格化知识的更新以及提取。在更新过程中,使用表示整个场景图的向量 e_c 为〖M'〗_s 的每一列计算权重,并根据这些权重,分别使用 e_c 以及表示所有风格化词汇的向量 e_s 更新〖M'〗_s 中的每一列以及 M_s 中对应的列。在风格化知识的提取过程中,通过类似的方式为〖M'〗_s 的每一列计算权重,并对 M_s 中对应的列加权并求和,作为记忆模块的输出 m。

生成风格化描述

本文提出的风格化描述模型基于 Up-Down 模型 [2],使用风格化记忆模块的输出 m 初始化两层 LSTM 网络的状态。第一层 LSTM 网络使用注意力机制对场景图中所有上下文相关表示 u_p 进行编码,第二层 LSTM 网络输出词汇表中每个单词的概率。

训练策略

MemCap 的训练分为预训练阶段与微调阶段。预训练阶段将图像以及对应的客观描述作为训练数据,采用交叉熵损失函数进行训练。在微调阶段,先使用交叉熵损失函数对模型进行微调,之后使用 self-critical 方法 [1] 对模型进行更新。将多个不同的评价指标(包括 CIDEr,对句子是否带有风格的评价以及句子的困惑度)加权,作为强化学习中的奖励。

三.实验

本文使用 MSCOCO 数据集对模型进行预训练,并使用来自 SentiCap 数据集的风格化语料(包括正面、负面两种风格)以及来自 FlickrStyle10K 数据集的风格化语料(包括浪漫、幽默两种风格)对模型进行微调。我们将 MemCap 方法与多种不同的方法进行比较,包括使用图片与配对的风格化描述的方法 SF-LSTM [4],使用未配对风格化语料的方法 StyleNet [5] 以及 MSCap [3]。为了与 MSCap 进行公平的比较,在实验中同时使用了多个风格化记忆模块,训练了能够同时生成多种风格的描述的模型。表 1 和表 2 分别为单一风格(为每种风格训练一个模型)和多风格(训练能够同时生成多种风格的描述的模型)实验的结果。此外,还进行了消融实验以验证模型中不同模块的有效性。

定量结果

本文采用 Bleu-1,Bleu-3,METEOR,CIDEr 等指标评价生成的句子是否与图片相关,采用平均困惑度(ppl)评价句子是否流畅,使用风格准确率(cls)评价生成的句子是否符合对应的风格。具体地,使用在风格化文本上训练好的语言模型计算平均困惑度,使用能够判断语言风格的分类器计算风格准确率。需要指出的是,平均困惑度越低越好,其他指标越高越好。

 

表 1 :单风格图像描述的实验结果,B-1,B-3,M,C 分别表示 Bleu-1,Bleu-3,METEOR,CIDEr;ppl 表示句子的平均困惑度,cls 表示风格准确率。

 

表 2 :多风格图像描述的实验结果。

定性结果

图 4 展示了一些风格化图像描述的例子。可以发现,MemCap 生成的句子能够正确地描述图片的内容,并且具有明显的语言风格。

 

图 4:MemCap 方法生成的风格化描述。句子的风格用粗体标出,句子中与语言风格相关的部分使用下划线标出。

四.总结

本文提出了为图像生成风格化描述的 MemCap 方法,使用记忆模块对与语言风格有关的知识进行记忆,并在生成描述时检索相关的语言风格知识。因此,MemCap 方法生成的句子能够准确地描述图片中的内容,同时体现出语言风格。在两个风格化图像描述数据集上的实验证明了方法的有效性。

参考文献:

[1] Rennie, Steven J., et al. "Self-critical sequence training for image captioning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.

[2] Anderson, Peter, et al. "Bottom-up and top-down attention for image captioning and visual question answering." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

[3] Guo, Longteng, et al. "MSCap: Multi-Style Image Captioning With Unpaired Stylized Text." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

[4] Chen, Tianlang, et al. "``Factual''or``Emotional'': Stylized Image Captioning with Adaptive Learning and Attention." Proceedings of the European Conference on Computer Vision (ECCV). 2018.

[5] Gan, Chuang, et al. "Stylenet: Generating attractive visual captions with styles." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.


图像描述学习群

学习交流最新最前沿的image captioning技术、CV+NLP结合的研究方向,扫码添加CV君拉你入群,如已为CV君其他账号好友请直接私信,

(请务必注明:描述):

喜欢在QQ交流的童鞋可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过还请见谅)


长按关注我爱计算机视觉

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

AAAI 2020 | 北理工&阿里文娱:你所看视频的介绍,可以用到这样的「图像描述」技术... 的相关文章

  • 图像特征提取算法之Haar特征原理(一)

    文章目录 笔记截图问题积分图例子结论 笔记截图 用白色的特征值之和 黑色的特征值之和 61 这一个区域的特征值 你也可以理解为用卷积进行提取 xff0c 白色的区域为1 黑色的为 1 xff08 邪恶的黑色 xff09 然后进行相加既可以得
  • CAS方式实现单点登录

    单点登录 xff0c 英文是 Single Sign On xff0c 缩写为 SSO 多个站点 192 168 1 20X 共用一台认证授权服务器 192 168 1 110 xff0c 用户数据库和认证授权模块共用 用户经由其中任何一个
  • 双系统重装Ubuntu经验分享

    真的很喜欢ubuntu 但又没有恒心把它学通透 xff0c 毕竟不是相关专业 第一次重装是因为没多少经验 xff0c 安装qqforlinux的时候多了两个东西 xff0c 还自己生成了快捷方式 xff0c 就想点开看看是啥 xff0c 结
  • PCL三维点云拼接融合

    1 PCL三维点云拼接融合技术 2 PCL系列 拼接两个点云
  • ubuntu20版本忘记或重置密码的问题

    前段时间把ubuntu密码忘了 xff0c 进不去并且有些需要密码权限的功能也用不了 xff0c 在网上搜了一大堆 xff0c 都是什么从开始就摁shift或Esc xff0c 好家伙摁烂了也不行啊 解决如下 xff1a 首先 xff0c
  • 程序员申请加班调休被HR拒绝:996是行规,不想加班就滚?

    现如今 xff0c 很多公司为了不给员工加班费 xff0c 一般都会允许他们进行调休 也就是你加班了多少个小时 xff0c 等项目不忙的时候 xff0c 你们可以选择多休息几天 公司的这种做法 xff0c 大多数员工还是能接受的 xff0c
  • 博士生如何进行文献阅读和文献整理?

    一 阅读文献之前 先了解写文章的规则 SCI的架构 TITLE ABSTRACT main message INTRODUCTION why did you do this job METHODS how did you do it RES
  • 结构体之offsetof宏详细解析

    1 define offsetof TYPE MEMBER size t amp TYPE 0 gt MEMBER include linux stddef h 1 1 功能 xff1a 返回结构体TYPE中MEMBER成员相对于结构体首地
  • 解决curl: (7) Failed to connect to raw.githubusercontent.com port 443

    解决办法 xff1a 一 首先查询域名 raw githubusercontent com对应的ip地址 去这网址查询 xff1a https tools ipip net domain php 二 修改hosts文件 linux系统一般都
  • 关于使用Maix Bit所遇到的OSError: Reset Failed问题

    一 问题 今天在使用Maix Bit学习的时候遇到了这样一个问题 xff0c 我使用Maixpy连接上了Maix Bit xff0c 然后进行下载程序的时候 xff0c 下载失败 xff0c 弹出来一个OSError Reset Faile
  • 致小白的K210模型训练与运用

    致小白的K210模型训练与运用 文章目录 致小白的K210模型训练与运用 前言一 模型训练方法二 详细介绍1 使用MixHub平台进行训练2 使用Mx yolov3自己搭建平台进行训练3 V3模型4 V4模型 前言 由于我也是刚接触K210
  • 使用APP inventor来制作一个属于自己的蓝牙串口软件

    使用APP inventor来制作一个属于自己的蓝牙串口软件 本文主要讲述蓝牙的发送和接收功能的制作 一 准备 1 APPinventor的网址 xff1a http app gzjkw net 二 蓝牙APP界面的设置 首先我们新建一个项
  • 一起卷吧,arduino/mixly语音识别模块,10元,可以自定义,提供自制的mixly库

    一 效果演示 制作的语音风扇演示一起卷吧 xff01 语音识别 xff0c 10元 xff0c 串口通信 xff0c arduino可用 xff0c 提供自制的mixly库 操作简单 xff0c 可以语音播报 哔哩哔哩 bilibili 制
  • arduino/mixly红外发射接收模块

    一 资料 http 资料链接 xff1a https pan baidu com s 1idRcrVCxQ5zWLh59EFpi9g 提取码 xff1a n8ud 默认波特率9600 串口通信 xff0c 可以发送也可以接收 发送格式 二
  • openmv学习十三:特征点匹配

    适用于匹配多角度的物体 xff0c 需要现场提取之后才能使用 http docs openmv io library omv image html http docs openmv io library omv image html cla
  • arduino/Mixly使用TCS230颜色识别传感器

    一 器材 TCS230 arduino uno 二 接线 TCS230arduino unoGNDGNDVCC5VS0D2S1D3S2D4S3D5OE LEDD6OUTD7 三 程序 mixly程序 arduino程序 define tcs
  • arduino/Mixly心知天气

    一 准备 首先百度一下心知天气 xff0c 获取一下密钥 xff0c 具体的可以看这一篇Blynk中WebHook组件的使用方法 moshanghuaw的博客 CSDN博客 然后再准备一个esp8266或者esp32都可以 二 程序 mix
  • C For Linux之内存访问-内存简介

    1 内存 1 1 计算机为什么需要内存 存储器是计算机系统中非常重要的组成部分 计算机中的存储器分为两类 xff1a 内存储器的外存储器 xff08 也叫辅助存储器 xff09 所谓外存储器在PC机中一般指硬盘 U盘 光盘等 xff0c 而
  • 每天一分钟玩转golang:基础类型之字符串(四)

    大家好 xff0c 我是加摩斯 xff0c 觉得文章有帮助的小伙伴 xff0c 记得一键三连哟 xff5e 申明 xff1a 本系列两天更新一篇 xff0c 纯原创 xff0c 转载前请与我沟通 字符串类型也是一种基本类型 xff0c 底层
  • 项目二:电子骰子

    项目二 xff1a 电子骰子 文章目录 项目二 xff1a 电子骰子一 导入 5分钟 xff09 学习目的 二 新授 65分钟 1 预展示结果 5分钟 2 本节课所用的软硬件 5分钟 3 硬件介绍 1分钟 4 图形化块介绍 1分钟 5 单个

随机推荐