AAAI 2020 | 北理工&阿里文娱：你所看视频的介绍，可以用到这样的「图像描述」技术...

2023-05-16

点击我爱计算机视觉标星，更快获取CVML新技术

机器之心发布

机器之心编辑部

人工智能顶级会议 AAAI 2020 将于 2 月 7 日-2 月 12 日在美国纽约举办，不久之前，AAAI 2020 公布论文介绍结果：今年最终收到 8800 篇提交论文，评审了 7737 篇，接收 1591 篇，接收率 20.6%。本文对北京理工大学、阿里文娱摩酷实验室合作的论文《MemCap：Memorizing Style Knowledge for Image Captioning》进行解读。

该论文提出了一种通过记忆机制对语言风格相关的知识进行编码的风格化图像描述方法。由于语言风格无法直接从图像中得到，我们使用记忆模块存储语言风格相关的知识，并在生成风格化描述时根据图片中的内容检索这些知识。

论文链接：https://wuxinxiao.github.io/assets/papers/2020/MemCap.pdf

一．研究动机

图像的自然语言描述（image caption）任务涉及对图像内容的理解与自然语言的生成，是连接了计算机视觉与自然语言处理两个领域的问题。目前的大多数图像描述方法专注于为图像生成准确，客观的描述，这些描述没有明显的语言风格。实际上，特定语言风格的描述更具有应用价值。例如，用户在社交网络中上传了图 1(a) 所示的图片，普通的图像描述模型可能将其描述为「一只头上套着袋子的猫坐在沙发上」，虽然准确，但吸引力有限。如果生成的描述带有语言风格，如「这只淘气的喵星人想体验窒息的感觉」，会在社交网络中带来更好的传播效果，引起更多人的注意。又例如图 1(b) 中视频的推荐标题，带有鲜明的语言风格。若能自动生成类似的、带有某种风格的描述并作为标题，将极大地减轻视频推荐平台的运营人员的负担，提高视频推荐的分发效果。

图 1(a) ；图 1(b)。

风格化图像描述既要求能准确地理解视觉信息以体现客观内容，又要求能生成合适的语言风格以表达主观情感。然而，与语言风格相关的内容一般较为抽象，无法直接从视觉内容感知，这使得生成风格化描述变得十分困难。人们在理解图像内容时，通常可以利用联想能力，从先验知识中搜索并提取相应的风格化语料。当人们看到图 2，用正面的情感倾向描述其内容时，经常会将「好吃」与「食物」建立联系。本文作者提出了 MemCap 方法以模仿这一过程，通过风格化记忆模块，存储与语言风格相关的知识。在生成描述时，从风格化记忆模块中提取相关的知识，得到风格化的语句。

图 2：一些风格化描述的示例，与风格有关的部分用红色标出。

考虑到在实际的语料中，与视觉内容相关的词汇一般与体现语言风格相关的词汇共存，使得风格化记忆模块难以学习到干净的风格化语料。我们在本文中提出一种句子分解算法，分离与视觉内容相关的部分以及与语言风格相关的部分。

二．方法

方法概览

MemCap 模型包含风格化记忆模块 M，风格化图像描述模块 C，图片场景图生成器 E，句子场景图生成器 F 以及风格化句子分解模块 P，如图 3 所示。风格化记忆模块将场景图作为输入，检索与场景图有关的风格化知识 m。这部分知识与场景图送入图像描述模块 C 中，生成最终的描述。

由于本文方法只使用未配对的风格化句子进行微调，我们将风格化的句子分解为与内容相关的部分 W_c 和与风格相关的部分 W_s，并将 W_c 转换为场景图，作为 M 和 C 的输入。同时，W_s 被用于更新 M 中存储的风格化知识。M 与 C 通过端到端的方式进行训练。在测试时，将图片转换为场景图，作为 M 和 C 的输入。

图 3 ：MemCap 模型示意图。其中蓝色部分表示使用风格化语料微调的过程，红色部分表示生成风格化描述的过程。

风格化句子分解

给定风格化句子 y^s，句子分解的目的是分离出与风格无关的部分 W_c 以及与语言风格有关的部分 W_s。考虑到与语言风格有关的部分在客观描述（factual description）中很少出现，我们先获取句子的依存解析树，然后从解析树中去除导致较高困惑度的部分，即与语言风格有关的部分。在依存树中，每个单词 w_i 对应树中的一个节点 v_i。将第 t 次迭代中剩余的句子记作 y_((t))^s。在第 t 次迭代中，尝试去除节点 v_j 及其子树，并重新评价剩余的句子的困惑度。若困惑度最低的句子 y ̂_((t,j))^s 的困惑度小于 y_((t))^s 的困惑度则进入下一次迭代，否则算法中止，并将 y_((t))^s 作为与风格无关的部分。

场景图的向量表示

对于场景图 G=(V,E)，其节点集合 V 包含三种不同的节点：物体节点 o_i，关系节点 r_ij 以及属性节点 a_i^k。对于每个节点，使用其对应的类别标签的词嵌入作为节点的向量表示。对于物体节点 o_i 与关系节点 r_ij，其上下文相关的表示 u_(o_i ) 以及 u_(r_ij ) 分别使用如下公式计算：

（1）

其中 e_(o_i )，e_(r_ij ) 以及 e_(a_i^k ) 分别为物体 o_i，关系 r_ij 以及属性 a_i^k 的向量表示。整个场景图 G 的向量表示 e_c 为所有物体节点与关系节点的上下文相关表示的平均，即

风格化记忆模块

对于风格 s，风格化记忆模块包含两个矩阵 M_s 以及〖M'〗_s，分别存储与语言风格相关的知识以及与之对应的客观内容。风格化记忆模块使用注意力机制实现对风格化知识的更新以及提取。在更新过程中，使用表示整个场景图的向量 e_c 为〖M'〗_s 的每一列计算权重，并根据这些权重，分别使用 e_c 以及表示所有风格化词汇的向量 e_s 更新〖M'〗_s 中的每一列以及 M_s 中对应的列。在风格化知识的提取过程中，通过类似的方式为〖M'〗_s 的每一列计算权重，并对 M_s 中对应的列加权并求和，作为记忆模块的输出 m。

生成风格化描述

本文提出的风格化描述模型基于 Up-Down 模型 [2]，使用风格化记忆模块的输出 m 初始化两层 LSTM 网络的状态。第一层 LSTM 网络使用注意力机制对场景图中所有上下文相关表示 u_p 进行编码，第二层 LSTM 网络输出词汇表中每个单词的概率。

训练策略

MemCap 的训练分为预训练阶段与微调阶段。预训练阶段将图像以及对应的客观描述作为训练数据，采用交叉熵损失函数进行训练。在微调阶段，先使用交叉熵损失函数对模型进行微调，之后使用 self-critical 方法 [1] 对模型进行更新。将多个不同的评价指标（包括 CIDEr，对句子是否带有风格的评价以及句子的困惑度）加权，作为强化学习中的奖励。

三．实验

本文使用 MSCOCO 数据集对模型进行预训练，并使用来自 SentiCap 数据集的风格化语料（包括正面、负面两种风格）以及来自 FlickrStyle10K 数据集的风格化语料（包括浪漫、幽默两种风格）对模型进行微调。我们将 MemCap 方法与多种不同的方法进行比较，包括使用图片与配对的风格化描述的方法 SF-LSTM [4]，使用未配对风格化语料的方法 StyleNet [5] 以及 MSCap [3]。为了与 MSCap 进行公平的比较，在实验中同时使用了多个风格化记忆模块，训练了能够同时生成多种风格的描述的模型。表 1 和表 2 分别为单一风格（为每种风格训练一个模型）和多风格（训练能够同时生成多种风格的描述的模型）实验的结果。此外，还进行了消融实验以验证模型中不同模块的有效性。

定量结果

本文采用 Bleu-1，Bleu-3，METEOR，CIDEr 等指标评价生成的句子是否与图片相关，采用平均困惑度（ppl）评价句子是否流畅，使用风格准确率（cls）评价生成的句子是否符合对应的风格。具体地，使用在风格化文本上训练好的语言模型计算平均困惑度，使用能够判断语言风格的分类器计算风格准确率。需要指出的是，平均困惑度越低越好，其他指标越高越好。

表 1 ：单风格图像描述的实验结果，B-1，B-3，M，C 分别表示 Bleu-1，Bleu-3，METEOR，CIDEr；ppl 表示句子的平均困惑度，cls 表示风格准确率。

表 2 ：多风格图像描述的实验结果。

定性结果

图 4 展示了一些风格化图像描述的例子。可以发现，MemCap 生成的句子能够正确地描述图片的内容，并且具有明显的语言风格。

图 4：MemCap 方法生成的风格化描述。句子的风格用粗体标出，句子中与语言风格相关的部分使用下划线标出。

四．总结

本文提出了为图像生成风格化描述的 MemCap 方法，使用记忆模块对与语言风格有关的知识进行记忆，并在生成描述时检索相关的语言风格知识。因此，MemCap 方法生成的句子能够准确地描述图片中的内容，同时体现出语言风格。在两个风格化图像描述数据集上的实验证明了方法的有效性。

参考文献：

[1] Rennie, Steven J., et al. "Self-critical sequence training for image captioning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.

[2] Anderson, Peter, et al. "Bottom-up and top-down attention for image captioning and visual question answering." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

[3] Guo, Longteng, et al. "MSCap: Multi-Style Image Captioning With Unpaired Stylized Text." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

[4] Chen, Tianlang, et al. "``Factual''or``Emotional'': Stylized Image Captioning with Adaptive Learning and Attention." Proceedings of the European Conference on Computer Vision (ECCV). 2018.

[5] Gan, Chuang, et al. "Stylenet: Generating attractive visual captions with styles." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.

图像描述学习群

学习交流最新最前沿的image captioning技术、CV+NLP结合的研究方向，扫码添加CV君拉你入群，如已为CV君其他账号好友请直接私信，

（请务必注明:描述）：

喜欢在QQ交流的童鞋可以加52CV官方QQ群：805388940。

（不会时时在线，如果没能及时通过还请见谅）

长按关注我爱计算机视觉

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

AAAI 2020 | 北理工&阿里文娱：你所看视频的介绍，可以用到这样的「图像描述」技术... 的相关文章

图像特征提取算法之Haar特征原理（一）

文章目录笔记截图问题积分图例子结论笔记截图用白色的特征值之和黑色的特征值之和 61 这一个区域的特征值你也可以理解为用卷积进行提取 xff0c 白色的区域为1 黑色的为 1 xff08 邪恶的黑色 xff09 然后进行相加既可以得
CAS方式实现单点登录

单点登录 xff0c 英文是 Single Sign On xff0c 缩写为 SSO 多个站点 192 168 1 20X 共用一台认证授权服务器 192 168 1 110 xff0c 用户数据库和认证授权模块共用用户经由其中任何一个
双系统重装Ubuntu经验分享

真的很喜欢ubuntu 但又没有恒心把它学通透 xff0c 毕竟不是相关专业第一次重装是因为没多少经验 xff0c 安装qqforlinux的时候多了两个东西 xff0c 还自己生成了快捷方式 xff0c 就想点开看看是啥 xff0c 结
PCL三维点云拼接融合

1 PCL三维点云拼接融合技术 2 PCL系列拼接两个点云
ubuntu20版本忘记或重置密码的问题

前段时间把ubuntu密码忘了 xff0c 进不去并且有些需要密码权限的功能也用不了 xff0c 在网上搜了一大堆 xff0c 都是什么从开始就摁shift或Esc xff0c 好家伙摁烂了也不行啊解决如下 xff1a 首先 xff0c
程序员申请加班调休被HR拒绝：996是行规，不想加班就滚？

现如今 xff0c 很多公司为了不给员工加班费 xff0c 一般都会允许他们进行调休也就是你加班了多少个小时 xff0c 等项目不忙的时候 xff0c 你们可以选择多休息几天公司的这种做法 xff0c 大多数员工还是能接受的 xff0c
博士生如何进行文献阅读和文献整理？

一阅读文献之前先了解写文章的规则 SCI的架构 TITLE ABSTRACT main message INTRODUCTION why did you do this job METHODS how did you do it RES
结构体之offsetof宏详细解析

1 define offsetof TYPE MEMBER size t amp TYPE 0 gt MEMBER include linux stddef h 1 1 功能 xff1a 返回结构体TYPE中MEMBER成员相对于结构体首地
解决curl: (7) Failed to connect to raw.githubusercontent.com port 443

解决办法 xff1a 一首先查询域名 raw githubusercontent com对应的ip地址去这网址查询 xff1a https tools ipip net domain php 二修改hosts文件 linux系统一般都
关于使用Maix Bit所遇到的OSError: Reset Failed问题

一问题今天在使用Maix Bit学习的时候遇到了这样一个问题 xff0c 我使用Maixpy连接上了Maix Bit xff0c 然后进行下载程序的时候 xff0c 下载失败 xff0c 弹出来一个OSError Reset Faile
致小白的K210模型训练与运用

致小白的K210模型训练与运用文章目录致小白的K210模型训练与运用前言一模型训练方法二详细介绍1 使用MixHub平台进行训练2 使用Mx yolov3自己搭建平台进行训练3 V3模型4 V4模型前言由于我也是刚接触K210
使用APP inventor来制作一个属于自己的蓝牙串口软件

使用APP inventor来制作一个属于自己的蓝牙串口软件本文主要讲述蓝牙的发送和接收功能的制作一准备 1 APPinventor的网址 xff1a http app gzjkw net 二蓝牙APP界面的设置首先我们新建一个项
一起卷吧，arduino/mixly语音识别模块，10元，可以自定义，提供自制的mixly库

一效果演示制作的语音风扇演示一起卷吧 xff01 语音识别 xff0c 10元 xff0c 串口通信 xff0c arduino可用 xff0c 提供自制的mixly库操作简单 xff0c 可以语音播报哔哩哔哩 bilibili 制
arduino/mixly红外发射接收模块

一资料 http 资料链接 xff1a https pan baidu com s 1idRcrVCxQ5zWLh59EFpi9g 提取码 xff1a n8ud 默认波特率9600 串口通信 xff0c 可以发送也可以接收发送格式二
openmv学习十三：特征点匹配

适用于匹配多角度的物体 xff0c 需要现场提取之后才能使用 http docs openmv io library omv image html http docs openmv io library omv image html cla
arduino/Mixly使用TCS230颜色识别传感器

一器材 TCS230 arduino uno 二接线 TCS230arduino unoGNDGNDVCC5VS0D2S1D3S2D4S3D5OE LEDD6OUTD7 三程序 mixly程序 arduino程序 define tcs
arduino/Mixly心知天气

一准备首先百度一下心知天气 xff0c 获取一下密钥 xff0c 具体的可以看这一篇Blynk中WebHook组件的使用方法 moshanghuaw的博客 CSDN博客然后再准备一个esp8266或者esp32都可以二程序 mix
C For Linux之内存访问-内存简介

1 内存 1 1 计算机为什么需要内存存储器是计算机系统中非常重要的组成部分计算机中的存储器分为两类 xff1a 内存储器的外存储器 xff08 也叫辅助存储器 xff09 所谓外存储器在PC机中一般指硬盘 U盘光盘等 xff0c 而
每天一分钟玩转golang：基础类型之字符串（四）

大家好 xff0c 我是加摩斯 xff0c 觉得文章有帮助的小伙伴 xff0c 记得一键三连哟 xff5e 申明 xff1a 本系列两天更新一篇 xff0c 纯原创 xff0c 转载前请与我沟通字符串类型也是一种基本类型 xff0c 底层
项目二：电子骰子

项目二 xff1a 电子骰子文章目录项目二 xff1a 电子骰子一导入 5分钟 xff09 学习目的二新授 65分钟 1 预展示结果 5分钟 2 本节课所用的软硬件 5分钟 3 硬件介绍 1分钟 4 图形化块介绍 1分钟 5 单个

随机推荐

项目三：双人骰子

项目三 xff1a 双人骰子文章目录项目三 xff1a 双人骰子一导入 5分钟 xff09 学习目的二新授 65分钟 1 预展示结果 5分钟 2 本节课所用的软硬件 5分钟 3 硬件介绍 1分钟 4 图形化块介绍 1分钟 5 单个
项目四：无极调光台灯

项目四 xff1a 无极调光台灯文章目录项目四 xff1a 无极调光台灯一导入 5分钟 xff09 学习目的二新授 65分钟 1 预展示结果 5分钟 2 本节课所用的软硬件 5分钟 3 硬件介绍 5分钟 4 图形化块介绍 10分钟
Windows10安装anaconda之后pip3不能使用

1 在命令行中切换到你自己的anaconda环境中 xff0c 2 在命令行中 xff0c 切换到你的anaconda环境中的Scripts目录中像我是在 xff1a D software anaconda3 az envs py3 pyt
UE4蓝图通信-蓝图接口

蓝图接口除了最常用的cast to蓝图节点可以实现通信以外 xff0c 进阶的通信方式就是蓝图接口目的 xff1a 与多个对象中的特定几个对象进行通信方式 xff1a 对检测到的对象发送消息消息 xff1a 发出的消息是接口消息 xff
UE4蓝图通信-事件分发器(Event Dispatcher)

事件分发器在蓝图编辑器的我的蓝图选项卡中创建在我的蓝图 xff08 My Blueprint xff09 面板中的进行创建输入事件分发器的名称 xff0c 该字段显示在我的蓝图 xff08 My Blueprint xff09 选项卡
UE4项目优化(帧数优化)相关知识

控制台命令 r screenpercentage 0 100 0是百分之百如果改了这个游戏运行超级流畅说明瓶颈在GPU上stat fps 显示帧率 Frame Per Second 或者快捷键Crlt 43 Shift 43 H 显示帧
计算机图形学【GAMES-101】2、光栅化(反走样、傅里叶变换、卷积)

快速跳转 xff1a 1 矩阵变换原理Transform 旋转位移缩放正交投影透视投影 2 光栅化反走样傅里叶变换卷积 3 着色计算深度缓存着色模型着色频率 4 纹理映射重心坐标插值透视投影矫正双线性插值MipMa
计算机图形学【GAMES-101】10、材质(BRDF)(折射、菲涅尔项、微表面模型、各向异性材质)

快速跳转 xff1a 1 矩阵变换原理Transform 旋转位移缩放正交投影透视投影 2 光栅化反走样傅里叶变换卷积 3 着色计算深度缓存着色模型着色频率 4 纹理映射重心坐标插值透视投影矫正双线性插值MipMa
【重心坐标插值、透视矫正插值】原理以及用法见解(GAMES101深度测试部分讨论)

文章目录 1 Barycentric Coordinates xff08 重心坐标 xff09 1 1 重心坐标概念1 2 重心坐标计算方式1 3 重心坐标插值 2 重心坐标计算公式推导3 透视投影插值矫正3 1 透视矫正后的 96 深度插
gcc之inline函数探究

1 引子 xff1a 内联函数 xff08 以下称为inline函数 xff09 的行为类似于宏 xff0c 但是会像函数一样进行参数的静态类型检查因此gcc中很多地方倾向于使用inline函数来替代宏但是inline函数在gcc中应该
Visual Studio中多个源文件、多个main()函数如何分开运行

对于跟网课的小伙伴 xff0c 有些初学者可能像我以前一样 xff0c 想记录每一课的代码 xff0c 会一节课一个 sln解决方案 xff0c 这样非常不方便如果一个 cpp放一个main函数 xff0c 再F5运行肯定报错咯 xff0
C++中的变参宏 #define MyMacro(...)(__VA_ARGS__)

span class token macro property span class token directive hash span span class token directive keyword define span span
使用premake帮助生成Visual Studio解决方案

Premake xff1a https github com premake premake core Premake 是一个基于 Lua 脚本语言的构建系统工具 xff0c 用于生成项目文件和构建脚本 xff0c 能够帮助开发者快速创建和
Vulkan中renderpass、subpass、dependency的见解

在Vulkan中 xff0c 渲染通道 Render Pass 是一个描述渲染过程中使用的附件的对象 xff0c 可以包含多个 subpass 和附件依赖关系假设我们需要创建一个render pass xff0c 它包含2个附件 1个子通
string和char*互转以及c_str()的陷阱

string类型和char char 的转换 string转const char 1 使用string的成员函数c str 2 使用string的成员函数data 3 注意事项 xff1a c str 和data 的不同之处在于 data
机器人视觉场景理解挑战赛

这是澳大利亚机器人视觉中心发起的一项比赛 xff0c 刚刚开始 xff0c 欢迎做机器人 SLAM 场景理解的朋友参与 1 主要特点 BenchBot xff0c 用于运行语义场景理解算法的完整软件堆栈仅需几行Python代码即可在逼真的
OpenCV手部关键点检测（手势识别）代码示例

点击我爱计算机视觉标星 xff0c 更快获取CVML新技术前几日分享了learnopencv com博主Satya Mallick发表的关于OpenCV Mask RCNN实例分割的博文 xff08 详见 xff1a OpenCV4 0
人群计数（Crowd Counting）研究综述

52CV曾经报道过两篇关于人群计数的新出论文 xff08 可在精华文章汇总中找到 xff09 xff0c 皆获得不少关注 xff0c 今天的文章来自复旦大学计算机的在读博士老田和电闪雷鸣为我们介绍人群计数的相关技术和进展 xff0c 想对此
ICCV 2019 | 视频综合理解：行为识别、场景识别以及视频综述

点击我爱计算机视觉标星 xff0c 更快获取CVML新技术本文经作者授权转载自知乎 xff1a https zhuanlan zhihu com p 91986833 未经许可 xff0c 禁止二次转载导语 xff1a 计算机视觉领域顶
AAAI 2020 | 北理工&阿里文娱：你所看视频的介绍，可以用到这样的「图像描述」技术...

点击我爱计算机视觉标星 xff0c 更快获取CVML新技术机器之心发布机器之心编辑部人工智能顶级会议 AAAI 2020 将于 2 月 7 日 2 月 12 日在美国纽约举办 xff0c 不久之前 xff0c AAAI 2020 公布

AAAI 2020 | 北理工&阿里文娱：你所看视频的介绍，可以用到这样的「图像描述」技术...

AAAI 2020 | 北理工&阿里文娱：你所看视频的介绍，可以用到这样的「图像描述」技术... 的相关文章

随机推荐

热门标签