video bert & visual bert

2023-05-16

最近需要处理一些多模态任务（图文匹配，caption等），需要用到多模态模型/算法。调研之后发现，目前处理此类问题的主流方法都是基于bert的多模态模型，因此总结一下学习过程中遇到的问题，以及自己对这些模型的理解。

本文主要学习和记录一下video bert《VideoBERT: A Joint Model for Video and Language Representation Learning》这篇文章。读完这篇论文，给我的最大感受就是：为了让多模态数据（video和文本）能够同时输入到bert模型中进行训练和学习，作者对多模态数据进行了一些预处理操作。主要是针对视频数据的预处理操作，文本数据按照Bert论文中介绍的方法即可。具体来说，作者使用S3D模型来提取每一个视频clip的特征，然后再将这些实数值空间中的视觉特征进行离散化并为其分配一个新的符号如v0，这样就获得了表示整个视频的token sequence (如v01, v02, v03 .....)。接下来就交由Bert来处理这些token sequence。作者使用层次聚类的方式，对经过S3D提取后的每个clip特征进行聚类，共获得20736聚类中心。然后为这些聚类中心分配新的token(v01, v02....）并添加到字典中，这样就得到了视频对应的token sequence和文本的token sequence，如下图所示，左边为文本token sequence，右边为视频token sequence。

[CLS]表示一个句子/句子对，[SEP]代表句子对之间的间隔。[&gt;]代表文本序列和视频序列的间隔

本文通过三个具体任务来训练模型，获取预训练参数：1）完形填空任务MLM（Bert中提出的），2）下一个句子预测（Bert中的），3）当前文本序列和视频序列是否匹配（从整个语义角度来判断是否匹配，而不是一个单词对应一个视频clip)。接下来，详细介绍一下上述三个任务。

MLM任务，即随机mask text token，使用剩余的token来进行预测。

[CLS]表示一个句子/句子对，[SEP]代表句子对之间的间隔。[&gt;]代表文本序列和视频序列的间隔

MLM任务，即随机mask text token，使用剩余的token来进行预测。

其中 x_{l} 为mask的token， x_{\l} 为剩余的token sequence。这个损失函数做的就是利用剩余未被掩码的token sequence来最大化预测mask token的概率。其中，

x_{l} is a one-hot vector for the l'th token，f_{\theta} 就是Bert模型。此处使用内积的形式（而非softmax, 接下来第二篇文章用softmax)来计算最终的损失。

MLM任务使得模型可以从前到后的编码句子序列，也可以同后往前，这样就学到了每个文本具有上下文的word embedding。

Predict next sentence task（预测下一个句子）. 上述MLM任务只能学到每个单词的上下文表示，无法学到整个句子级别的语义表示。通过predict next sentence tas可以学习到句子级别的表示。

Linguistic-visual alignment task. 是video bert提出的为了对齐视频序列和文本序列的任务。本质上是一个二分类任务，即判断文本序列和视频序列是不是有对应关系，这里的对应是整个语义级别的而不是每个token的对应。

总结：这篇论文算是Bert应用在多模态领域最经典的文章了。为了使Bert模型也能够训练视频数据，作者对视频帧特征进行了离散化处理，使其可以表示为token sequence。但是，这种将多个视频用其聚类中心表示的方式，会损失原始视频数据的许多细节信息。这个现象也引出了第二篇文章《learning video representation using contrastive bidirectional transformer》，这篇文章不需要对视频进行离散化处理，也可以使用Bert模型来获得更好的预训练参数。

对video数据进行离散化处理的本质：通过这种方式，video bert模型能够使用MLM任务对视频数据进行训练。如果视频clip不是token，而是 R^{1024} 空间中的连续实数值，我们还能用one-hot的形式表示公式2中的 x_{l} 吗？显然是不可能的！但是，直观上，对视频特征进行离散化处理肯定会损失很多细节信息。那怎么解决这个矛盾呢？熟悉word2vec的读者一定了解负采样技巧把，自然语言任务中的字典通常来说是非常大的，直接使用softmax预测具体的单词的类别，是非常耗时的一个过程。word2vec论文中提出了一个负采样技巧来缓解上述过程，即首先给定要预测的单词（正类别），然后随机采样一些噪声词（负类别），然后让模型从这些词中找到正确的单词，这样既能训练模型，也降低了训练难度。

其实《learning video representation using contrastive bidirectional transformer》这篇文章就是采用了负采样技巧，使模型能够以MLM任务来训练处于连续实数空间中的视频特征。

MLM任务的损失函数如下：

与公式1一模一样，这里是极小化，公式1是极大化。

此处使用了softmax函数衡量相似程度，video bert是使用了内积的形式。

接下来是本文的重点，通过负采样NCE loss来实现训练实数空间中的视频数据：

其中, \bar{e} = g_{contex}(e_{-t}) 是被mask的visual sequence的visual bert输出。因为视觉特征是连续不可数的，因此无法穷举所有的负例，只能通过负采样的方式来进行训练。这样就解决了MLM不可以训练连续空间下的现象了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

video bert & visual bert 的相关文章

视频录制挂在 IMFSinkWriter->Finalize() 上；

我在使用 Media Foundation 将视频录制完成为 mp4 时遇到问题其中调用IMFSinkWriter gt Finalize 永远挂起它并不总是发生并且几乎可以在任何计算机上发生在 Windows 服务器 7 8 10
YouTube get_video_info 引发限制错误

我已经为 joomla 创建了是的另一个 YouTube 播放器模块在模块后端我使用了来自的代码这个答案 https stackoverflow com a 5151862 4708062显示视频标题不幸的是对于大多数视频 ID g
找到实际的 RTMP 流 URL？

让我举个例子这是视频嵌入代码 div Loading the player div
HTML5 视频 JavaScript 控件 - 重新启动视频

我知道如何使用 play 和pause 开始和停止视频但是如何使用 javascript 将视频放回到 HTML5 的开头有没有办法将指针移回开头 Set the currentTime http www w3 org TR html5
如何让用户能够使用我的应用程序播放视频？

昨晚刚刚花了几个小时为 Honeycomb 开发了一个非常漂亮的视频播放器现在我当然希望人们能够使用它如何让我的应用程序监听接收视频播放广播我猜这与manifest xml文件但我无法在 Android 开发者网站上找到任何有关
Google VR 视频无法加载

我正在使用谷歌网页版 VR 视图 https developers google com vr concepts vrview web加载 360 度视频但是当我加载视频时它说错误渲染视频加载错误对象事件这是控制台显示的内容当
Android Twilio 视频通话，唤醒应用程序并带到前台

我正在尝试使用 Twilio Video Call 提供本机视频通话体验这是场景人 AAA 称人 BBB BBB 没有打开应用程序在后台或前台应用程序处于终止状态手机甚至可能被锁定当来自 AAA 的电话到达时应用程序将打开并
YouTube 视频 ID 的最大长度是多少？

我正在开发一个显示 YouTube 视频的应用程序我想将视频 id 存储在数据库中但是因为会有很多视频我想最小化所需的空间所以有人知道 youtube 上视频 id 的最大长度吗几乎可以肯定它会保持在 11 个字符各个字符来自一
从 iPhone 中的视频帧获取图像

是否可以使用 iPhone SDK 从 iPhone 中的视频中抓取帧并将其保存或在应用程序中以任何方式使用它除了播放停止或访问视频的二进制数据之外 SDK 是否可以对视频进行任何控制还可以知道用户停止观看视频的时间我知道在 SDK
视频swf的php正则表达式

我想从对象嵌入 html 源获取视频 url 我读到我可以使用正则表达式来获取它但我和正则表达式不是朋友这就是我所拥有的
是否可以仅使用html5和js剪切部分视频并将其上传到服务器

我使用 Filereader 读取本地视频文件 mp4 因此我可以将其显示在视频标签中我需要剪切 mp4 文件的一部分即从 5 到 10 秒并将其上传到服务器上我当前的解决方案我使用 from 和 to 参数将整个视频文件上传到服
iOS4：如何使用视频文件作为 OpenGL 纹理？

我正在尝试将视频文件的内容暂时不包含音频显示到 OpenGL 中的 UV 映射 3D 对象上我已经在 OpenGL 中做了相当多的工作但不知道从哪里开始处理视频文件而且大多数示例似乎都是从相机获取视频帧这不是我想要的目前我觉得
指示 getUserMedia 使用最佳可用相机分辨率

我正在使用 getUserMedia 函数从网络摄像头录制视频一切工作正常除了当我刚刚指定 video true 约束时它仅以 640x480 分辨率录制如果我设置如下约束我现在可以在笔记本电脑上获得更好的录音质量 var medi
如何使视频资源兼容视网膜显示？

我有一个应用程序可以在播放 2 秒的电影时加载目前该应用程序已在商店上架并且除此视频外所有静态内容均符合视网膜显示标准我有一个用于视网膜显示屏的 960x640 mp4 h 264 编码视频它在 iPhone 是的高分辨率
如何使用 opencv 从字节显示视频？

我正在开展一个项目其中我们使用无线电调制解调器将数据视频和遥测从无人机传输到地面站我们需要做的是实时显示视频并能够知道 C 中的每一块遥测数据对应哪一帧数据被解封装为遥测和视频 mpeg4 字节由于我对 OpenCV 有一些经
自动旋转、UIWebView 和 UITabBarController

我有以下视图层次结构 UITabBarController UINavigationController UIViewController only supports Portrait rotation UINavigationContro
为什么我在模拟器中看不到视频？

我见过几个与此类似的问题但我想确定一下我无法在模拟器上运行视频是否一致有人在模拟器上成功运行视频吗以下是我使用的代码 import android app Activity import android net Uri impor
Phonegap html5视频无法播放

我正在尝试在 iPad 上的phonegap 应用程序中播放视频该视频给了我错误 MEDIA ERR SRC NOT SUPPORTED 我尝试播放的视频不是本地的当我在该视频上使用curl I 时这是它带来的信息 HTTP 1 1
在列表视图/滚动视图中自动播放视频，类似于 facebook

如果视图包含视频我需要视频在列表视图滚动视图中自动播放这与 Facebook 非常相似如果用户向下滚动并且可见区域包含视频系统将播放视频如果仍然滚动则会自动停止该视频它应该像一次播放一个视频一样工作有人可以帮我解决这个问题

随机推荐

解析力评测（1） MTF和SFR

成像系统的解析力一直是摄像头最关键的指标之一所有用户拿到一张照片的时候首先看到的是照片清楚不清楚 xff0c 图像的清楚说得就是解析力但是如何评价一个成像系统的解析力也是大家一直在探讨的问题目前主流的办法主要有三种TV line检测
MTF的倾斜边缘计算方法

简介光学系统性能的衡量方法有很多 xff0c 常见的有点扩散函数法瑞利判断法点列图法光学传递函数 MTF 法等 xff0c 其中MTF法在光学系统和镜头加工制造中使用最为广泛 MTF曲线真实的反映了成像系统将物方信息传递到像方的能力
机器人学中旋转矩阵与欧拉角之间互换公式及程序

弧度角度 define PAI 3 141592653589793 define RADIAN PAI 180 0 弧度 61 角度 180 define ANGLE 180 0 PAI 角度 61 弧度 180 2 旋转矩阵转换为欧拉角
opencv 读取图片并提取Mat中data数据

uchar pImageData 61 uchar malloc width height 3 sizeof uchar Mat MyImage 61 imread file name IMREAD COLOR if MyImage dat
如何理解矩阵相乘的几何意义或现实意义？

作者 xff1a deng will 链接 xff1a https www zhihu com question 28623194 answer 135658852 来源 xff1a 知乎著作权归作者所有商业转载请联系作者获得授权 xf
范数对于数学的意义？1范数、2范数、无穷范数

作者 xff1a JI Weiwei 链接 xff1a https www zhihu com question 21868680 answer 25599956 来源 xff1a 知乎著作权归作者所有商业转载请联系作者获得授权 xff
鱼眼图像的经纬度展开，经纬度图转鱼眼

鱼眼图像由视场角接近180度甚至大于180度的镜头拍摄得到 xff0c 图像周围畸变严重 xff0c 通过经纬法将鱼眼图像展开是一个不错的方法鱼眼镜头可以视为一个半球 xff0c 经纬法按照球面贴图的类似思想将图像以球面形式展开以下面这
感知机（Perceptron）无法解决异或（XOR）问题的原因

目录 1 异或问题 2 感知机 xff08 Perceptron xff09 感知机 xff08 Perceptron xff09 为什么无法解决异或 xff08 XOR xff09 问题呢 xff1f 1 异或问题首先我们来分析一下什么
'list' object has no attribute 'astype'.

在使用python处理数据程序运行出现 39 list 39 object has no attribute 39 astype 39 的问题 xff0c 代码如下 xff1a x data y data 61 pickle load o
用Kazam软件在Ubuntu系统下获取的截图、录屏在Windows系统下无法打开、播放问题：用格式工厂、Handbrake来解决

解决步骤如下 xff1a 1 xff0c 用kazam在Ubuntu系统下获取的截图录屏以windows下能够读取的名字来修改保存的文件名 2 xff0c 在windows系统下可直接打开截图并复制删除等操作 3 xff0c 在Wind
MPU9250调试笔记（融合磁力计计算Yaw）

底部附源码 2022 10 5 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 产品需要一个姿态传感器 xff0c 使用了MPU9250 xff0c 主要是算法库不太好找
ROS环境下大疆tello无人机源码安装&驱动代码解读

大疆tello无人机是一款微小型无人机 xff0c 可以支持多种开发模式这里用的是ROS1的kinetic版本进行开发参考文档来自http wiki ros org tello driver 1 xff09 kinetic下tello源
Gazebo仿真--无人机添加传感器并且在rviz中显示数据

近来为了实现更加接近真实的仿真 xff0c 准备给无人机添加传感器这里以激光雷达rplidar为例 xff0c 其他传感器如深度相机D435i也是类似的首先打开无人机模型文件 xff08 我这里是用了amovlab的p450 uav1
http文件服务器（Ubuntu）

apache文件服务器 xff08 Ubuntu xff09 环境 xff1a Ubuntu18 4 需求 xff1a 搭建一个资源共享的文件下载站 xff0c 支持多用户长这样 xff1a 传输文件的协议有很多 xff0c 例如 xff
pytorch DataParallel理解及易犯错误（逻辑上感觉没问题，但是返回时候却出错）

本文只针对单机多GPU使用dataparallel进行加速运算写在前边 xff1a dataparallel只存在于继承了nn Modules类的forward 计算中大致流程如下 xff1a span class token keyw
Python 中补码表示

剑指offer 中有一道题 xff1a 输入一个整数 xff0c 输出该数二进制表示中 span class token number 1 span 的个数其中负数用补码表示如果不是负数很好解决 xff0c 用到如下技巧即可 n spa
ali笔试

题目描述 xff1a 输入两个字符串s1 span class token punctuation span s2 span class token punctuation span 只能对s1进行一种操作 xff0c 即可以将字符串中任意
edas上传过程中的一些错误

关于latex使用的一些教训总结 xff1a failed 1 paper has an average line spacing of 8 97 pt but should have 10 You may need to increase
作业一（part1）：使用威斯康辛大学关于乳腺癌诊断数据集的相关数据，采用决策树算法（或随机森林）分析乳腺癌诊断数据集，推断肿瘤发病可能情况，然后用5分类

仅供自己学习使用 xff01 xff01 xff01 这篇博客先对数据集做一些介绍参考链接 xff1a http docode techyoung cn breast cancer wisconsin html 乳腺癌的早期诊断意义重大
video bert & visual bert

最近需要处理一些多模态任务 xff08 图文匹配 xff0c caption等 xff09 xff0c 需要用到多模态模型算法调研之后发现 xff0c 目前处理此类问题的主流方法都是基于bert的多模态模型 xff0c 因此总结一下学习

video bert & visual bert

video bert & visual bert 的相关文章

随机推荐

热门标签