EMNLP 2020 Beyond Instructional Videos: Probing for More Diverse Visual-Textual Grounding on YouTube

2023-11-16

动机

从无标签的网络视频中进行预训练已经迅速成为在许多视频待处理任务中实际获得高性能的的手段。
通过预测语音内容和自动语音识别(ASR) token之间的grounded关系来学习特征。然而，先前的训练前工作仅限于教学录像；作者希望这个领域是相对“容易”的：在教学视频中，演讲者通常会引用文字描述的目标/动作。即期望视频帧和ASR token中的语义信息在教学视频中可以很容易地关联起来。
相似模型是否可以在更多样化的视频语料库上进行训练？如果是，哪些类型的视频“grounded”，哪些类型不“grounded”？

方法

简介

在寻找更普遍的表征时，作者的主要问题是：video-ASR预训练对于更多样化的预训练语料库是否“起作用”？某些类别的非教学性视频是否“有根据”，从而使不同的表征学习得以实现？还是有些类型太难，只充当训练噪音？作者的结论是：

1）在YouTube的大量视频类别中，例如，走遍、车辆、技术评论等，grounding确实是可能的，有些比其他的更难；

2）可转移表征可以通过在更多样的集合上进行训练而成功地学习，这可能提供更多的通用性。

模型

作者考虑一个包含这两个假设的模型：

假设ASR token平均地与同一视频内时间上共发生的视频帧具有某种对应关系；

2）忽略缺少ASR的剪辑。

虽然更复杂的模型是可能的，但作者的目标是对一个简单的、有代表性的模型进行错误分析，而不一定要达到最先进的结果。

该模型是对HowTo100M方法的略微简化。其中一个嵌入为视觉内容和ASR token学习。尽管基于self-attention模型的更复杂的方法已经被研究过，但联合嵌入模型仍然是有效的，并且提供了更好的解释性，从而使作者能够进行后面的错误分析。

模型细节：通过计算剪辑i和ASR caption j，s_i,j在联合空间中对应嵌入的余弦相似度来估计它们之间的相似度。联合嵌入模型采用门控、多层前馈网络的参数化方法。作者用作输入的视觉特征是：为目标检测预训练好的帧式2D Inception-v1和为动作识别预训练好的3D CNN S3D-G特征。语言特征输入为每个单词类型的300维向量；这些都是在训练过程中进行微调的。最大池化用于token嵌入和每帧视觉特征，以实现每个剪辑的单一视觉和文本嵌入。在YouTube-600K上进行训练时，词汇量是61K。

具体包括：

Video-ASR预训练。在训练期间，对时间上对应的（剪辑、ASR caption）对进行采样（正例）。对于每一个正例，一组不匹配的负例也是从其他视频和从相同的视频中取样的。与Miech等人相反。作者控制剪辑长度，并采样时间固定长度的片段。在最初的变长片段实验中，作者发现作者的模型能够通过将较长（和较短）的片段与较长（和较短）的ASR caption对齐来“cheating”grounding任务，这些caption大多忽略内容。因此，这种简化的选择使作者的错误分析更加直接

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

EMNLP 2020

EMNLP 2020 Beyond Instructional Videos: Probing for More Diverse Visual-Textual Grounding on YouTube 的相关文章

C++类与对象--static修饰符

C 类与对象 static修饰符 1 类静态数据成员的定义及初始化 1 1 声明 1 2 初始化 1 3 调用 1 4 案例 1 5 小结 2 类静态成员函数的定义 2 1 声明 2 2 调用 2 3 案例 2 4 小结 3 static
数据库字段类型

太长时间没有操作数据库收集了部分有用的资料一创建数据表 CREATE TABLE mytable id VARCHAR 4 NOT NULL name VARCHAR 10 sex CHAR 1 createtime DATE age
ROS系统

参考 https blog csdn net qq 28087491 article details 119053810 https www bilibili com video BV1zt411G7Vn spm id from 333 3
静态网页怎样实现动态交互?-JavaScript

在Html基础上 javascript能够开发交互式web网页 javascript的出现使得网页和用户之间实现了一种实时性的动态的交互性的关系 javascript短小精悍又是在客户机上执行的大大提高了网页的浏览速度和交互能力同
Python高级培训第三次作业

任务作业 import threading 导入threading库 import time 导入time库 class Get time object 创建类Get time 用于获取当前时间 def init self each ti
“msg“:“Request method ‘GET‘ not supported“,“code“:500原因及解决

GetMapping add parentId 这里的路径纠错漏了 controller 缺少add的保存方法 GetMapping add parentId 及其以下 Html出现错误如下图
B树及其基本操作、B+树的基本概念

B树及其基本操作 B 树的基本概念 1 B树 B 树的基本概念 1 B树的基本概念及性质 2 B 树的基本概念及性质 2 B树与B 树的区别 3 B树的基本操作 1 B树的查找 2 B树的插入 3 B树的删除 1 B树 B 树的基本概念 1
SpringBoot集成海康设备网络SDK

文章目录 SDK介绍概述功能下载对接指南集成初始化项目初始化SDK 初始化SDK概述新建AppRunner 新建SdkInitService 新建InitSdkTask 新建 HCNetSDK 调用业务接口部署拷贝so库
解决鼠标右击菜单的新建中没有“文本文档”的问题

解决鼠标右击菜单的新建中没有文本文档的问题原创丶无殇 2022 2 12 注意博主测试平台为WIN10系统其他系统不保证一定可以一问题现象在桌面右击打开新建菜单时没有文本文档这个选项二问题原因有以下可能安装某个软件
单链表的数据结构和基本操作

单链表的基本操作头结点单链表的基本操作头结点单链表的数据结构头结点的初始化插入新结点头插法插入新结点尾插法插入新结点按位置插入新结点删除节点头删尾删按位置删头指针单链表的基本操作实现代码链表是一种线性结构在存储
UE4 技能系统(GAS插件的使用) 01--Build Basic Classes 创建基础类

翻译自Udemy的视频课程introduction to unreal engine 4 ability system Build Basic Classes 创建基础类 1 创建工程和人物设置 01 创建Git仓库使用UE4 22 VS
CUDA学习（二十三）

Direct3D互操作性 Direct3D 9Ex Direct3D 10和Direct3D 11支持Direct3D互操作性 CUDA上下文只能与满足以下条件的Direct3D设备互操作必须使用设置为D3DDEVTYPE HAL的Dev
脚本之抢课脚本

UserScript name New Userscript namespace http tampermonkey net version 0 1 description try to take over the world author
前后端分离获取客户端ip_前后端分离交互

新开一个项目对最近学的vue进行一个总结这段时间把前后端通信做掉后端介绍下使用到的工具类请求工具 postman 后端框架 springboot 这里顺便做了个模块化把通用工具集放common模块中但是这里有个问题其实我自己
QT入门Input Widgets之QComboBox

目录一界面布局功能 1 界面位置介绍 2 界面常用操作属性 2 1基本属性 2 2添加子项目二属性功能介绍 1 代码添加item 2 批量插入 3 设置当前显示的索引 4 清除掉所有item 5 切换item获得索引值与当前文本三
云服务器下centos7.3 nginx动态负载均衡

nginx动态负载均衡什么是nginx动态负载均衡呢传统的负载均衡如果Upstream参数发生变化每次都需要重新加载nginx conf文件因此扩展性不是很高所以我们可以采用动态负载均衡实现Upstream可配置化动态化无
关于小贷公司与平台合作的一点感想

一 1 有人说小额贷款行业经过了革命浪漫主义传统信贷数据数据爆炸几个阶段现在应该是平台合作阶段了且不说这样的论述有推销数字化平台服务之功利性小贷行业不过10年出头一个行业阶段的孕育发展到变革是漫长的哪有那么多阶段 2 我认
三维重建入门学习————建模软件Blender入门篇

背景介绍关于近期在进行三维重建相关算法学习的时候学得越深发现对各个方面的知识要求得越多之前是补了相机的拍照原理成像原理知识再后来还补了主流的点提取匹配算法等等到了最近论文抑或是其他技术性文章出现的纹理贴图等等词总会让
Pandas知识点-详解元素级批处理函数applymap和map

Pandas知识点详解元素级批处理函数applymap和map 在Pandas中 apply 可以对DataFrame和Series按列或行批处理 applymap 和map 可以分别对DataFrame和Series进行元素级的批处理

随机推荐

mybatis中判断某个字段是否为null或空

MySql 里的IFNULL NULLIF和ISNULL用法 mybatis不能使用IFNULL这些函数可以用case when then else end代替 select id is topic on as topicOn topic
flutter报错The number of method references in a .dex file cannot exceed 64K.

The number of method references in a dex file cannot exceed 64K 这句话的意思翻译出来是 dex文件中的方法引用数不能超过64K 我的理解引用的第三方的方法超过了64K 需要在
如何将代码托管到github上

1 注册并登陆github github官方地址 https github com 2 点击右下角的 New repository 按钮来创建一个版本库 3 将版本库命名为 coolweather 然后选择添加一个 Android 项目类型
将json字符串转换成html,根据json字符串生成Html的一种方式

文章说明本文介绍了根据Json串生成Html的一种方式只是简单实现了文本框密码框下拉框只是觉得好玩才这样做如果觉得没有任何价值请忽略不足指出希望各位大牛指点后续将根据各位的指点继续完善功能说明在左侧输入框中输入Json
ue中的经纬高转xyz的问题

在ue中做了个地球仪发现经纬度转地心坐标系老是出问题后来发现是转ue时 x y坐标要互换也对因为在cesium for unreal中还有一系列ecef转ue的相关函数即下面的代码中 xy需要互换在ue中才能正常使用偏心率
【图解网络协议】面试官：三次握手都不会，回去等通知吧

文章目录一网络基础知识准备 1 OSI七层网络模型总结 2 TCP IP协议总结 3 TCP协议流程 4 UDP协议 5 什么是socket 二 http协议 1 什么是http协议 2 http 1 0 与 http 1 1的区别 3
香农公式简介

信道容量指信道中信息无差错传输的最大速率信道模型中定义了两种广义信道调制信道和编码信道调制信道是一种连续信道可以用连续信道的信道容量来表征编码信道是一种离散信道可以用离散信道的信道容量来表征香农公式设信道带宽为B 单位为H
五种IO模型（详解+形象例子说明）

在网络环境下通俗的讲将IO分为两步 1 等 2 数据搬迁如果要想提高IO效率需要将等的时间降低五种IO模型包括阻塞IO 非阻塞IO 信号驱动IO IO多路转接异步IO 其中前四个被称为同步IO 在介绍五种IO模型时我会举生
给一个正整数n，求出位数。并按正序输出，逆序输出

求出位数思路通过让给定的正整数n整除10 且每整除一次让统计位数的变量count自增一返回count得到位数 include
华硕主板固态硬盘不识别_[主板] 开机后无法识别硬盘或SSD的故障排除方式

1 尝试更新官网最新的BIOS版本可参考FAQ 华硕EZ Flash 3 介绍 2 在计算机开机后立刻按压键盘上的 delete 键在BIOS EZ Mode 页面的 Storage Information 字段确认是否可以显示所接
使用EasyExcel生成表格并且返回File对象

通过此方法可以导出表格并且存入File对象中进行其他的操作这里通过File来进行异步存储到文件服务器用于下载中心 public static
myeclipse10配置tomcat详细过程

首先确保你已经成功的安装了myeclipse10和tomcat 我用的是tomcat6 1 在myeclipse10中添加tomcat 选择属性preferences之后进入配置框选择servers下的tomcat6 视你自己的版本而定
【翻译】软件表现不佳，未来取决于这种情况的改变

如果一件事不能永远进行下去它就不会赫伯斯坦法则科技行业的未来会是什么样子从现在到2030年我们所有人面临的挑战不再是我们将如何说服世界或更直接地说我们的老板或客户成为碳零无论我们是否愿意这都会到来我们的新问题是作为
如何阅读他人的项目源代码程序

阅读他人的项目源代码步骤备份并编译运行代码熟悉项目编程语言的语法和惯例用语看项目文档有机会可向项目开发人员请教自上而下构建项目程序的系统架构建立系统架构和功能逻辑之间的关联核心代码重点剖析与注释调整心态反复阅读工欲善其事
Vue3只读代理---readonly、isReadonly、shallowReadonly

readonly 获取一个对象响应式或纯对象或 ref 并返回原始代理的只读代理不能给属性重新赋值只读代理是递归的访问的任何嵌套 property 也是只读的
springmvc源码学习（二十四）异步请求管理器WebAsyncManager初始化

目录前言一 WebAsyncManager初始化二参数的初始化三自定义参数总结前言 Springmvc的异步执行请求是有异步管理器WebAsyncManager来控制的一 WebAsyncManager初始化 1 在请求到
大数据--Hadoop环境部署(4)Hadoop集群部署

Hadoop集群的部署方式分为三种分别是独立模式 Standalone mode 伪分布式模式 Pseudo Distributed mode 和完全分布式模式 Cluster mode 独立模式和伪分布式模式主要用于学习和调试完全分布
数据圈最全的数据分析&产品文章合集

关注公众号回复进群与3万数据人交流公众号介绍一个数据人的自留地成立于2020年2月25日目前发表原创300 篇拥有3万粉丝交流群10 个连载数据产品数据分析画像标签策略算法运营增长求职面试等20多个方向的文
Spring Boot Kafka - 序列化和反序列化JSON

文章目录 Spring Boot Kafka 序列化和反序列化JSON 前言配置JsonSerializer和JsonDeserializer 定义一个Model类 Producer类 Consumer类 Controller类测试小
EMNLP 2020 Beyond Instructional Videos: Probing for More Diverse Visual-Textual Grounding on YouTube

动机从无标签的网络视频中进行预训练已经迅速成为在许多视频待处理任务中实际获得高性能的的手段通过预测语音内容和自动语音识别 ASR token之间的grounded关系来学习特征然而先前的训练前工作仅限于教学录像作者希望这个领域是相

EMNLP 2020 Beyond Instructional Videos: Probing for More Diverse Visual-Textual Grounding on YouTube

动机

方法

简介

模型

EMNLP 2020 Beyond Instructional Videos: Probing for More Diverse Visual-Textual Grounding on YouTube 的相关文章

随机推荐

热门标签