动机
- 从无标签的网络视频中进行预训练已经迅速成为在许多视频待处理任务中实际获得高性能的的手段。
- 通过预测语音内容和自动语音识别(ASR) token之间的grounded关系来学习特征。然而,先前的训练前工作仅限于教学录像;作者希望这个领域是相对“容易”的:在教学视频中,演讲者通常会引用文字描述的目标/动作。即期望视频帧和ASR token中的语义信息在教学视频中可以很容易地关联起来。
- 相似模型是否可以在更多样化的视频语料库上进行训练?如果是,哪些类型的视频“grounded”,哪些类型不“grounded”?
方法
简介
在寻找更普遍的表征时,作者的主要问题是:video-ASR预训练对于更多样化的预训练语料库是否“起作用”?某些类别的非教学性视频是否“有根据”,从而使不同的表征学习得以实现?还是有些类型太难,只充当训练噪音?作者的结论是:
1)在YouTube的大量视频类别中,例如,走遍、车辆、技术评论等,grounding确实是可能的,有些比其他的更难;
2)可转移表征可以通过在更多样的集合上进行训练而成功地学习,这可能提供更多的通用性。
模型
作者考虑一个包含这两个假设的模型:
- 假设ASR token平均地与同一视频内时间上共发生的视频帧具有某种对应关系;
2)忽略缺少ASR的剪辑。
虽然更复杂的模型是可能的,但作者的目标是对一个简单的、有代表性的模型进行错误分析,而不一定要达到最先进的结果。
该模型是对HowTo100M方法的略微简化。其中一个嵌入为视觉内容和ASR token学习。尽管基于self-attention模型的更复杂的方法已经被研究过,但联合嵌入模型仍然是有效的,并且提供了更好的解释性,从而使作者能够进行后面的错误分析。
模型细节:通过计算剪辑i和ASR caption j,si,j在联合空间中对应嵌入的余弦相似度来估计它们之间的相似度。联合嵌入模型采用门控、多层前馈网络的参数化方法。作者用作输入的视觉特征是:为目标检测预训练好的帧式2D Inception-v1和为动作识别预训练好的3D CNN S3D-G特征。语言特征输入为每个单词类型的300维向量;这些都是在训练过程中进行微调的。最大池化用于token嵌入和每帧视觉特征,以实现每个剪辑的单一视觉和文本嵌入。在YouTube-600K上进行训练时,词汇量是61K。
具体包括:
-
Video-ASR预训练。在训练期间,对时间上对应的(剪辑、ASR caption)对进行采样(正例)。对于每一个正例,一组不匹配的负例也是从其他视频和从相同的视频中取样的。与Miech等人相反。作者控制剪辑长度,并采样时间固定长度的片段。在最初的变长片段实验中,作者发现作者的模型能够通过将较长(和较短)的片段与较长(和较短)的ASR caption对齐来“cheating”grounding任务,这些caption大多忽略内容。因此,这种简化的选择使作者的错误分析更加直接