Paper:CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
Code:https://github.com/ArrowLuo/CLIP4Clip
简介:
CLIP4clip 做的是视频文字检索,这是一篇实验性质的论文,旨在探索 CLIP 模型在视频领域的应用。CLIP模型很适合做retrival的任务,因为它本身就是计算图像和文本的相似性。
总体框架:
a.文本为一个句子,将其tokenize之后输入一个文本编码器,得到一个cls token.
b.视频由很多帧组成,如果将每一帧直接分成image patch再把patch输入ViT,得到的不再是一个cls token,而是一系列cls token,加入patch为10,即有10个cls token,1:10时应该怎么做相似度计算呢。
实验:
原文在五个视频文字检索数据集上都进行了实验,结果类似,这里只看一个 MSR-VTT 的结果。如图所示,在训练数据量较小(左侧 7K)时,平均池化表现最好,当训练数据量增强(右侧 9K),对时序进行建模的方法超过了平均池化的结果。
Insights:
-
图像特征可以很好地迁移到视频特征,要将图像的特征提取器迁移到视频领域,在视频领域找到足够多的训练数据集再去预训练一次( post-pretrain),即在图像数据上 pretrain 之后,再用视频数据 pretrain 一下,效果会有很大提升。
-
3D patch + late fusion 的方式在视频文字检索领域比较有前途。
-
CLIP 模型用于视频文字检索对学习率极为敏感。