论文阅读-Clip4Clip:An Empirical Study of CLIP for End to End Video Clip Retrieval(视频领域)

2023-11-02

Paper:CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

Code:https://github.com/ArrowLuo/CLIP4Clip

简介:

    CLIP4clip 做的是视频文字检索,这是一篇实验性质的论文,旨在探索 CLIP 模型在视频领域的应用。CLIP模型很适合做retrival的任务,因为它本身就是计算图像和文本的相似性。

总体框架:

a.文本为一个句子,将其tokenize之后输入一个文本编码器,得到一个cls token.

b.视频由很多帧组成,如果将每一帧直接分成image patch再把patch输入ViT,得到的不再是一个cls token,而是一系列cls token,加入patch为10,即有10个cls token,1:10时应该怎么做相似度计算呢。

  • Mean pooling,多个特征取平均变为一个特征,但没有考虑时序特性(如一个人逐渐站,一个人逐渐坐)。

  • Sequential type,考虑时序建模,将所有特征输入LSTM输出为一个特征,即融合了之前的时序信息,现在大多用Transformer取代了LSTM,对于Transformer来说只需加上位置编码,就能对时序进行建模。这是一种 late fusion 的方式,即先各自进行特征处理,再进行特征融合。

  • Tight type,最开始便融合文本图像信息,文本以及文本的编码和图像一起输入同个Transformer,将文本和图像帧的特征一起学习,通过transformer的不停交互,最后将得到的特征通过一个mlp算相似度。完成文本和图像的融合,以及时序信息的融合,所有的特征变成一个特征算相似度,即 early fusion。

实验:

原文在五个视频文字检索数据集上都进行了实验,结果类似,这里只看一个 MSR-VTT 的结果。如图所示,在训练数据量较小(左侧 7K)时,平均池化表现最好,当训练数据量增强(右侧 9K),对时序进行建模的方法超过了平均池化的结果。

Insights:

  1. 图像特征可以很好地迁移到视频特征,要将图像的特征提取器迁移到视频领域,在视频领域找到足够多的训练数据集再去预训练一次( post-pretrain),即在图像数据上 pretrain 之后,再用视频数据 pretrain 一下,效果会有很大提升。

  2. 3D patch + late fusion 的方式在视频文字检索领域比较有前途。

  3. CLIP 模型用于视频文字检索对学习率极为敏感。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

论文阅读-Clip4Clip:An Empirical Study of CLIP for End to End Video Clip Retrieval(视频领域) 的相关文章

随机推荐