本文主要学习和记录一下video bert《VideoBERT: A Joint Model for Video and Language Representation Learning》这篇文章。读完这篇论文,给我的最大感受就是:为了让多模态数据(video和文本)能够同时输入到bert模型中进行训练和学习,作者对多模态数据进行了一些预处理操作。主要是针对视频数据的预处理操作,文本数据按照Bert论文中介绍的方法即可。具体来说,作者使用S3D模型来提取每一个视频clip的特征,然后再将这些实数值空间中的视觉特征进行离散化并为其分配一个新的符号如v0,这样就获得了表示整个视频的token sequence (如v01, v02, v03 .....)。接下来就交由Bert来处理这些token sequence。 作者使用层次聚类的方式,对经过S3D提取后的每个clip特征进行聚类,共获得20736聚类中心。然后为这些聚类中心分配新的token(v01, v02....)并添加到字典中,这样就得到了视频对应的token sequence和文本的token sequence,如下图所示,左边为文本token sequence,右边为视频token sequence。
本文主要学习和记录一下video bert《VideoBERT: A Joint Model for Video and Language Representation Learning》这篇文章。读完这篇论文,给我的最大感受就是:为了让多模态数据(video和文本)能够同时输入到bert模型中进行训练和学习,作者对多模态数据进行了一些预处理操作。主要是针对视频数据的预处理操作,文本数据按照Bert论文中介绍的方法即可。具体来说,作者使用S3D模型来提取每一个视频clip的特征,然后再将这些实数值空间中的视觉特征进行离散化并为其分配一个新的符号如v0,这样就获得了表示整个视频的token sequence (如v01, v02, v03 .....)。接下来就交由Bert来处理这些token sequence。 作者使用层次聚类的方式,对经过S3D提取后的每个clip特征进行聚类,共获得20736聚类中心。然后为这些聚类中心分配新的token(v01, v02....)并添加到字典中,这样就得到了视频对应的token sequence和文本的token sequence,如下图所示,左边为文本token sequence,右边为视频token sequence。
总结:这篇论文算是Bert应用在多模态领域最经典的文章了。为了使Bert模型也能够训练视频数据,作者对视频帧特征进行了离散化处理,使其可以表示为token sequence。但是,这种将多个视频用其聚类中心表示的方式,会损失原始视频数据的许多细节信息。这个现象也引出了第二篇文章《learning video representation using contrastive bidirectional transformer》,这篇文章不需要对视频进行离散化处理,也可以使用Bert模型来获得更好的预训练参数。