论文阅读-Clip4Clip:An Empirical Study of CLIP for End to End Video Clip Retrieval（视频领域）

2023-11-02

Paper：CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

Code：https://github.com/ArrowLuo/CLIP4Clip

简介：

CLIP4clip 做的是视频文字检索，这是一篇实验性质的论文，旨在探索 CLIP 模型在视频领域的应用。CLIP模型很适合做retrival的任务，因为它本身就是计算图像和文本的相似性。

总体框架：

a.文本为一个句子，将其tokenize之后输入一个文本编码器，得到一个cls token.

b.视频由很多帧组成，如果将每一帧直接分成image patch再把patch输入ViT，得到的不再是一个cls token，而是一系列cls token，加入patch为10，即有10个cls token，1:10时应该怎么做相似度计算呢。

Mean pooling，多个特征取平均变为一个特征，但没有考虑时序特性（如一个人逐渐站，一个人逐渐坐）。

Sequential type，考虑时序建模，将所有特征输入LSTM输出为一个特征，即融合了之前的时序信息，现在大多用Transformer取代了LSTM，对于Transformer来说只需加上位置编码，就能对时序进行建模。这是一种 late fusion 的方式，即先各自进行特征处理，再进行特征融合。

Tight type,最开始便融合文本图像信息，文本以及文本的编码和图像一起输入同个Transformer，将文本和图像帧的特征一起学习，通过transformer的不停交互，最后将得到的特征通过一个mlp算相似度。完成文本和图像的融合，以及时序信息的融合，所有的特征变成一个特征算相似度，即 early fusion。

实验：

原文在五个视频文字检索数据集上都进行了实验，结果类似，这里只看一个 MSR-VTT 的结果。如图所示，在训练数据量较小（左侧 7K）时，平均池化表现最好，当训练数据量增强（右侧 9K），对时序进行建模的方法超过了平均池化的结果。

Insights:

图像特征可以很好地迁移到视频特征，要将图像的特征提取器迁移到视频领域，在视频领域找到足够多的训练数据集再去预训练一次（ post-pretrain），即在图像数据上 pretrain 之后，再用视频数据 pretrain 一下，效果会有很大提升。
3D patch + late fusion 的方式在视频文字检索领域比较有前途。
CLIP 模型用于视频文字检索对学习率极为敏感。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

论文阅读-Clip4Clip:An Empirical Study of CLIP for End to End Video Clip Retrieval（视频领域）的相关文章

用通俗易懂的方式讲解：内容讲解+代码案例，轻松掌握大模型应用框架 LangChain

本文介绍了 LangChain 框架它能够将大型语言模型与其他计算或知识来源相结合从而实现功能更加强大的应用接着对LangChain的关键概念进行了详细说明并基于该框架进行了一些案例尝试旨在帮助读者更轻松地理解 LangChai
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【信道估计】【MIMO】【FBMC】未来移动通信的滤波器组多载波调制方案（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
问CHAT很繁琐的问题会不会有答案呢？

问CHAT 什么已有的基于极值理论的极端温度重现期主要针对极端高温事件对极端低温事件研究较少 CHAT 回复为这主要可能是由于以下几个原因 1 气候变化与全球变暖当前全球变暖和气候变化的问题备受关注这导致科研者更加关注极端高温事件
扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17
多模态、长文本、智能体，智谱AI推出GLM-4模型全家桶，发布即上线！

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入 2024年01月16日智谱AI首届技术开放日 Zhipu DevDay 在北京中关村国家自主创新示范区展示中心成功举办现场智谱AI团队全面展示了其投身于大模型事业三年多来所
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
机器学习算法实战案例：BiLSTM实现多变量多步光伏预测

文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
用通俗易懂的方式讲解：使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成

检索增强生成 Retrieval Augmented Generation RAG 是一种结合了检索 Retrieval 和生成 Generation 的技术它有效地解决了大语言模型 LLM 的一些问题比如幻觉知识限制等随着 RAG
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前从而增加他们购买的可能性随着时间的推移营销人员能够深入挖掘越来越精准的客户细分市场他们不仅具备了实现上述目标的能力而且这种能力还在呈指数级提升在AI技术帮助下现在的营销
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
深度学习：人脸识别系统 Tensorflow 人脸检测 Python语言 facenet人脸识别算法毕业设计（源码）✅

博主介绍全网粉丝10W 前互联网大厂软件研发集结硕博英豪成立工作室专注于计算机相关专业毕业设计项目实战6年之久选择我们就是选择放心选择安心毕业感兴趣的可以先收藏起来点赞关注不迷路毕业设计 2023 2024年计算机毕业
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来

随机推荐

[计算机毕业设计]MATLAB的人脸识别

前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生级别难度的对本科同学来说是充满挑战为帮助大
BIT Python科学计算三维可视化（一）Tvtk库使用

文章目录一课程来源二软件安装三 Tvtk库使用 1 创建长方体数据源 2 Tvtk库中的其他数据源 3 Tvtk库中显示三维对象 4 Tvtk中的管线技术 1 可视化管线 2 图形管线 4 使用ivtk观察管线 5 Tvtk数据集
C++STL中set不存在对应元素时set.find的返回值

先说结论用find函数查找不存在的元素时返回和 end 方法一样的迭代器 1 include
ArrayList的用法

最近做个项目需要用到ArrayList或List
瑟瑟发抖吧～OpenAI刚刚推出王炸——引入ChatGPT插件，开启AI新生态

5分钟学会使用ChatGPT 插件 ChatGPT plugins ChatGPT生态建设的开端 ChatGPT插件是什么 OpenAI最新官方blog资料表示已经在ChatGPT中实现了对插件的初步支持插件是专门为以安全为核心原则的语
Eigen源码阅读——杂文

目录 README md signature of eigen3 matrix library eigen3 pc in pkg config配置文件 INSTALL CTestCustom cmake in CTest测试 COPYING
VS2015 经常卡顿的解决办法

文章目录方法1 关闭codelens 方法2 关闭视觉效果方法3 改变并发编译数方法4 源代码管理插件选无方法5 关闭 IntelliTrace 方法1 关闭codelens 工具选项搜索codelens 取消勾选重启VS
路由器虚拟服务器的设置

在路由器帐号和密码登录之后路由器外网IP 虚拟服务器定义了广域网服务端口和局域网服务器之间的关系所有对该广域网服务端口的访问都会被重定位给通过IP地址指定的局域网网络服务器 8888是80 你本机的端口 192 168 1 108 是
堆的简单理解和代码实现

目录 1 堆的概念及结构 1 1概念 1 2性质 2 堆的实现 2 1定义堆 2 2向下调整 2 3向上调整 2 3 2两种建堆方式时间复杂度的比较 2 4堆的初始化 2 5堆的销毁 2 6堆的插入操作 2 7堆的删除操作 2 8获取堆顶元
Python输出csv文件中文乱码及解决

如图所示 python爬取信息后保存为csv格式打开后中文乱码原因是编码的缘故 CSV保存是编码格式ANSI 解决办法是以记事本方式打开CSV文件然后另存为时编码选择UTF 8进行保存即可失败了换种方法 df to csv dat
unity 贴图设置

把图片给物体时由于比例不对所以看起来不舒服可以调节红色勾选的两个参数从而调好
IDEA下 tomcat&output输出乱码的解决方法

在主界面选择help进入选择在编辑界面如下添加以下代码 Dfile encoding UTF 8 保存退出即可可以看到已经恢复正常了
OpenDrive格式地图数据解析

OpenDrive地图解析代码可以参考 https github com liuyf5231 opendriveparser OpenDrive地图文件格式为xml 详细的介绍可以参考 http www opendrive org docs
怎么配置mysql5.0_MySQL Server 5.0 – 安装及配置超详细

MySQL Server 5 0 安装及配置关键字 MySQL 配置环境 Window XP Professional SP2 MySQL Server 5 0 下载软件 MySQL Server 5 0 18 https dev my
Go程序性能分析方法（一文全解）

文章目录前言采集方式命令模式调度图监控方式 go torch方法 FlameGraph工具 wrk压测工具 go wrk go torch使用 Metricbeat 监控自定义方法前言 golang作为一门高效的语言性能监控
华三交换机如何进入配置_H3C S5120交换机怎么进入配置界面？

H3C S5120交换机进入配置抄界面的步骤第一步首先要保证电脑能够和交换机通信如果交换机web方式是打开的那么直接在浏览器里面输入交换机的地址就可以进入交换机如果只是开启了telnet服务那么你在dos窗口下输入交换机地址按回
Cuda报错：CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasSgemm( handle, opa, opb, m, n,

CUDA error CUBLAS STATUS EXECUTION FAILED when calling cublasSgemm handle opa opb m n k al 报错时我们如何处理版本问题之前看到一些朋友在出现此错误
antdesign的表格里嵌套输入框，并对输入框做校验
远程登陆windows设置分辨率

方法一按win R 输入mstsc 点击显示选项点击显示调整分辨率为1440x900 可以随意调整例如 1920 1080 1440 1050 1440 900 1280 1024 1280 768 1024 768 方法二 1 打
论文阅读-Clip4Clip:An Empirical Study of CLIP for End to End Video Clip Retrieval（视频领域）

Paper CLIP4Clip An Empirical Study of CLIP for End to End Video Clip Retrieval Code https github com ArrowLuo CLIP4Clip

论文阅读-Clip4Clip:An Empirical Study of CLIP for End to End Video Clip Retrieval（视频领域）

论文阅读-Clip4Clip:An Empirical Study of CLIP for End to End Video Clip Retrieval（视频领域） 的相关文章

随机推荐

热门标签

论文阅读-Clip4Clip:An Empirical Study of CLIP for End to End Video Clip Retrieval（视频领域）的相关文章