CLIP：Contrastive Language-Image Pre-Training

2023-11-09

参考博客：

CLIP论文阅读【Learning Transferable Visual Models From Natural Language Supervision】

引言

在NLP领域的利用自监督信号训练的预训练模型中，大规模的没有标注的数据，反而是比高质量经过手工标注的数据更有效。但是在视觉领域中大家的做法还是在像ImageNet这样的高质量手工标注的数据集中预训练，这样就会使视觉模型具有很多的限制。

NLP的这套框架是否可以用到视觉领域中？在17年的时候其实就有一篇文章与CLIP的思路非常相似，但是那时没有Transformer，没有对比学习、完形填空（掩码语言建模）以及大规模的数据集，它的结果并不是很好。此后也有一些工作使用自回归、掩码语言建模的方式做了一些工作，但是由于模型和数据都没有CLIP这么好，所以结果不亮眼。目前虽然已经有人使用Transformer+自监督来对图像文本对进行尝试，但效果却不好，归根结底是由于数据规模的有限，甚至导致zero-shot的性能不如传统的机器学习，因此这方向探索的热情也就没那么高了。因此有些工作尝试从另一个方向来开展，就是使用更弱的一些监督信号来进行视觉模型的学习，比如有些工作尝试在Instgram上爬取带有hashtag的图像，hashtag其实就相当于文本信号（充当弱监督），这样就可以做一个很大的数据集。以及有人在JFT-300M这样的大数据集上进行训练，该数据集上的文本标注很粗糙，也算相当于一种弱监督。

其实之前这一系列工作的作者都知道使用有限的经过精心设计的标注数据是有很大的局限性的，也都想用这种无尽的原始文本数据。但是因为后一种方法现在效果很低，所以没办法，他们就走了这种实用主义的中间地带，用文本带来的弱监督信号去帮助有监督模型取得更好的效果。虽然后者取得了很好的效果，思路也与CLIP很相似，但是这些工作也还是有局限的，他们这些数据也是经过精心设计的，类别也是从1000到18392个这样的有限类别，并不能真正做到随心所欲zero-shot，并且他们的工作最后都是使用Softmax做一个分类头，所以他们的工作都是固定的，从指定好的类别中选出一个。

其实不论是在大规模数据集中使用文本弱监督信号的方法，还是在有限数据集下借助文本监督信号来进行监督视觉模型学习表征的方法，区别并不是很大，关键其实就在规模上（模型+数据集）。上面的这些弱监督学习方法是在亿级规模的数据集上进行训练。最近的这些方法（VirTex，ICMLM, ConVIRT，思路其实与CLIP很相似）在有限数据集上进行图文对学习的方法，只是在几十万张图片上训练了几天，自然无法跟之前的那些方法相比。其实之前这些方法不行，并不是方法不行，而是因为规模不行，只要规模上去了，效果自然会非常好。因此CLIP这篇工作要做的就是，把规模做大，作者首先做的是收集了一个4亿个图像文本对（与JFT-300M一个量级）数据集，然后在模型上使用了不同尺寸的基于ResNet、Transformer等的大模型，方法上其实就是ConVIRT方法的简化版。

方法

CLIP是一种基于对比学习的多模态模型，CLIP的训练数据是文本-图像对：一张图像和它对应的文本描述，这里希望通过对比学习，模型能够学习到文本-图像对的匹配关系。如下图1所示，CLIP包括两个模型：Text Encoder和Image Encoder，其中Text Encoder用来提取文本的特征，可以采用NLP中常用的text transformer模型；而Image Encoder用来提取图像的特征，可以采用常用CNN模型或者vision transformer。

对提取的文本特征和图像特征进行对比学习。对于一个包含 N N N个文本-图像对的训练batch，将 N N N个文本特征和 N N N个图像特征两两组合，CLIP模型会预测出 N ∗ N N*N N∗N个可能的文本-图像对的相似度，这里的相似度直接计算文本特征和图像特征的余弦相似性（cosine similarity），即图1所示的矩阵。

fig1

与CV中常用的先预训练然后微调不同，CLIP可以直接实现zero-shot的图像分类，即不需要任何训练数据，就能在某个具体下游任务上实现分类，这也是CLIP亮点和强大之处。用CLIP实现zero-shot分类很简单，只需要简单的两步：

根据任务的分类标签构建每个类别的描述文本：A photo of {label}，然后将这些文本送入Text Encoder得到对应的文本特征，如果类别数目为 N N N，那么将得到 N N N个文本特征；
将要预测的图像送入Image Encoder得到图像特征，然后与 N N N个文本特征计算缩放的余弦相似度（和训练过程一致），然后选择相似度最大的文本对应的类别作为图像分类预测结果，进一步地，可以将这些相似度看成logits，送入softmax后可以到每个类别的预测概率。（体现出了预训练-提示范式）

关于训练效率，对于多模态预训练这样的任务，训练效率是决定训练效果的关键。因此CLIP选择了基于对比学习而非GPT那样的语言生成。如果要从一个图片逐字逐句的预测一段文本的话，这样计算量太大，训练效率太低。但是如果把这个预测任务变成一个对比任务，就是只是输入一张图片，来预测是否与这个文本是否配对，那这样训练难度就会简单很多。前者属于在原始信号空间做预测，后者属于在表示空间做对比。将GPT这种预测性的目标函数换成对比性的目标函数后，训练效率提升了4倍：
fig2

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CLIP：Contrastive Language-Image Pre-Training 的相关文章

【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
喜报|华测导航荣获“张江之星”领军型企业称号

近日 2023年度张江之星企业培育名单发布上海华测导航荣获2023年度张江之星领军型企业称号据悉张江之星企业培育是上海科创办为落实关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见张江高新区加快世界领先科技园区
Soul App：年轻人的社交状态，还有多少种可能？

查尔斯狄更斯在双城记的开篇写下这是最好的时代这是最坏的时代这是智慧的时代这是愚蠢的时代这是信仰的时期这是怀疑的时期人们面前有着各样事物人们面前一无所有既然万事万物都和狄更斯所说般好坏参半那又何必执着于过去苦恼于
利用CHAT写实验结论

问CHAT 通过观察放置在玻璃表面上的单个水滴人们可以观察到水滴充当成像系统探究这样一个透镜的放大倍数和分辨率 CHAT回复实验报告标题利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率一实验目的通过对比和测量研究和探索玻
链上繁荣,合作不断,外媒热议波场 TRON 2023 年度成绩

近日权威外媒Theblock 美联社和Decrypt等就波场 TRON 2023大事件进行了年度盘点报道指出波场TRON网络在2023年取得了一系列的发展和合作提升了其在Web3领域的地位其中波场TRON网络账户数量增加了 54
打造完美人像，PixCake像素蛋糕助您一键修图

您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰是否曾经想要打造出完美的自拍照却不知道该如何下手现在我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
如何快速申请GPT账号？

详情点击链接如何快速申请GPT账号一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
手把手教你用 Stable Diffusion 写好提示词

Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好前面文章写了一篇文章一份保姆级的 Stable Diffusion
机器学习算法实战案例：BiLSTM实现多变量多步光伏预测

文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
2023最新pytorch安装（超详细版）

前言一判断是否有Nvidia 英伟达显卡二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前从而增加他们购买的可能性随着时间的推移营销人员能够深入挖掘越来越精准的客户细分市场他们不仅具备了实现上述目标的能力而且这种能力还在呈指数级提升在AI技术帮助下现在的营销
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
GPT4+Python近红外光谱数据分析及机器学习与深度学习建模

详情点击链接 GPT4 Python近红外光谱数据分析及机器学习与深度学习建模第一 GPT4 入门基础 1 ChatGPT概述 GPT 1 GPT 2 GPT 3 GPT 3 5 GPT 4模型的演变 2 ChatGPT对话初体验注册与
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
深度学习(5)--Keras实战

一 Keras基础概念 Keras是深度学习中的一个神经网络框架是一个高级神经网络API 用Python编写可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计用户友好性模块化和可扩

随机推荐

ios html mail,在Ios上的html电子邮件中显示base64图像

我生成一个包含base64图像的html字符串当MFMailComposeViewController打开时我会看到生成的电子邮件中的图像当我发送并打开它时图像不会显示只有空方块我的代码 IBAction actionShare
VSCode无法登录leetcode，报[ERROR] invalid password?错误

原因 leetcode cn的用户名是手机或者邮箱不能用昵称登录在官网退出登陆后发现用昵称登录不了换成邮箱或者手机号后登录成功 login node 960 Warning Accessing non existent proper
SQL Server主流版本生命周期管理

SQL Server 生命周期每个版本的 SQL Server 都有至少 10 年的支持期限其中包括五年的主要支持和五年的扩展支持主要支持包括功能性能可伸缩性和安全更新扩展支持仅包含安全更新终止支持有时也称为生命周期结束
2020年高教社杯全国大学生数学建模竞赛赛题 C题分析与思路！（持续更新）

C题中小微企业的信贷决策 1 C题题目背景分析在实际中由于中小微企业规模相对较小也缺少抵押资产因此银行通常是依据信贷政策企业的交易票据信息和上下游企业的影响力向实力强供求关系稳定的企业提供贷款并可以对信誉高信贷风险小的
【nginx编译-zierror: ‘struct crypt_data‘ has no member named ‘current_salt‘】

nginx编译 src os unix ngx user c In function ngx libc crypt src os unix ngx user c 26 7 error struct crypt data has no mem
C#中Class与Struct区别

C 中Class与Struct区别 1 class 是引用类型继承自System Object stuce是值类型继承自System ValueType类因此不具多态性但是注意 System ValueType是个引用类型 2 从职
如何用SPSS对数据进行标准化处理？

SPSS统计分析软件是我最早接触的数据分析工具我的博客将陆续介绍SPSS统计分析软件的相关内容这类文章将统一按照在标题或者正文第一段出现 SPSS案例分析编号的形式组织便于读者朋友们快速查询收集今天是第一篇即 SPSS案例分
python循环与文件操作

if 语句语法结构 if 条件 elif 条件 else 1 如果表达式的值非0 或者为布尔值 True 则代码组 if suite 被执行否则就去执行 else suite 2 只要表达式数字为非零值即为 True 3 空字符串
移植使用tslib 库

目录 tslib 简介 tslib 移植下载tslib 源码编译tslib 源码 tslib 安装目录下的文件夹介绍在开发板上测试tslib tslib 库函数介绍打开触摸屏设备配置触摸屏设备读取触摸屏数据基于tslib 编写
STL库的使用之容器模板类QVector使用

Qt中提供了一组通用的基于模板的容器类对比C 中的STL库的容器类 Qt的这些容器类更轻量更安全并且容易使用同时在速度内存消耗内联代码等方面进行了优化存储在Qt的容器中数据必须是可赋值的数据类型数据类型必须提供一个默认的构造函数
BES2300X，BES2500X——UI（按键，提示音，指示灯）

本文是BES2300X BES2500X系列博文UI部分一个耳机音箱 UI是联系使用者与开发者最直接的一个窗口当然对于吾等码农而言 UI设计并不是我们最关心的我们主要做的是UI实现本文写BES最基础UI 按键指示灯提示音
基于Qt的收银点餐系统之UI的改进——QStackedLayout和QScrollArea的使用

待解决问题在收银点餐系统之UI的基本实现中我们实现了本系统中最基本的UI 这一个UI是静态的不能够动态添加按钮关于如何添加见参考资料也不能实现点击不同的分类出现不同的界面等前者的逻辑通过代码很好实现故不赘述后者则需要用到一
力扣第45天----第392题、第115题

力扣第45天第392题第115题文章目录一第392题判断子序列二第115题不同的子序列一第392题判断子序列挺简单的思路跟以前的都差不多 class Solution public bool isSubseque
Go解析yaml和yml文件

Go解析yaml和yml文件文章目录 Go解析yaml和yml文件 1 yaml概述 2 功能 3 示例 4 语言的构成元素 1 清单数组 2 关系数组 3 区块的字符 4 保留换行 Newlines preserved 5 折叠换行
英文期刊催稿信模板_SCI投稿委婉催稿信模板

SCI投稿委婉催稿信模板1 Dear editor I m not sure if it is the right time to contact you to inquire about the status of my submitte
34种ArcGIS常用操作技巧大汇总

概述 ArcGIS产品线为用户提供一个可伸缩的全面的GIS平台 ArcObjects包含了许多的可编程组件从细粒度的对象例如单个的几何对象到粗粒度的对象例如与现有ArcMap文档交互的地图对象涉及面极广这些对象为开发者集成了全
Burpsuite2022.1详细安装步骤包含证书安装

burpsuite安装 burpsuite2022 1 https pan baidu com s 1k46tVXOKfdSwxOha UNeyQ 提取码 6954 将 burp suite 压缩包解压到英文目录下这里我解压到了 E Bu
matlab图像滤波

转自 http hi baidu com wang 5Fpw blog item 36354a637ac87b48eaf8f879 html clc clear all I imread eight tif 用中值滤波多维滤波使用中心为
zipkin学习--01--理论

一介绍是分布式跟踪系统 Distributed Tracking System 监控微服务各个服务的调用情况举例一个请求A 需要先后调用f1 f2 f3等微服务单元的接口我们可以通过链路追踪查看f1 f2 f3对应接口的耗时主要
CLIP：Contrastive Language-Image Pre-Training

参考博客 CLIP论文阅读 Learning Transferable Visual Models From Natural Language Supervision CLIP Connecting Text and Images 引言在

CLIP：Contrastive Language-Image Pre-Training

引言

方法

CLIP：Contrastive Language-Image Pre-Training 的相关文章

随机推荐

热门标签