CLIP解读

2023-11-04

CLIP：Learning Transferable Visual Models From Natural Language Supervision

OpenAI的CLIP这篇文章，从互联网收集构建了了4亿个图片-文本对的数据集，对图像和文本通过编码器提取的Embedding使用对比学习方式训练，得到对齐的图像&文本Embedding，并用在Zero-shot学习任务中。训练好的模型开源在：https://github.com/openai/CLIP

论文分享了作者一些观点：

1、不采用图像生成文本的方式，是因为生成方法计算量大，运算速度慢，作者做过生成的尝试，需要大一个数量级的计算量才能和对比法得到相似的效果。

2、从头训练，不适用任何预训练好的图像、语言模型。在数据规模足够大的情况下，使用ViT（Vision Transformer）效果优于ResNet、EfficientNet这些CNN网络，并且计算量更小，训练速度更快。

3、训练时直接对一个batch中的图像、文本embedding计算余弦距离作为logits，使用交叉熵损失。推理时，将预先设置的一些类别的自然语言描述加入提示模板中，例如“这是一张{XXX}的照片”，生成对应的文本Embedding，通过余弦距离做分类。另外作者发现，描述文字越具体，推理分类效果越好，比如“这是一张{XXX}的照片，是一类宠物”，或“这是一只大型{XXX}的照片”。

4、CLIP Zero-shot效果在ImageNet图像分类任务上，甚至超过了全监督训练的同等规模的ResNet、EfficientNet。使用CLIP方法进行Zero-shot推理，在27个不同数据集上进行分类任务，其中16个效果优于在ResNet50做监督训练。作者通过27个数据集的错误分析发现，CLIP方法对以名词为中心的目标分类效果特别好，效果较差的是一些复杂、抽象的图像，例如卫星拍摄图像、淋巴结肿瘤图像、识别最近距离的车等等。作者也分析了，似乎人类更擅从One-shot学习中获得知识。

5、作者对比了在CLIP模型上使用Zero-shot和Few-shot的效果，Zero-shot是直接采用自然语言描述，而Few-shot是每个类别给出一些例子图片，当Few-shot每类样本达到5以上时，才能达到与Zero-shot相同的精度。

6、使用CLIP得到的图像特征训练线形分类器，效果在27中的21个数据集上都好于SOTA的EfficientNet L2 NS模型。

7、作者提到CLIP的局限性，是只能从给定类别中选择，无法像图像描述生成任务那样输出一个类别。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CLIP解读的相关文章

强化学习奖励函数的归一化

将每个奖励分量进行归一化然后再分配权重
9月17日服务器维护,2020年09月17日维护公告

亲爱的玩家为了保证服务器的稳定和服务质量大话西游2免费版将于2020年09月17日早上8 00停机进行每周例行的维护工作维护时间为早上08 00至09 30 同时本次停机还将发布最新的客户端补丁 patch2 0 824 如果在

随机推荐

从零开始学习JavaScript：轻松掌握编程语言的核心技能③

从零开始学习JavaScript 轻松掌握编程语言的核心技能一 JavaScript条件语句 1 1 if Else 语句 1 2 if else if else 语句 1 3 switch 语句 1 4 for 循环 1 5 while
线性插值_c语言实现

这是个很简单的数学工具有的问题可能就只需要简单的数学工具就能解决线性插值线性插值法是指使用连接两个已知量的直线来确定在这两个已知量之间的一个未知量的值的方法线性插值相比其他插值方式如抛物线插值具有简单方便的特点线性插值可以
基于Zxing的二维码生成和二维码扫描

最近又在倒腾二维码发现网上的教程都不够用所以把之前整合的二维码Demo有拿出来重新添加些功能这里也算是重新学习吧当然对于二维码相信大家都很熟悉了这里就不多说本项目是基于Zxing的开源项目开发的这里用的Demo是之前网上搜的
【计算机组成原理】（四）原码补码的加减乘除

各种码的作用模运算的性质 3 1 12 9 9 0 12 9 21 1 12 9 33 2 12 9 15 2 12 9 我们发现等号右边都是 9 相当于等号的左边的数除去12的余数都是9 那我们就说这几个等好左边的数在mod12的情况
设计模式六大原则（4）：接口隔离原则

定义客户端不应该依赖它不需要的接口一个类对另一个类的依赖应该建立在最小的接口上问题由来类A通过接口I依赖类B 类C通过接口I依赖类D 如果接口I对于类A和类B来说不是最小接口则类B和类D必须去实现他们不需要的方法解决方案将臃肿
Linux Ubuntu 和CentOs 的区别

几乎所有新手刚接触 Linux 时都会被它众多的发行版本搞得一头雾水截至目前 Linux 已经有几百个发行版本 Linux 代表这自由和探索因为从技术上来说 Linux 只是一个内核内核指的是一个提供设备驱动文件系统进程管理
Qt信号槽及常见问题总结

Qt4格式 connect m oeThread Live SIGNAL SetImage QImage this SLOT GetImage QImage 带形参类型 Qt5格式 connect graphics QGraphicsVie
第7章_瑞萨MCU零基础入门系列教程之UART

本教程基于韦东山百问网出的 DShanMCU RA6M5开发板进行编写需要的同学可以在这里获取 https item taobao com item htm id 728461040949 配套资料获取 https renesas do
Content type 'application/x-www-form-urlencoded;charset=UTF-8' not supported

解决方式一 headers Content Type application json
搭建Vue开发环境以及关闭控制台提示信息（包含vue-devtools安装）

第一步到Vue官网上下载开发版本网页链接 https cn vuejs org v2 guide installation html 将下载的vue js文件拖至新建的vue项目中第二步在项目中引入vue js文件这时运行此网页
如何在iframe内部弹出浮层，浮层遮罩整个浏览器

需求说明页面内有多级iframe嵌套 iframe内部某些按钮点击后需要弹出浮层浮层需要将整个浏览器窗口遮罩且浮层位于浏览窗口中部解决思路顶层页面内预留用于显示浮层的div 命名为popdiv 且该div内有一预留的iframe
Java属性详解

属性详解一基础的属性使用方法 1 属性的定义语句 2 把一个属性定义为private的作用 3 属性的调用方法 4 属性的限制方法 5 属性值输出的语句为二构造方法的属性赋值 1 构造方法的介绍 2 带参构造方法对属性赋值 3 快捷
Vue自定义组件 Vue.component

Vue component Vue自定义组件 1 如果有朋友对Vue基础还不够了解的可以先看下官方的教程 http doc vue js com v2 guide 这个是官方的网址官方的教程还是写的简单易懂的 Component是Vue
我们问了ChatGPT几个问题，然后......

最近大家都被ChatGPT刷屏了吧据使用过的网友说只有你想不到没有ChatGPT办不成今天小T就带着几个问题和ChatGPT来场对话对话ChatGPT 聊美林数据你好你知道美林数据吗你好美林数据是一家专业从事计算机应用技
Tomcat安装配置全解

棒棒有言也许我一直照着别人的方向飞可是这次我想要用我的方式飞翔一次人生既要淡又要有味凡事不必太在意一切随缘缘深多聚聚缘浅随它去凡事看淡点看开些顺其自然无意于得就无所谓失人生看轻看淡多少痛苦就远离你多少本章
基于主机头的多虚拟主机

vim etc httpd conf d test conf
3.2 ATK-ESP8266 WIFI模块-烧录固件

ATK ESP8266 WIFI模块烧录固件一丶前期准备 1 在某宝买的ESP8266模块 2 烧录模式引脚 IO 0引脚接GND 另外一个不用接左边四个正常连接串口即可 3 烧录固件按照原子哥给的资料烧写方式有误在烧录固件
关于主键生成策略的几种方式

在复杂分布式系统中往往需要对大量的数据和消息进行唯一标识如在美团点评的金融支付餐饮酒店猫眼电影等产品的系统中数据日渐增长对数据分库分表后需要有一个唯一ID来标识一条数据或消息数据库的自增ID显然不能满足需求特别一点的如订
GDB调试精粹及使用实例

GDB调试精粹及使用实例来源不详 2006 07 14 11 18 05 一列文件清单 1 List gdb list line1 line2 二执行程序要想运行准备调试的程序可使用run命令在它后面可以跟随发给该程序的任何参
CLIP解读

CLIP Learning Transferable Visual Models From Natural Language Supervision OpenAI的CLIP这篇文章从互联网收集构建了了4亿个图片文本对的数据集对图像和文

CLIP解读

CLIP解读 的相关文章

随机推荐

热门标签

CLIP解读的相关文章