CLIP解读

2023-11-04

CLIP:Learning Transferable Visual Models From Natural Language Supervision

OpenAI的CLIP这篇文章,从互联网收集构建了了4亿个图片-文本对的数据集,对图像和文本通过编码器提取的Embedding使用对比学习方式训练,得到对齐的图像&文本Embedding,并用在Zero-shot学习任务中。训练好的模型开源在:https://github.com/openai/CLIP

论文分享了作者一些观点:

1、不采用图像生成文本的方式,是因为生成方法计算量大,运算速度慢,作者做过生成的尝试,需要大一个数量级的计算量才能和对比法得到相似的效果。

2、从头训练,不适用任何预训练好的图像、语言模型。在数据规模足够大的情况下,使用ViT(Vision Transformer)效果优于ResNet、EfficientNet这些CNN网络,并且计算量更小,训练速度更快。

3、训练时直接对一个batch中的图像、文本embedding计算余弦距离作为logits,使用交叉熵损失。推理时,将预先设置的一些类别的自然语言描述加入提示模板中,例如“这是一张{XXX}的照片”,生成对应的文本Embedding,通过余弦距离做分类。另外作者发现,描述文字越具体,推理分类效果越好,比如“这是一张{XXX}的照片,是一类宠物”,或“这是一只大型{XXX}的照片”。

4、CLIP Zero-shot效果在ImageNet图像分类任务上,甚至超过了全监督训练的同等规模的ResNet、EfficientNet。使用CLIP方法进行Zero-shot推理,在27个不同数据集上进行分类任务,其中16个效果优于在ResNet50做监督训练。作者通过27个数据集的错误分析发现,CLIP方法对以名词为中心的目标分类效果特别好,效果较差的是一些复杂、抽象的图像,例如卫星拍摄图像、淋巴结肿瘤图像、识别最近距离的车等等。作者也分析了,似乎人类更擅从One-shot学习中获得知识。

5、作者对比了在CLIP模型上使用Zero-shot和Few-shot的效果,Zero-shot是直接采用自然语言描述,而Few-shot是每个类别给出一些例子图片,当Few-shot每类样本达到5以上时,才能达到与Zero-shot相同的精度。

6、使用CLIP得到的图像特征训练线形分类器,效果在27中的21个数据集上都好于SOTA的EfficientNet L2 NS模型。

7、作者提到CLIP的局限性,是只能从给定类别中选择,无法像图像描述生成任务那样输出一个类别。

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

CLIP解读 的相关文章

随机推荐

  • 从零开始学习JavaScript:轻松掌握编程语言的核心技能③

    从零开始学习JavaScript 轻松掌握编程语言的核心技能 一 JavaScript条件语句 1 1 if Else 语句 1 2 if else if else 语句 1 3 switch 语句 1 4 for 循环 1 5 while
  • 线性插值_c语言实现

    这是个很简单的数学工具 有的问题可能就只需要简单的数学工具就能解决 线性插值 线性插值法 是指使用连接两个已知量的直线来确定在这两个已知量之间的一个未知量的值的方法 线性插值相比其他插值方式 如抛物线插值 具有简单 方便的特点 线性插值可以
  • 基于Zxing的二维码生成和二维码扫描

    最近又在倒腾二维码 发现网上的教程都不够用 所以把之前整合的二维码Demo有拿出来重新添加些功能 这里也算是重新学习吧 当然对于二维码 相信大家都很熟悉了 这里就不多说 本项目是基于Zxing的开源项目开发的 这里用的Demo是之前网上搜的
  • 【计算机组成原理】(四)原码补码的加减乘除

    各种码的作用 模运算的性质 3 1 12 9 9 0 12 9 21 1 12 9 33 2 12 9 15 2 12 9 我们发现等号右边都是 9 相当于等号的左边的数除去12的余数都是9 那我们就说这几个等好左边的数 在mod12的情况
  • 设计模式六大原则(4):接口隔离原则

    定义 客户端不应该依赖它不需要的接口 一个类对另一个类的依赖应该建立在最小的接口上 问题由来 类A通过接口I依赖类B 类C通过接口I依赖类D 如果接口I对于类A和类B来说不是最小接口 则类B和类D必须去实现他们不需要的方法 解决方案 将臃肿
  • Linux Ubuntu 和CentOs 的区别

    几乎所有新手刚接触 Linux 时 都会被它众多的发行版本搞得一头雾水 截至目前 Linux 已经有几百个发行版本 Linux 代表这自由和探索 因为 从技术上来说 Linux 只是一个内核 内核指的是一个提供设备驱动 文件系统 进程管理
  • Qt信号槽及常见问题总结

    Qt4格式 connect m oeThread Live SIGNAL SetImage QImage this SLOT GetImage QImage 带形参类型 Qt5格式 connect graphics QGraphicsVie
  • 第7章_瑞萨MCU零基础入门系列教程之UART

    本教程基于韦东山百问网出的 DShanMCU RA6M5开发板 进行编写 需要的同学可以在这里获取 https item taobao com item htm id 728461040949 配套资料获取 https renesas do
  • Content type 'application/x-www-form-urlencoded;charset=UTF-8' not supported

    解决方式一 headers Content Type application json
  • 搭建Vue开发环境以及关闭控制台提示信息(包含vue-devtools安装)

    第一步 到Vue官网上下载开发版本 网页链接 https cn vuejs org v2 guide installation html 将下载的vue js文件拖至新建的vue项目中 第二步 在项目中引入vue js文件 这时运行此网页
  • 如何在iframe内部弹出浮层,浮层遮罩整个浏览器

    需求说明 页面内有多级iframe嵌套 iframe内部某些按钮点击后需要弹出浮层 浮层需要将整个浏览器窗口遮罩 且浮层位于浏览窗口中部 解决思路 顶层页面内预留用于显示浮层的div 命名为popdiv 且该div内有一预留的iframe
  • Java属性详解

    属性详解 一 基础的属性使用方法 1 属性的定义语句 2 把一个属性定义为private的作用 3 属性的调用方法 4 属性的限制方法 5 属性值输出的语句为 二 构造方法的属性赋值 1 构造方法的介绍 2 带参构造方法对属性赋值 3 快捷
  • Vue自定义组件 Vue.component

    Vue component Vue自定义组件 1 如果有朋友对Vue基础还不够了解的可以先看下官方的教程 http doc vue js com v2 guide 这个是官方的网址 官方的教程还是写的简单易懂的 Component是Vue
  • 我们问了ChatGPT几个问题,然后......

    最近大家都被ChatGPT刷屏了吧 据使用过的网友说 只有你想不到 没有ChatGPT办不成 今天小T就带着几个问题 和ChatGPT来场对话 对话ChatGPT 聊美林数据 你好 你知道美林数据吗 你好 美林数据是一家专业从事计算机应用技
  • Tomcat安装配置全解

    棒棒有言 也许我一直照着别人的方向飞 可是这次 我想要用我的方式飞翔一次 人生 既要淡 又要有味 凡事不必太在意 一切随缘 缘深多聚聚 缘浅随它去 凡事看淡点看开些 顺其自然 无意于得 就无所谓失 人生 看轻看淡多少 痛苦就远离你多少 本章
  • 基于主机头的多虚拟主机

    vim etc httpd conf d test conf
  • 3.2 ATK-ESP8266 WIFI模块-烧录固件

    ATK ESP8266 WIFI模块 烧录固件 一丶前期准备 1 在某宝买的ESP8266模块 2 烧录模式引脚 IO 0引脚接GND 另外一个不用接 左边四个 正常连接串口即可 3 烧录固件 按照原子哥给的资料 烧写方式有误 在烧录固件
  • 关于主键生成策略的几种方式

    在复杂分布式系统中 往往需要对大量的数据和消息进行唯一标识 如在美团点评的金融 支付 餐饮 酒店 猫眼电影等产品的系统中 数据日渐增长 对数据分库分表后需要有一个唯一ID来标识一条数据或消息 数据库的自增ID显然不能满足需求 特别一点的如订
  • GDB调试精粹及使用实例

    GDB调试精粹及使用实例 来源 不详 2006 07 14 11 18 05 一 列文件清单 1 List gdb list line1 line2 二 执行程序 要想运行准备调试的程序 可使用run命令 在它后面可以跟随发给该程序的任何参
  • CLIP解读

    CLIP Learning Transferable Visual Models From Natural Language Supervision OpenAI的CLIP这篇文章 从互联网收集构建了了4亿个图片 文本对的数据集 对图像和文