小扎亲自官宣Meta视觉大模型！自监督学习无需微调，多任务效果超OpenCLIP丨开源...

2023-11-12

萧箫发自凹非寺
量子位 | 公众号 QbitAI

无需文字标签，完全自监督的Meta视觉大模型来了！

小扎亲自官宣，发布即收获大量关注度——

在语义分割、实例分割、深度估计和图像检索等任务中，这个名叫DINOv2的视觉大模型均取得了非常不错的效果。

甚至有超过当前最好的开源视觉模型OpenCLIP之势。

虽然此前Meta就发布过自监督学习视觉大模型DINO，不过这次AI识别图像特征的能力显然更进一步，准确分割出了视频中的主体：

可别以为DINOv2通过自监督学会的只有图片分割。事实上，它已经能根据不同类别、不同场景下的照片，准确识别出同种物体（狗）的头部、身体和四肢长在哪：

换而言之，DINOv2自己学会了找图像特征。

目前Meta官方不仅已经放出了开源代码，而且还给了网页版Demo试玩。有网友内涵：

什么叫开源，LLaMA，SAM，DINOv2这才叫开源！

一起来看看，DINOv2的效果究竟如何。

准确识别不同画风的同种物体

事实上，DINOv2是基于上一代DINOv1打造的视觉大模型。

这个模型参数量是10亿级，也仍然是视觉Transformer架构（ViT），但与DINO不太一样的是，这次DINOv2在数据集上经过了精心挑选。

具体来说，DINOv2构建了一个数据筛选pipeline，将内容相似的图片精心筛选出来，同时排除掉相同的图片：

最终呈现给DINOv2的训练数据图片虽然没有文字标签，但这些图片的特征确实是相似的。

采用这类数据训练出来的视觉模型，效果如何？

这是DINOv2在8个视觉任务上的表现，包括语义分割、分类、深度估计等，其中橙色是自监督方法的效果，深粉色是弱监督方法的效果。

可以看见，经过自监督学习的视觉模型，表现上已经与经过弱监督学习的模型性能相当。

实际效果也不错，即便在一系列照片中，相同物体的画风并不相似，DINOv2也能准确识别它们的特征，并分到相似的列表中。

如（a）组中都具有翅膀的鸟和飞机、（b）组中的大象和大象雕塑、（c）组中的汽车和汽车玩具模型、（d）组中的马和涂鸦版马：

而且从PCA（主成分分析）图像效果来看，DINOv2不仅能准确分类，还能用不同颜色标出它们“相同”的部分，例如象鼻都是绿色、车轮都是红色、马的尾巴是黄色等。

换而言之，DINOv2能理解这些图像中的相似之处，就像人会形容飞机“看起来像一只鸟”一样。

目前DINOv2已经放出Demo，我们也试了试它的实际效果。

Demo直接可玩

官网已经开放语义分割、图像检索和深度估计三大功能的试玩。

据Meta介绍，这几个任务中，DINOv2在大多数基准上超过了目前开源视觉模型中表现最好的OpenCLIP。

我们先来看看深度估计的效果。

值得一提的是，在效果更好的情况下，DINOv2运行的速度也比iBOT更快，相同硬件下只需三分之一的内存，运行速度就能比DINOv2快上2倍多。

这是Meta论文中与OpenCLIP在实际例子上的比较效果：

我们用这张猛男版新宝岛试一下，看起来还不错，即使是高糊图片也能比较好地估计出深度：

接下来是语义分割的效果，这里也先给出Meta论文中的数据对比情况：

这里也给出OpenCLIP和DINOv2的对比，中间的图片是OpenCLIP的效果，右边是DINOv2分割的效果：

我们也用一张办公室的图片试了一下，看起来DINOv2还是能比较准确地分割人体、物体的，但在细节上会有一些噪点：

最后是图片检索。

官网上给出的图片效果还是挺不错的，输入铁塔照片，可以生成不少含铁塔的相似艺术图片：

这里我们也试了试，输入一张华强买瓜，给出来的艺术图片大多数与西瓜有关：

那么，这样的自监督视觉大模型可以用在哪里？

从Meta给出的视频来看，目前有一些比较环保的用途，例如用于估计全球各地的树木高度：

除此之外，如同扎克伯格所说，DINOv2还能被用于改善医学成像、粮食作物生长等。当然这里小扎还进一步强调：

可以被用于制作更具沉浸感的元宇宙。

嗯，看来Meta的元宇宙路线还将继续……

试玩Demo地址：
https://dinov2.metademolab.com/demos

项目地址：
https://github.com/facebookresearch/dinov2

参考链接：
https://www.facebook.com/zuck/posts/pfbid02f3chCYQphfYnzRaDXeJxsT5EmyhbrFsjqLaU31KuTG63Ca4yMXFcDXQcukYPbWUMl

— 完 —

《中国AIGC算力产业全景报告》征集启动

AIGC算力需求爆发，谁将在此次算力产业变革中脱颖而出？

量子位《中国AIGC算力产业全景报告》和《最值得关注的AIGC算力玩家》正式启动对外征集，期待有更多优秀的机构产品、案例与技术能够被大众看到。

点这里

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

学习

人工智能

计算机视觉

深度学习

机器学习

小扎亲自官宣Meta视觉大模型！自监督学习无需微调，多任务效果超OpenCLIP丨开源... 的相关文章

用CHAT分析高校体育智慧教学体系构建与探索研究现状

CHAT回复现阶段高校体育智慧教学体系的构建与探索研究还处于初级阶段但全球数字化转型大潮的推动下一些较为前沿的研究和实践已经开始出现 1 教学平台的建设很多高校已经开始尝试使用在线教育平台进行体育教学把传统的面对面授课模式转变为

打造完美人像，PixCake像素蛋糕助您一键修图

您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰是否曾经想要打造出完美的自拍照却不知道该如何下手现在我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件

msyql 异常，别干着急，70%的问题都在这里！

2024软件测试面试刷题这个小程序永久刷题靠它快速找到工作了刷题APP的天花板 CSDN博客文章浏览阅读2 3k次点赞85次收藏11次你知不知道有这么一个软件测试面试的刷题小程序里面包含了面试常问的软件测试基础题 web自

多模态、长文本、智能体，智谱AI推出GLM-4模型全家桶，发布即上线！

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入 2024年01月16日智谱AI首届技术开放日 Zhipu DevDay 在北京中关村国家自主创新示范区展示中心成功举办现场智谱AI团队全面展示了其投身于大模型事业三年多来所

毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校

【毕业设计选题】复杂背景下的无人机(UVA)夜间目标检测系统 python 人工智能深度学习

前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生级别难度的对本科同学来说是充满挑战为帮助大家顺利通过和节省时间

无人机视角、多模态、模型剪枝、国产AI芯片部署

无人机视角多模态模型剪枝国产AI芯片部署是当前无人机技术领域的重要研究方向其原理和应用价值在以下几个方面进行详细讲述一无人机视角无人机视角是指在无人机上搭载摄像头等设备通过航拍图像获取环境信息并进行图像处理和分析这种技术

作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初

不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶

独家 | 鸿蒙（HarmonyOS）开发详细学习笔记免费分享

前言华为宣布将在1月18日在北京上海杭州南京成都厦门武汉长沙 8 大城市同时召开大会届时将揭秘鸿蒙生态和 HarmonyOS NEXT 进阶新篇章简单的来说就是纯血鸿蒙系统即将彻底揭晓鸿蒙系统自推出来以来就一

AI在保护环境、应对气候变化中的作用

对于AI生命周期数据领域的全球领导者而言暂时搁置我们惯常的AI见解和AI生命周期数据内容产出来认识诸如世界地球日这样的自然环境类活动日似乎是个奇怪的事情我们想要知道数据是否真的会影响我们的地球环境简而言之是确实如此但作为一

主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类

蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现

开始弃用NeRF？为什么Gaussian Splatting在自动驾驶场景如此受欢迎？（浙江大学最新）...

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述文章首先回顾了3D Gaussian的原理和应用借着全面比较了3D GS在静态

基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据

为什么我强烈推荐大学生打CTF！

前言写这个文章是因为我很多粉丝都是学生经常有人问感觉大一第一个学期忙忙碌碌的过去了啥都会一点但是自己很难系统的学习到整个知识体系很迷茫想知道要如何高效学习这篇文章我主要就围绕两点减少那些罗里吧嗦的废话直接上干货 CTF如

深度学习(5)--Keras实战

一 Keras基础概念 Keras是深度学习中的一个神经网络框架是一个高级神经网络API 用Python编写可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计用户友好性模块化和可扩

Cortex-M3与M4权威指南

处理器类型所有的ARM Cortex M 处理器是32位的精简指令集处理器它们有 32位寄存器 32位内部数据路径 32位总线接口除了32位数据 Cortex M处理器也可以有效地处理器8位和16位数据以及支持许多涉及64位数据的操作

【js学习之路】遍历数组api之 `filter `和 `map`的区别

一前言数组是我们在项目中经常使用的数据类型今天我们主要简述作用于遍历数组的api filter 和 map 的区别二 filter和map的共同点首先我们主要阐述一下 filter 和 map 的共同点 api的参数都是回调函数

肿瘤的转录调控：Cell子刊揭示原发性肝癌中转录因子活性的全基因组图谱|国自然热点

转录调控的研究历史比较长相关研究在近十年来仍一直增长也是近年来高分文章的焦点之一在2023年最佳国自然中标研究热点转录调控中标率高达189 作为国自然热点之一的肿瘤微环境的研究在近几年也一直处于上升趋势转录调控在肿瘤发生发展

随机推荐

Contest3032 - 计科2101~2104算法设计与分析上机作业03

目录问题 A 质数问题 B 分治法求解全排列问题问题 C 数的计数问题 D 最大公共子序列问题问题 E 分解式的个数问题 F 矩阵最优连乘问题问题 A 质数题目描述判断给定的一组正整数是否为质数输入第一行为测试数据的个

linux创建新用户

只需要四步就能创建一个新的linux用户 1 打开终端快捷键Ctrl Alt T 2 创建用户和密码 sudo useradd m aaa 创建用户名为aaa的用户 m 自动建立用户的登入目录 sudo是允许系统管理员让普通用户执行roo

在地址栏里输入一个地址回车会发生哪些事情

解析URL 首先会对 URL 进行解析分析所需要使用的传输协议和请求的资源的路径如果输入的 URL 中的协议或者主机名不合法将会把地址栏中输入的内容传递给搜索引擎如果没有问题浏览器会检查 URL 中是否出现了非法字符如果存在非法

libev学习系列之四：ev_loop事件循环

libev学习系列之四 ev loop事件循环版本说明版本作者日期备注 0 1 ZY 2019 5 31 初稿目录文章目录 libev学习系列之四 ev loop事件循环版本说明目录一前言二描述三例子一前言

tensorflow（十七）关于tensorboard网络运行时参数的查看

关于tensorboard网络运行时查看参数主要包括网络的权值和偏差

[学习笔记-opencv篇]ubuntu系统下运行opencv自带双目标定+立体匹配程序

ubuntu系统下运行opencv自带双目标定立体匹配双目标定立体匹配找了很多opencv自带双目标定的资料发现大多数都是使用vs opencv或matlab运行的也可能是找的还不够参考了一些资料写了个cmake 然后一通操

机械革命深海幽灵z2学习电脑系统史

目录前言第一次蓝屏第一次接触重装系统装Linux系统 Linux16 04版本与显卡1060不兼容问题 windows与linux双系统问题 Linux学习售后自己重装系统换主板没有我修不好的电脑键盘故障再次蓝屏重装系

[精华]uniapp微信授权登录,

转载一微信授权登录转载二 uniapp页面速成提效工具 uniapp uview ui 可视化完全自由拖拽一键生成flex代码网站 http aicode shagua wiki uni index html 十大特性 1 可视化

Unity屏幕坐标转UI局部坐标

RectTransformUtility ScreenPointToLocalPointInRectangle https docs unity cn cn 2019 2 ScriptReference RectTransformUtili

在C语言多维数组a[3][2]中的a[2]代表的是什么意思

一开始我以为a 2 是等价与a 2 0 也就是第三行的第一个元素后来发现错误 a 2 是等价与 a 2 其值是第二行的首地址 a 2 0 等价于 a 2 个人认为可以把二位数组的数组名理解成一个二维指针解运算一次放的是地址行地址解

08:js逆向---压缩技术

可以看到了变的参数只有一个 toke 接下来解决toke 直接搜索通过window Rohr Opt reload函数加密 reqUrlAndParams是在上面生成的进去函数里面看 iP reload function jv jv最初

Win10家庭版远程桌面工具RDP Wrapper

由于win10家庭版官方不支持使用远程控制mstsc工具所以使用RDP Wrapper可以解决该问题软件环境如下不止当前版本经过验证在21H2版本上依旧可行如果嫌弃阅读文章浪费时间可以直接下载打包好的压缩文件直接替换就可以使用

C语言实现扫雷游戏（进阶篇）

C语言实现扫雷游戏基础篇的链接在下面 https blog csdn net m0 73676323 article details 129357113https blog csdn net m0 73676323 article de

【华为OD机试c++】优选核酸检测点【2022 Q4 A卷

华为OD机试题目列表 2023Q1 点这里 2023华为OD机试刷题指南点这里题目描述张三要去外地出差需要做核酸需要在指定时间点前做完核酸请帮他找到满足条件的核酸检测点给出一组核酸检测点的距离和每个核酸检测点当前的人数给

语义分割损失函数

这里面有几个损失函数 GitHub MichaelFan01 STDC Seg Source Code of our CVPR2021 paper Rethinking BiSeNet For Real time Semantic Segm

Hadoop学习笔记(1)

原文 http www cnblogs com zjfstudio p 3859704 html Hadoop学习笔记 1 菜鸟入门 Hadoop是什么先问一下百度吧百度百科一个分布式系统基础架构由Apache基金会所开发用户可以

一文说清产品经理、项目经理、产品负责人的区别

以下为译文原文链接 https nealcabage com product vs project vs program management 太多的团队无法区分Product Manager Product Owner Program

SSD 之OP预留空间

SSD上的OP指的是用户不可操作的容量大小为实际容量减去用户可用容量 OP区域一般被用于优化操作如 WL GC和坏块映射等 OP一般分三层见下图第一层容量固定为SSD标称容量的7 37 这是因为标称容量采用千进制为单位而NAND颗粒

并行编程——OpenMP

文章目录并行机体系结构并行机体系结构及通信机制并行程序设计方法设计模型 openmp 基础 OpenMp简介在VS中启用OpenMP OpenMp并行编程模型 OpenMp 存储模型支持条件编译并行化控制编译制导功能指令

小扎亲自官宣Meta视觉大模型！自监督学习无需微调，多任务效果超OpenCLIP丨开源...

萧箫发自凹非寺量子位公众号 QbitAI 无需文字标签完全自监督的Meta视觉大模型来了小扎亲自官宣发布即收获大量关注度在语义分割实例分割深度估计和图像检索等任务中这个名叫DINOv2的视觉大模型均取得了非常不错的效果

热门标签

本地上传

文件图片上传

有刷电机驱动

电子电路设计与分析

读参考文献总结

ESP32CAM开发

模拟链表

蓝牙模块怎么使用

前端框架react

umi

工具软件经验

3d学习

窗口大小

etcd排错

免密钥

Microwrt

网址服务器不稳定

Linuxenv

07shell

小扎亲自官宣Meta视觉大模型！自监督学习无需微调，多任务效果超OpenCLIP丨开源...

萧箫 发自 凹非寺量子位 | 公众号 QbitAI

准确识别不同画风的同种物体

Demo直接可玩

小扎亲自官宣Meta视觉大模型！自监督学习无需微调，多任务效果超OpenCLIP丨开源... 的相关文章

随机推荐

热门标签

萧箫发自凹非寺
量子位 | 公众号 QbitAI