LeCun、田渊栋参与撰写,70页「自监督学习」大全

2023-05-16

来源 | 机器之心  微信号:almosthuman2014

「关于自监督学习,你想知道但又不敢问的一切都在这里了。」图灵奖得主、Meta 人工智能首席科学家 Yann LeCun 刚刚发了这样一则推文。

在推文中,LeCun 介绍了他和 Meta 人工智能研究院研究员、研究经理田渊栋等人共同撰写的一份「Cookbook」(非常实用、可操作性强、就像一本菜谱一样的论文)。这本 Cookbook 总共 70 页,涵盖了自监督学习的定义、重要性、起源、家族、训练部署方法、扩展方法等方面知识,是一份不可多得的学习材料。「如果你想研究自监督学习,那最好看看这本书。」田渊栋补充说。

论文链接:https://arxiv.org/pdf/2304.12210v1.pdf

自监督学习可以被看作是机器学习的一种「理想状态」,模型直接从无标签数据中自行学习,无需标注数据。它主要是利用辅助任务(pretext task)从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。自监督学习的优势在于它能够利用大量的无标签数据进行训练,而不需要人工标注。这样可以节省大量的人力和时间成本,并且可以利用更多的数据进行训练,从而提高模型的性能。

众所周知,Yann LeCun 一直是自监督学习的积极支持者。近几年,Meta 发表了一系列关于自监督学习的论文。LeCun 坚定地认为,自监督学习是 AI 系统的必要前提,它可以帮助 AI 系统构建世界模型,以获得类似人类的能力,如理性、常识,以及将技能和知识从一个环境迁移到另一个环境的能力。GPT-4 的成功有力地证明了自监督学习的有效性。不过,Yann LeCun 并不看好 GPT 家族所采用的自回归方法(预测下一个词),而是更倾向于构建「世界模型」。

这份 Cookbook 在社交媒体上受到了广泛好评。

自监督学习是什么?为什么如此重要?

2021 年,Yann LeCun 等人发布了一篇题为「Self-supervised learning: The dark matter of intelligence」的博客。在博客中,他们把自监督学习(SSL)称为「智能的暗物质」,认为这是推进机器学习的一条有前途的道路。

自监督学习(SSL)是深度学习在自然语言处理领域取得成功的基础,它带来了从自动机器翻译到在网络规模的无标签文本语料库上训练的大型语言模型的进步。在计算机视觉方面,它推动了数据规模的新边界,如在 10 亿张图像上训练的 SEER 模型。用于计算机视觉的 SSL 方法已经能够媲美或在某些情况下超过在标记数据上训练的模型,甚至在 ImageNet 等竞争激烈的基准上也是如此。SSL 也被成功地应用于其他模态,如视频、音频和时间序列。

自监督学习定义了一个基于无标签输入的辅助任务,以产生描述性的、可理解的表示。在自然语言中,一个常见的 SSL 目标是掩盖文本中的一个词并预测周围的词。这种预测一个词周围的上下文的目标鼓励模型捕捉文本中的词之间的关系,而不需要任何标签。同样的 SSL 模型表示可用于一系列下游任务,如跨语言的文本翻译、总结,甚至是生成文本,以及其他许多任务。在计算机视觉中,类似的目标存在于 MAE 或 BYOL 学习等模型中,以预测图像或表征中被遮蔽的内容块。其他 SSL 目标鼓励同一图像的两个视图,例如通过添加颜色或裁剪形成,以映射到类似的表示。

在大量无标签数据上进行训练的能力带来了许多好处。传统的监督学习方法是在一个特定的任务上进行训练,而这个任务通常是基于可用的标记数据而预先知道的,SSL 则是在许多任务中学习有用的通用表征。SSL 在医学等领域特别有用,因为这些领域的标签成本很高,或者具体的任务不能事先知道。也有证据表明,SSL 模型可以学习到对对抗性例子、标签损坏和输入扰动更稳健的表征,而且与有监督的模型相比更公平。因此,SSL 是一个越来越受关注的领域。然而,就像烹饪一样,训练 SSL 的方法是一门精致的艺术,有很高的入门门槛。

为什么要编写自监督学习的 Cookbook

虽然研究人员熟悉 SSL 的许多组件,但成功训练 SSL 的方法涉及从辅助任务到训练超参数的一系列令人眼花缭乱的选择。SSL 研究具有很高的进入门槛,包括:

1、计算成本高;

2、缺乏完全透明的论文来详细说明充分实现 SSL 潜力所需的复杂实现;

3、缺乏统一 SSL 的专业词汇和理论观点。

由于 SSL 建立了与传统的基于重建的无监督学习方法 —— 如(去噪、变分)自编码器 —— 不同的范式,因此我们在统一框架下理解 SSL 的词汇量是有限的。事实上,在单一框架下统一 SSL 方法的尝试直到去年才开始出现 。因为没有一个共同的基础来描述 SSL 方法的不同组成部分,研究人员着手研究 SSL 方法变得更具挑战性。与此同时,SSL 研究迫切需要新的研究人员加入,以将其部署到现实世界中。然而,关于 SSL 泛化性的保证、公平性以及对对抗性攻击甚至自变体的稳健性,仍然存在许多未解之谜。这些问题对于 SSL 方法的可靠性至关重要。

此外,由经验驱动的 SSL 带有许多可变的部分(主要是超参数),它们是可能会影响最终表示的关键属性,而且在已发表的工作中不一定有详细的说明。也就是说,要开始研究 SSL 方法,首先必须详尽地对这些方法进行经验探究,以充分掌握所有这些部件的影响和行为。这种经验盲点有很大的局限性,因为它们需要大量的计算资源和预先存在的实践经验。总而言之,SOTA 的性能来自于看似不同但又重叠的方法,现有的理论研究很少,而这类模型在现实世界中的部署又很广泛。因此,我们需要一本统一这项技术及其有关方法的 cookbook。这对降低 SSL 的研究门槛至关重要。

研究人员的目标是以 cookbook 的形式奠定 SSL 研究的基础,并呈现与 SSL 有关的最新方法,从而降低 SSL 研究的门槛。

比如要成功烹饪,你必须首先学习基本技术:切碎、炒菜等。研究者从第 2 章开始使用通用词汇介绍自监督学习的基本技术。具体来说,他们描述了系统的方法以及理论线索,以统一的视角连接它们的目标。研究者们在概念框中突出显示出关键的概念,例如 loss terms 或 training objectives。

接下来,「厨师们」必须学会熟练地应用这些技术来形成「美味的菜肴」,这需要学习现有的食谱,组合食材并评估菜肴。在第 3 章中,研究人员介绍了成功实现 SSL 方法的实际注意事项,讨论了常见的训练方法,包括超参数选择、如何组装网络架构和优化器等组件,以及如何评估 SSL 的方法。

他们还分享了一些优秀的研究人员关于常见训练配置和躲避陷阱的实用技巧。希望这本 cookbook 能成为大家成功训练和探索自监督学习的实践基础。

更多细节请参见原论文。

参考链接:https://zhuanlan.zhihu.com/p/66063089

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

LeCun、田渊栋参与撰写,70页「自监督学习」大全 的相关文章

  • Github访问加速方法记录

    由于各种各样的原因 xff0c 在国内访问Github的速度非常慢 一般clone的速度只有几十k s的速度 xff0c 稍微大一点的工程基本无法clone xff0c 于是需要使用各种方式来加速访问Github的速度 使用代理 使用代理的
  • 姿态篇:四.非线性最小二乘与飞控传感器校准

    深入浅出多旋翼飞控开发 姿态篇 四 非线性最小二乘与飞控传感器校准 Github 作者 xff1a Sky 前言 搞好了传感器 xff0c 那意味着飞控已经完成了一半 不用猜了 xff0c 这句话正是鄙人说的 飞控的软硬件相关工作 xff0
  • 概述篇:二.多旋翼飞控技术综述

    深入浅出多旋翼飞控开发 概述篇 二 多旋翼飞控技术综述 Github 作者 xff1a Sky 要学习多旋翼飞控 xff0c 第一步得先弄清楚飞控的整体框架和大致工作流程 xff0c 对飞控有了一个整体的认识之后 xff0c 我们再逐步去学
  • 【深入浅出多旋翼飞控开发】系列教程

    针对飞控初学者编写的一系列教程 xff0c 可配合开源飞控项目 xff1a 天穹飞控一起学习 xff0c 效率更高 目录 概述篇 一 多旋翼飞控发展史 二 多旋翼飞控技术综述 预备篇 一 元器件选型及飞控电路设计 二 飞控代码下载与编译 三
  • Cortex-M4和Cortex-M7中的SIMD指令

    SIMD指令简介 单指令多数据流 xff0c 即SIMD xff08 Single Instruction xff0c Multiple Data xff09 指一类能够在单个指令周期内同时处理多个数据元素的指令集 xff0c 利用的是数据
  • 天穹地面站——专为飞控研发而生

    一 简介 天穹地面站是本人为开源飞控项目 天穹飞控专门开发的一个上位机软件 xff0c 针对飞控的研发与调试而设计 一直以来 xff0c 我都为没有一个适合飞控开发的上位机软件而发愁 xff0c 国内大部分爱好者们所使用的相关软件 xff0
  • 预备篇:二.飞控代码下载与编译

    深入浅出多旋翼飞控开发 预备篇 二 飞控代码下载与编译 开源飞控交流 xff1a 562983648 Github 因论坛关闭 xff0c 迁移该文章至博客 系统环境 xff1a WIN7 WIN8 WIN10 编译工具 xff1a Kei
  • 预备篇:一.元器件选型及飞控电路设计

    深入浅出多旋翼飞控开发 预备篇 一 元器件选型及飞控电路设计 Github 要让飞控程序跑起来 xff0c 首先我们得要有一个硬件实体 xff0c 也就是我们的飞控板 说实话 xff0c 飞控电路可以很简单 xff0c 单纯由几个简单的元器
  • 使用VSCode打造APM飞控的编译+烧录+调试一体的终极开发环境

    日期 xff1a 2019 05 08 前言 APM xff08 Ardupilot xff09 和PX4是当今世界上最为流行和活跃的两大开源飞控软件项目 xff0c 它们均在Linux下基于gcc编译工具链开发 xff0c 对于那些习惯与
  • “做好大数据测试,我是认真的!”

    阿里妹导读 xff1a 大数据已然是当下的重要课题 xff0c 大大小小的企业在重视大数据的同时 xff0c 也渐渐重视大数据质量的问题 阿里巴巴测试开发专家小郅 xff0c 今天会分享他对数据测试的系统性思考 文章内容架构清晰 xff0c
  • Docker(一)虚拟机安装Docker

    一 安装Docker 官方镜像 Docker现在的版本分为Docker CE 社区版 和Docker EE 企业版 由于历史版本的原因 在我们安装现在版本Docker的时候 如果之前的Linux已经安装了Docker 那么最好先删除了之后再
  • linux Ubuntu 连不上新Putty 连接出错解决办法

    1 首先检验linux系统是否安装了ssh server 在终端中输入 xff1a ssh localhost 若出现 xff1a ssh connect to host localhost port 22 Connection refus
  • git子仓库管理使用(添加子仓库,删除子仓库,更新子仓库)

    背景 项目中经常使用别人维护的模块 xff0c 在git中使用子模块的功能能够大大提高开发效率 使用子模块后 xff0c 不必负责子模块的维护 xff0c 只需要在必要的时候同步更新子模块即可 例如一个使用了子仓库的代码库 xff0c 如何
  • 串口发送数据,只接收到00的原因之一

    1 环境 xff1a STM32F103RCT6 KEIL 5 2 现象 xff1a 不管我发送任何类型的数据 xff0c 在串口助手上显示接收到的都是00 xff0c 我头很大 xff0c 去网上找了别人的代码对比检查 终于 xff0c
  • Eclipse常用技巧总结

    关于eclipse的使用方面 xff0c 其实有些东西都是小技巧的东西 xff0c 知道了后 xff0c 对编程会带来很大的方便 一 老是使用鼠标操作 xff0c 有的功能要点好多次鼠标 xff0c eclipse都有哪些热键呢 xff1f
  • 新学期flag-适合每个人的专业课

    在果壳上看了各学科入门书籍推荐这个帖子 xff0c 决定自己好好扩展一下自己的眼界 xff0c 开启一个伟大的阅读计划 xff1a 1 师从天才 作者 美 罗伯特 卡尼格尔 出版社 上海科技教育出版社 评语 sunfield推荐 xff08
  • Android指纹识别,看这一篇就够了

    在Android6 0 xff08 Api23 xff09 的时候 xff0c Android系统加入了指纹识别的api接口 xff0c 即FingerprintManager xff0c 定义了最基础的指纹识别接口 不过 xff0c 在A
  • 集成学习——机器学习(周志华)

    集成学习 目录 xff1a 个体和集成BoostingBagging与随机森林 Bagging随机森林 综合策略 平均法投票法学习法 多样性 误差 分歧分解多样性度量多样性增强 内容 xff1a 个体和集成 集成学习是通过构建并结合多个学习
  • 15-[LVI-SAM]分析总结

    2021SC 64 SDUSC LVI SAM分析总结 这是我的LVI SAM代码分析的最后一篇 在这一篇 xff0c 我会做一个总结 xff0c 对我前面的Blog做一个综述 xff0c 分享在分析的过程中 xff0c 我的收获 文章目录
  • Java编程思想个人读后感

    今天又拿起了Java编程思想啃了起来 xff0c 前段时间看了二十来章 xff0c 但感觉心静不下来 xff0c 有许多知识没有消化 xff0c 所以昨天又从第一章开始学起 xff0c 这次也不强加自己一天要学一两章 xff0c 也觉得那样

随机推荐