AI「领悟」有理论解释了!谷歌:两种脑回路内部竞争,训练久了突然不再死记硬背...

2023-11-16

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌PAIR团队不久前撰文介绍了AI的“领悟” (Grokking)现象——

训练久了突然不再死记硬背,而是学会举一反三,有了泛化能力。

不出一个月,另一只团队(主要成员来自DeepMind)表示,已经给出一个通用理论解释——

领悟又称延迟泛化,与AI内部两种“脑回路”的竞争有关。

b7886034dc2c2e5e4ad8c1a91be7f816.png

对此,有学者评价“我们需要更多这种对深度学习物理规律的研究,而不是去优化炼金术。”

6a1cc8f3781fa20954a25143b0eabc48.png

AI的两种脑回路

在先前的研究中,发现在“领悟”现象的作用下,就算只有5-24个神经元的模型也能拥有泛化能力。

23a23b3c974b857ce99362b36bac3c33.gif

新研究沿用了这种构建最小示例,以及大量做可视化的方法。

基于OpenAI在2020年一项对神经网络内部机制之间相互作用的研究,团队假设并验证了模型内部有两种算法回路(Circuits)。

  • 记忆回路Cmem,训练时表现很好,但测试时表现不佳。

  • 泛化回路Cgen,训练和测试阶段表现都好。

通过改变数据集的大小和权重衰减的强度做实验来观察。

当训练数据集增大时,Cmem回路的参数范数也更大,也就是在靠记忆的方式去存储训练集需要的信息量。

f8ac62620008dd0218923582ca9ad4c3.png

但Cgen的参数范数不随训练集大小变化,也就是获得了类似“举一反三”的泛化能力

80be02f22c02045d1d5dbad899f38512.png

那么,在什么条件下模型会发生整体的“领悟”现象呢?

来自两种回路的之间竞争

在训练初期,直接死记硬背的速度更快,Cmem占据上风。

但随着数据的增加,在梯度下降的作用下效率更高的Cgen会被加强。

f9a0606fa5d59e2f63f0075478527c17.png

也就是说,存在两种不同的回路、他们之间有效率差和学习速度差是导致领悟发生的三大要素。

8a5f722f29a64cb1d7ab0f38692f48a9.png

重新思考泛化

在更进一步的实验中,团队还根据这个理论成功演示了在一定条件下,已经“领悟”的模型也可以退化,出现“逆领悟”

在新的小数据集上继续训练已领悟的模型时,测试精度突然变差,也就是在泛化之后的过拟合。

0810203fc465119b9e6425ad3c10f1c9.png

也可以精心调整出一个“半领悟”状态。

当数据集的大小刚好在一个临界值,让Cmem和Cgen的效率相当,只对部分测试精度出现延迟泛化。

37161db7f4404fca39120d97cba5767e.png

团队认为,这种基于回路效率的分析为理解神经网络的泛化提供了一种新的视角。

10f09cd78b3b77c9f23afbcbf50a7be9.png

同时也提出了一些后续研究方向。

如为什么领悟所需的时间随数据集大小的减小呈超指数级增长?为什么Cgen回路的学习速度慢?为什么在没有权重衰减的情况下也会发生grokking?为什么在典型的机器学习训练中没有领悟现象?……

评论区有学者认为,研究这些基础问题并不需要成千上万块H100。

GPU贫民也有机会为整个领域做出贡献。

91b6ba948c62b9dad03fc2beca968273.png

论文地址:
https://arxiv.org/abs/2309.02390

参考链接:
[1]https://x.com/VikrantVarma_/status/1699823229307699305
[2]https://pair.withgoogle.com/explorables/grokking/

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「广告营销」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

041c6496c0fbb280447fb5c937d53680.png

点这里

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

AI「领悟」有理论解释了!谷歌:两种脑回路内部竞争,训练久了突然不再死记硬背... 的相关文章

随机推荐

  • Spring+Mybatis 查询所有数据时发生异常:org.apache.ibatis.reflection.ReflectionException: There is no getter for

    Spring Mybatis框架整合时 根据条件查询数据 发生异常 Caused by org apache ibatis reflection ReflectionException There is no getter for prop
  • JavaScript分支语句总结

    注 js变量算术运算符和逻辑运算符知识点的补充 1 的区别 表示值相等 表示值相等 数据类型也必须相等 案例 的区别 表示值相等 表示值相等 数据类型也必须相等 var x 10 var y 10 console log x y true
  • 图像降质

    1 逆滤波和维纳滤波 附Matlab完整代码 https blog csdn net weixin 41730407 article details 80455612 2 python 运动模糊 退化模型 点扩散函数 逆滤波与维纳滤波 ht
  • GG-CNN代码学习

    文章目录 1 源码网址 https github com dougsm ggcnn 2 数据集格式转化 下载后的康奈尔数据集 解压完之后里面的格式 里面的 tiff图像通过 txt文件转化得到 python m utils dataset
  • layui 数据表格 sort排序,filter过滤——soulTable

    1 效果图 2 页面代码 div class fp table style margin left 0 5 width 86 table style margin bottom 0px table div 3 js代码 引入扩展组件 lay
  • 【学vue跟玩一样】快速搞懂vue渲染

    Vue的渲染分为条件渲染和列表渲染 那究竟什么式渲染呢 1 条件渲染 1 v if写法 1 v if 表达式 2 v else if 表达式 3 v else 表达式 和我们曾经学过的JavaScript里面的if语句几乎一样 适用于 切换
  • Quartz misfire详解

    一 前言 最近在学习Quartz 看到misfire这一部分 发现官方文档上讲解的很简单 没有看明白 然后去搜索了一下网上的讲解 发现讲的也都大同小异 也没有看明白 最后只能自己动手做测试 总结了一下 这篇文章把自己总结的记录下来 方便自己
  • 使用 HEX 参数在 Python 中实现六边形图像的显示数据关系

    使用 HEX 参数在 Python 中实现六边形图像的显示数据关系 在数据可视化中 六边形图被广泛应用于显示多元数据之间的关系 本文将介绍如何使用 Python 中的 hex 参数来设置六边形图像 并展示如何使用这种方法来显示数据的关系 首
  • Spring Boot —— Security 控制按钮权限

    文章目录 Spring Boot Security 控制按钮权限 前言 实现 引入对应的依赖 配置标签 Spring Boot Security 控制按钮权限 前言 在freemarker中 通过Security根据用户角色控制页面按钮或菜
  • win8.1仅允许运行使用网络级别身份认证的远程桌面计算机连接,使用Win10通过Mstsc远程连接 Server 2012 R2 时出现 身份验证错误,要求的函数不受支持,这可能是由于CredSSP...

    使用Win10通过Mstsc远程连接 Server 2012 R2 时出现 身份验证错误 要求的函数不受支持 这可能是由于CredSSP加密Oracle修正 最终解决方法 原因 因为CVE 2018 0886 的 CredSSP 2018
  • unity shader 之基础四 数学

    4 2 笛卡尔坐标系 笛卡尔坐标系分为二维和三维坐标系 4 2 1二位坐标系 OpenGL 和 DirectX 二位坐标系是不同的 OpenGL 和 DirectX 是不同的图形访问接口 用来和硬件交互的 二维坐标系 是可以相互转换的 既
  • 【经典】centos 安装 mysql

    CentOS第一次安装MySQL的完整步骤 目录 1 官方安装文档 2 下载 Mysql yum包 3 安转软件源 4 安装mysql服务端 5 首先启动mysql 6 接着检查mysql 的运行状态 7 修改临时密码 7 1 获取MySQ
  • [转] 英文写作中分号和冒号的使用

    我们先来了解下分号和冒号的作用 分号的主要作用是来连接两个在语法上平等的成分 冒号的主要作用是引起读者对冒号后面内容的注意力 下面总结下规则 用分号的情况 1 用分号连接两个独立的句子 两个独立的句子不能够用逗号隔开 如果用逗号 必须逗号后
  • idea忽略.iml文件

    1 点击file文件下的设置中 2 点下file types 文件类型 进入到file types窗口 如图 然后点击忽略文件那添加需要忽略的类型
  • 自用HTML+CSS学习笔记

    HTML CSS学习笔记 1 Web标准 Web标准也称为网页标准 由一系列的标准组成 大部分由W3C World Wide Web Consortium 万维网联盟 负责制定 由三个组成部分 HTML 负责网页的结构 页面元素和内容 CS
  • IT的教育

    IT的教育 李颜芯 CSDN的网友大家好 欢迎大家收看这一起的CSDN视频访谈节目 今天我们请到了两位嘉宾 一位是 金旭亮 老师 一位是 金戈 老师 两位老师作一下自我介绍怎么样 金旭亮 我先介绍一下吧 我叫金旭亮是北京理工大学的讲师 我在
  • 怎样把pdf转换成word-多语言ocr支持

    http jingyan baidu com article 86fae34699bb4e3c49121a23 html PDF格式良好的视觉阅读性和通用性使得PDF文件的使用越来越广泛了 网络上的PDF资料也越来越多 但是我们往往想要提出
  • 【大屏】 amap + echarts 踩坑以及避免办法

    amap echarts 踩坑以及避免办法 大屏 踩坑 代码 大屏 html body container margin 0 padding 0 width 5376px height 1944px background color 000
  • softmax用于分类问题/逻辑回归

    参考 d2l 线性回归问题最后输出一个参数用于预测 多分类问题最后输出多个维度的数据 多少个output channels就有多少个类别 softmax是一种激活函数 它常见于分类问题的最后一层激活函数 目的是让输出属于一个概率密度函数 我
  • AI「领悟」有理论解释了!谷歌:两种脑回路内部竞争,训练久了突然不再死记硬背...

    梦晨 发自 凹非寺量子位 公众号 QbitAI 谷歌PAIR团队不久前撰文介绍了AI的 领悟 Grokking 现象 训练久了突然不再死记硬背 而是学会举一反三 有了泛化能力 不出一个月 另一只团队 主要成员来自DeepMind 表示 已经
Powered by Hwhale