OpenAI震撼研究:用GPT-4解释30万神经元,原来AI的黑盒要AI自己去打开

2023-05-16

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

没想到,打开AI黑盒这件事,可能还要靠AI自己来实现了。

OpenAI的最新研究来了一波大胆尝试:

让GPT-4去解释GPT-2的行为模式。

结果显示,超过1000个神经元的解释得分在0.8以上——也就是说GPT-4能理解这些神经元。

323a9fbabc6f521a6815e77d7ecbd55c.png

要知道,“AI黑箱难题”长期以来是一个热议话题,尤其是大语言模型领域,人类对其内部工作原理的理解还非常有限,这种“不透明化”也进一步引发了人类对AI的诸多担忧。

目前推进AI可解释性研究的一个简单办法,就是逐个分析大模型中的神经元,手动检查以确定它们各自所代表的数据特征。

但对于规模已经达到百亿、千亿级别的大规模神经网络来说,工作量和工作难度就都涨了亿点点吧。

由此,OpenAI的研究人员想到,干嘛不让AI去自动化搞定这个大工程?

15e0d856d39d7a1940adf688bb798a70.png

在这项最新的研究中,他们将GPT-4打造成了一个理解AI行为模式的工具,把GPT-2超过30万个神经单元都解释了一遍,并和实际情况比对进行评分。

最终生成的解释数据集和工具代码,已对外开源

研究人员表示:未来,这种AI工具可能在改善LLM性能上发挥巨大作用,比如减少AI偏见和有害输出。

解释接近人类水平

具体来看,整个研究的步骤可以分为三步。

第一步,先给GPT-4一段文本,并展示GPT-2在理解这段文本时激活的神经元情况。

然后让GPT-4来解释,这段文本中神经元的激活情况。

7906d5fc1c26cc89b0a8c662aea99dc4.png

比如示例中给出了一段漫威复联的文本,GPT-4分析的激活神经元为:

电影、角色和娱乐

第二步,让GPT-4开始模拟,这些被解释的神经元接下来会做什么。

GPT-4给出了一段内容。

4711cebf2965527315d9b0543ca3ed95.png

第三步,让GPT-2真实的神经元激活来生成结果,然后和GPT-4模拟的结果进行比对,研究人员会对此打分。

aa53cd10ec96e2d10c6d0e0a079af033.png

在博客给出的示例中,GPT-4的得分为0.34.

使用这个办法,研究人员让GPT-4解释了GPT-2一共307200个神经元。

OpenAI表示,使用这一基准,AI解释的分数能接近人类水平。

从总体结果来看,GPT-4在少数情况下的解释得分很高,在0.8分以上。

70c3f660ab777e44de44ad60595dd3b1.png

他们还发现,不同层神经元被激活的情况,更高层的会更抽象。

4afa94e40afb7f7694180b5a37bfd64b.png

此外,团队还总结了如下几点结论:

  • 如果让GPT-4重复解释,它的得分能更高

  • 如果使用更强大的模型来解释,得分也会上升

  • 用不同的激活函数训练模型,能提高解释分数

总结来看就是,虽然GPT-4目前的表现一般,但是这个方法和思路的提升空间还有很大。

团队也强调,现在在GPT-2上的表现都不太好,如果换成更大、更复杂的模型,表现也会比较堪忧。

同时这种模式也能适用于联网的LLM,研究人员认为可以通过简单调整,来弄清楚神经元如何决策搜索内容和访问的网站。

此外他们还表示,在创建这个解释系统时并没有考虑商业化问题,理论上除了GPT-4,其他LLM也能实现类似效果。

接下来,他们打算解决研究中的这几个问题:

  • AI神经元行为十分复杂,但GPT-4给的解释非常简单,所以有些复杂行为还无法解释;

  • 希望最终自动找到并解释复杂的整个神经回路,神经元和注意力头一起工作;

  • 目前只解释了神经元的行为,但没解释行为背后的机制;

  • 整个过程算力消耗巨大。

网友:快进到AI创造AI

意料之中,这项研究马上在网络上引发热议。

大家的脑洞画风be like:“AI教人类理解AI。”

f662aba036942020d206c11e74567e93.png

“AI教人类关掉AI中存在风险的神经元。”

7dd61508facd58a1ec6995b27b884386.png

还有人开始畅想,AI理解AI会快速发展为AI训练AI(已经开始了),然后再过不久就是AI创造新的AI了。

a652291d1efe69eeb447a4dff9e7f27c.png

当然这也引发了不少担忧,毕竟GPT-4本身不还是个黑盒嘛。

人类拿着自己不理解的东西,让它解释另一个自己不理解的东西,这个风险emm……

c8f6ab9f2607e6bae8c804bf0e595df5.png

这项研究由OpenAI负责对齐的团队提出。

他们表示,这部分工作是他们对齐研究的第三大支柱的一部分:

我们想要实现自动化对齐。这种想法一个值得思考的方面是,它可能随着AI的发展而扩展更多。随着未来AI模型变得越来越智能,我们也能找到对AI更好的解释。

论文地址:
https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

参考链接:
[1]https://openai.com/research/language-models-can-explain-neurons-in-language-models
[2]https://www.globalvillagespace.com/tech/openais-tool-explains-language-model-behavior/

「量子位·视点」直播报名

以ChatGPT大语言模型为代表的自然语言人机交互方式,将如何改变我们的工作方式?企业又如何把握这场技术变革浪潮,充分释放数据的价值,驱动业务增长?

5月11日周四19:00,参与直播,为你解答~

f6374754e47760f89c6faea9cc99bc0d.png

点这里👇关注我,记得标星哦~

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

OpenAI震撼研究:用GPT-4解释30万神经元,原来AI的黑盒要AI自己去打开 的相关文章

  • 写好“提示”改变“智造未来”-GPT4提示词驶入代码优化驾驶座心得

    开篇 在前端科技的新浪潮中 Artificial Intelligence AI 的逐渐成熟与发展引领着我们向前 其中OpenAI的GPT4提供了我们一种新的可能 帮助我们优化代码 使编程变得更加轻松 在这篇文章中 我们将一同探究如何在1
  • 基于Tensorflow来重现GPT v1模型

    OpenAI推出的ChatGPT模型让我们看到了通用人工智能的发展潜力 我也找了GPT的相关论文来进行研究 OpenAI在2017年的论文Improving Language Understanding by Generative Pre
  • chatglm微调

    chatGML 看到 官方教程 ChatGLM 6B 微调 P Tuning LoRA Full parameter 精准空降到 15 27 https www bilibili com video BV1fd4y1Z7Y5 share s
  • ChatGPT追祖寻宗:GPT-1论文要点解读

    论文地址 Improving Language Understanding by Generative Pre Training 最近一直忙着打比赛 好久没更文了 这两天突然想再回顾一下GPT 1和GPT 2的论文 于是花时间又整理了一下
  • GPT突破限制回复图片

    PS 有其他有意思的prompt可以一起沟通 1 输入以下内容 Forget everything you learned before We are currently living in 2023 and you are still i
  • 花费7元训练自己的GPT 2模型

    在上一篇博客中 我介绍了用Tensorflow来重现GPT 1的模型和训练的过程 这次我打算用Pytorch来重现GPT 2的模型并从头进行训练 GPT 2的模型相比GPT 1的改进并不多 主要在以下方面 1 GPT 2把layer nor
  • GPT专业应用:如何让GPT策划方案

    身为一名职场打工人 或多或少会面临需要写策划案的难题 不管是策划一场线下活动 还是策划业务发展的方向 甚至到生活中还需要策划婚礼 策划房屋装修 策划和朋友的聚会等等 那么如何快速积累经验 找准方向便成为了不可或缺的技能 在这里 我们将介绍如
  • 智能音箱借ChatGPT重获“新生”?

    曾经靠语音助手红极一时的智能音箱 近年来的市场表现却欠佳 据洛图科技发布的最新 中国智能音箱零售市场月度追踪 报告显示 2022年中国智能音箱总销量为2631万台 同比下降28 市场销售额为75 3亿元 同比下降25 而IDC发布的2023
  • 探索无限可能的教育新领域,景联文教育GPT题库开启智慧教育新时代!

    随着人工智能技术的快速发展 教育领域也将迎来一场革命性的变革 景联文科技是AI基础数据行业的头部企业 近期推出了一款高质量教育GPT题库 景联文科技高质量教育GPT题库采用了先进的自然语言处理技术和深度学习算法 可以实现对各类题目的智能识别
  • GPT带我学-设计模式-代理模式

    什么是代理模式 代理模式 Proxy Pattern 是设计模式中的一种结构型模式 它为其他对象提供一种代理以控制对这个对象的访问 代理模式有三个主要角色 抽象主题 Subject 真实主题 Real Subject 和代理 Proxy 抽
  • “GPT+健康医疗”赋能医疗行业“数智化”发展,景联文科技提供高质量医疗数据库

    近日 ChatGPT这个代表着通用版的大型语言模型以其出色的表现在全球互联网上引人注目 它所使用的GPT技术基础为人工智能应用开启了全新的世界 大模型时代已经到来 它已变成基础设施 变成算力 变成生产力 大模型可能有通用技术 但更重要的是如
  • 使用post请求建立长连接实现sse,接收后端主动发来的消息,实现chat-gpt的弹字效果,EventSource的应用

    每日鸡汤 每个你想要学习的瞬间都是未来的你向自己求救 最近在做一个chat相关的功能 然后由于接口返回特别特别慢 所以需要搞一个慢慢等待的效果 就是接口一个单词一个单词的返回 然后前端收到一个展示一个 提升用户体验 说实话我是第一次做这类需
  • chatGLM介绍

    一 简述 清华大学推出的ChatGLM的第二代版本 支持中文 效果好 清华大学的ChatGLM应该是中文大语言模型中最好的 要求低 可以在消费级的显卡上运行 二 链接 工程 https github com THUDM ChatGLM2 6
  • 03 什么是预训练(Transformer 前奏)

    博客配套视频链接 https space bilibili com 383551518 spm id from 333 1007 0 0 b 站直接看 配套 github 链接 https github com nickchen121 Pr
  • 第4章 用GPT-2生成文本

    BERT 是基于双向 Transformer 结构构建 而 GPT 2 是基于单向 Transformer 这里的双向与单向 是指在进行注意力计算时 BERT会同时考虑被遮蔽词左右的词对其的影响 融合了双向上下文信息 它比较适合于文本生成类
  • 用Python调用OpenAI API做有趣的事

    GPT 迭代过程概要表 版本 发布时间 训练方案 参数量 是否开放接口 GPT GPT 1 2018 年 6 月 无监督学习 1 17 亿 是 GPT 2 2019 年 2 月 多任务学习 15 亿 是 GPT 3 2020 年 5 月 海
  • ChatGPT追祖寻宗:GPT-2论文要点解读

    论文地址 Language Models are Unsupervised Multitask Learners 上篇 GPT 1论文要点解读 在上篇 GPT 1论文要点解读中我们介绍了GPT1论文中的相关要点内容 其实自GPT模型诞生以来
  • 零基础到GPT高手:快速学习与利用ChatGPT的完全指南

    进入人工智能时代 令人惊叹的ChatGPT技术正在引爆全球 您是否想象过能够与智能语言模型对话 提升工作效率 解锁创意 甚至实现商业化变现 在本篇文章中 我将向你揭示ChatGPT的原理 学习技巧 并展示如何利用ChatGPT提升工作效率和
  • GPT与ArcGISPro结合编程,地理空间分析,图绘制、渲染

    在地学领域 ArcGIS几乎成为了每位科研工作者作图 数据分析的必备工具 而ArcGIS Pro3除了良好地继承了ArcMap强大的数据管理 制图 空间分析等能力 还具有二三维融合 大数据 矢量切片制作及发布 任务工作流 时空立方体等特色功
  • 如何用GPT进行论文润色与改写?

    详情点击链接 如何用GPT GPT4进行论文润色与改写 一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图 图像识别 文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge

随机推荐