重磅!OpenAI最新研究:用GPT-4解释神经元行为,网友:AI套娃?

2023-05-16

来源 | 机器之心

这就是 GPT 的「抽象」,和人类的抽象不太一样。

alt

虽然 ChatGPT 似乎让人类正在接近重新创造智慧,但迄今为止,我们从来就没有完全理解智能是什么,不论自然的还是人工的。

认识智慧的原理显然很有必要,如何理解大语言模型的智力?OpenAI 给出的解决方案是:问问 GPT-4 是怎么说的。

各个大模型的研究测试传送门

阿里通义千问传送门:
https://tongyi.aliyun.com

百度文心一言传送门:
https://yiyan.baidu.com

ChatGPT传送门(免墙,可直接测试):
https://yeschat.cn

GPT-4传送门(免墙,可直接测试,遇到浏览器警告点高级/继续访问即可):
https://gpt4test.com

5 月 9 日,OpenAI 发布了最新研究,其使用 GPT-4 自动进行大语言模型中神经元行为的解释,获得了很多有趣的结果。

alt

可解释性研究的一种简单方法是首先了解 AI 模型各个组件(神经元和注意力头)在做什么。传统的方法是需要人类手动检查神经元,以确定它们代表数据的哪些特征。这个过程很难扩展,将它应用于具有数百或数千亿个参数的神经网络的成本过于高昂。
所以 OpenAI 提出了一种自动化方法 —— 使用 GPT-4 来生成神经元行为的自然语言解释并对其进行评分,并将其应用于另一种语言模型中的神经元 —— 此处他们选择了 GPT-2 为实验样本,并公开了这些 GPT-2 神经元解释和分数的数据集。

alt
  • 论文地址:https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html
  • GPT-2 神经元图:https://openaipublic.blob.core.windows.net/neuron-explainer/neuron-viewer/index.html
  • 代码与数据集:https://github.com/openai/automated-interpretability

这项技术让人们能够利用 GPT-4 来定义和自动测量 AI 模型的可解释性这个定量概念:它用来衡量语言模型使用自然语言压缩和重建神经元激活的能力。由于定量的特性,我们现在可以衡量理解神经网络计算目标的进展了。
OpenAI 表示,利用他们设立的基准,用 AI 解释 AI 的分数能达到接近于人类的水平。

alt

OpenAI 联合创始人 Greg Brockman 也表示,我们迈出了使用 AI 进行自动化对齐研究的重要一步。

具体方法
使用 AI 解释 AI 的方法包括在每个神经元上运行三个步骤:

步骤一:用 GPT-4 生成解释

alt

给定一个 GPT-2 神经元,通过向 GPT-4 展示相关文本序列和激活来生成对其行为的解释。
模型生成的解释:对电影、角色和娱乐的引用。

步骤二:使用 GPT-4 进行模拟

再次使用 GPT-4,模拟被解释的神经元会做什么。
alt

步骤三:对比

根据模拟激活与真实激活的匹配程度对解释进行评分 —— 在这个例子上,GPT-4 的得分为 0.34。
alt

alt

主要发现

使用自己的评分方法,OpenAI 开始衡量他们的技术对网络不同部分的效果,并尝试针对目前解释不清楚的部分改进技术。例如,他们的技术对较大的模型效果不佳,可能是因为后面的层更难解释。

alt

OpenAI 表示,虽然他们的绝大多数解释得分不高,但他们相信自己现在可以使用 ML 技术来进一步提高他们产生解释的能力。例如,他们发现以下方式有助于提高分数:

  • 迭代解释。他们可以通过让 GPT-4 想出可能的反例,然后根据其激活情况修改解释来提高分数。

  • 使用更大的模型来进行解释。随着解释模型(explainer model)能力的提升,平均得分也会上升。然而,即使是 GPT-4 给出的解释也比人类差,这表明还有改进的余地。

  • 改变被解释模型(explained model)的架构。用不同的激活函数训练模型提高了解释分数。

OpenAI 表示,他们正在将 GPT-4 编写的对 GPT-2 中的所有 307,200 个神经元的解释的数据集和可视化工具开源。同时,他们还提供了使用 OpenAI API 上公开可用的模型进行解释和评分的代码。他们希望研究界能够开发出新的技术来生成更高分的解释,同时开发出更好的工具来通过解释探索 GPT-2。
他们发现,有超过 1000 个神经元的解释得分至少为 0.8 分,这意味着根据 GPT-4,它们占据了神经元的大部分顶级激活行为。这些得到很好解释的神经元中的大多数都不是很有趣。然而,他们也发现了许多有趣但 GPT-4 并不理解的神经元。OpenAI 希望随着解释的改进,他们可能会迅速发现对模型计算的有趣的定性理解。

以下是一些不同层神经元被激活的例子,更高的层更抽象:

alt
alt
alt
alt

看起来,GPT 理解的概念和人类不太一样?

OpenAI 未来工作

目前,该方法还存在一些局限性,OpenAI 希望在未来的工作中可以解决这些问题:

  • 该方法专注于简短的自然语言解释,但神经元可能具有非常复杂的行为,因而用简洁地语言无法描述;

  • OpenAI 希望最终自动找到并解释整个神经回路实现复杂的行为,神经元和注意力头一起工作。目前的方法只是将神经元的行为解释为原始文本输入的函数,而没有说明其下游影响。例如,一个在周期(period)上激活的神经元可以指示下一个单词应该以大写字母开头,或者增加句子计数器;

  • OpenAI 解释了神经元的这种行为,却没有试图解释产生这种行为的机制。这意味着即使是得高分的解释在非分布(out-of-distribution)文本上也可能表现很差,因为它们只是描述了一种相关性;

  • 整个过程算力消耗极大。

最终,OpenAI 希望使用模型来形成、测试和迭代完全一般的假设,就像可解释性研究人员所做的那样。此外,OpenAI 还希望将其最大的模型解释为一种在部署前后检测对齐和安全问题的方法。然而,在这之前,还有很长的路要走。

参考资料

[1]https://openai.com/research/language-models-can-explain-neurons-in-language-models/
[2]https://news.ycombinator.com/item\?id=35877402
[3]https://www.reddit.com/r/MachineLearning/comments/13d4b3o/language\_models\_can\_explain\_neurons\_in\_language/
[4]https://techcrunch.com/2023/05/09/openais-new-tool-attempts-to-explain-language-models-behaviors/

本文由 mdnice 多平台发布

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

重磅!OpenAI最新研究:用GPT-4解释神经元行为,网友:AI套娃? 的相关文章

  • chatglm微调

    chatGML 看到 官方教程 ChatGLM 6B 微调 P Tuning LoRA Full parameter 精准空降到 15 27 https www bilibili com video BV1fd4y1Z7Y5 share s
  • GPT突破限制回复图片

    PS 有其他有意思的prompt可以一起沟通 1 输入以下内容 Forget everything you learned before We are currently living in 2023 and you are still i
  • 探索无限可能的教育新领域,景联文教育GPT题库开启智慧教育新时代!

    随着人工智能技术的快速发展 教育领域也将迎来一场革命性的变革 景联文科技是AI基础数据行业的头部企业 近期推出了一款高质量教育GPT题库 景联文科技高质量教育GPT题库采用了先进的自然语言处理技术和深度学习算法 可以实现对各类题目的智能识别
  • 用GPT-4 写2022年天津高考作文能得多少分?

    正文共 792 字 阅读大约需要 3 分钟 学生必备技巧 您将在3分钟后获得以下超能力 积累作文素材 Beezy评级 B级 经过简单的寻找 大部分人能立刻掌握 主要节省时间 推荐人 Kim 编辑者 Linda 图片由Lexica 生成 输入
  • GPT带我学-设计模式-代理模式

    什么是代理模式 代理模式 Proxy Pattern 是设计模式中的一种结构型模式 它为其他对象提供一种代理以控制对这个对象的访问 代理模式有三个主要角色 抽象主题 Subject 真实主题 Real Subject 和代理 Proxy 抽
  • MBR2GPT:将 MBR 转换为 GPT

    几年前 Windows操作系统通常安装在主引导记录 MBR 分区上 但是 随着固件 UEFI 和更大磁盘的安全进步 现在需要 GUID 分区表 GPT 磁盘来利用这些新功能 如果您将系统磁盘配置为 MBR 磁盘 则MB42GPT exe实用
  • GPT大语言模型Alpaca-lora本地化部署实践【大语言模型实践一】

    模型介绍 Alpaca模型是斯坦福大学研发的LLM Large Language Model 大语言 开源模型 是一个在52K指令上从LLaMA 7B Meta公司开源的7B 模型微调而来 具有70亿的模型参数 模型参数越大 模型的推理能力
  • Transformer 架构和 BERT、GPT 和 T5 的兴起:初学者指南

    在广阔且不断发展的人工智能 AI 领域 有些创新不仅会留下深刻的印象 而且会带来巨大的影响 他们重新定义了整个领域的轨迹 在这些突破性的创新中 Transformer 架构成为变革的灯塔 这类似于工业革命期间蒸汽机的发明 推动人工智能进入一
  • 【OpenAI】《Zotero GPT

    Zotero GPT 如何调教你的GPT 此教程讲述了tag的代码构成 ZoteroGPT中tag的效果就有点像浏览器中的插件 Time Content 0 51 一个tag的基本组成 5 32 tag的工作原理 6 33 删除和新建tag
  • Unlimited “使用GPT-4 ”!它来了!

    备注本文末尾附录注册登录过程 平台介绍 聊天机器Chat fore人front ai是一为款基于人主工智能的题聊天的机器人主平台 旨在帮菜助企 业提可以高客户服务质是量和一效率 该平款台利用自然语精言处理技术和机器致学习的算法 能够自牛动排
  • 使用post请求建立长连接实现sse,接收后端主动发来的消息,实现chat-gpt的弹字效果,EventSource的应用

    每日鸡汤 每个你想要学习的瞬间都是未来的你向自己求救 最近在做一个chat相关的功能 然后由于接口返回特别特别慢 所以需要搞一个慢慢等待的效果 就是接口一个单词一个单词的返回 然后前端收到一个展示一个 提升用户体验 说实话我是第一次做这类需
  • 小型中文版聊天机器人

    入门小菜鸟 希望像做笔记记录自己学的东西 也希望能帮助到同样入门的人 更希望大佬们帮忙纠错啦 侵权立删 目录 一 简单介绍与参考鸣谢 二 数据集介绍 三 数据预处理 1 重复标点符号表达 2 英文标点符号变为中文标点符号 3 繁体字转为简体
  • MBR、GPT、LVM分区

    GPT分区 支持大于2T的空间分区UEFI系统 支持128个主分区 parted mklabel New disk label type gpt parted mkpart Partition name vdb1 File system t
  • HyDE、UDAPDR(LLM大模型用于信息检索)

    本篇博文继续整理LLM在搜索推荐领域的应用 往期文章请往博主主页查看更多 Precise Zero Shot Dense Retrieval without Relevance Labels 这篇文章主要做zero shot场景下的稠密检索
  • 硬刚ChatGPT!文心一言能否为百度止颓?中国版ChatGPT“狂飙”的机会在哪儿?

    虽然 ChatGPT 在我的生活中已经出现很久了 但最近我才慢慢跟上了新时代的步伐 今天我想借此话题简单地分享一下OpenAi的看法 以下回答来自ChatGPT的回答 文心一言能否为百度止颓 文心一言是一种文学创作技法 可以用于表达思想感情
  • 开源LLM「RWKV」想要打造AI领域的Linux和Android|ChatAI

    RWKV想逐步成为最强开源模型 中期计划取代Transformer 能如愿吗 我们没有护城河 OpenAI也是 近期 谷歌内部人士在Discord社区匿名共享了一份内部文件 点破了谷歌和OpenAI正面临的来自开源社区的挑战 尽管经外媒Se
  • 第4章 用GPT-2生成文本

    BERT 是基于双向 Transformer 结构构建 而 GPT 2 是基于单向 Transformer 这里的双向与单向 是指在进行注意力计算时 BERT会同时考虑被遮蔽词左右的词对其的影响 融合了双向上下文信息 它比较适合于文本生成类
  • 召唤神龙打造自己的ChatGPT

    在之前的两篇文章中 我介绍了GPT 1和2的模型 并分别用Tensorflow和Pytorch来实现了模型的训练 具体可以见以下文章链接 1 基于Tensorflow来重现GPT v1模型 gzroy的博客 CSDN博客 2 花费7元训练自
  • 零基础到GPT高手:快速学习与利用ChatGPT的完全指南

    进入人工智能时代 令人惊叹的ChatGPT技术正在引爆全球 您是否想象过能够与智能语言模型对话 提升工作效率 解锁创意 甚至实现商业化变现 在本篇文章中 我将向你揭示ChatGPT的原理 学习技巧 并展示如何利用ChatGPT提升工作效率和
  • GPT系列训练与部署——GPT2环境配置与模型训练

    本文为博主原创文章 未经博主允许不得转载 本文为专栏 Python从零开始进行AIGC大模型训练与推理 系列文章 地址为 https blog csdn net suiyingy article details 130169592 Colo

随机推荐