聊聊火出圈的ChatGPT

2023-10-28

前言

OpenAI 近期发布聊天机器人模型 ChatGPT,迅速火爆各大技术网站,就像一个突然激起的巨浪打破了沉寂已久的水面。它的出现无论是对人工智能的资本圈还是技术圈都感受到了春风回暖,前兔似锦的未来。

尤记得2015年谷歌开源的Tensorflow,让人们对AI的未来充满了想象,紧接着AlphaGo的各种辉煌战绩不断的挑战人们对AI的认知,但是随着能力越来越强,模型越来越大,数据、参数等暴增,导致工业落地困难,效果不好。自动驾驶虽然近期一直也被关注,但是始终也不温不火,缺少实质性的突破。这次的自然语言处理方向的爆火,确实让人眼前一亮。

那ChatGPT是什么呢,它为什么能火出圈呢?ChatGPT以对话方式进行交互,以更贴近人的对话方式与使用者互动,可以回答问题、承认错误、挑战不正确的前提、拒绝不适当的请求,能舞文弄墨、编写代码甚至几乎无所不能。据数据统计目前其MAU已破亿。

今天我们就聊聊这个新宠,看看它是怎么拥有这种魔法能力的,还有哪些问题和方案要不断演进的,资本圈如何看待这个新兴的产物。

What is ChatGPT

ChatGPT 是一种专注于对话生成的语言模型,基于 GPT3.5 通过人类反馈的强化学习微调而来。其中GPT是Generative Pre-trained Transformer(生成型预训练变换模型)的缩写。它能够根据用户的文本输入,产生相应的智能回答。这个回答可以是简短的词语,也可以是长篇大论。毫无疑问,它又强又聪明,且跟它说话很好玩,还会写代码。

OpenAI 11 月 30 号发布,首先在北美、欧洲等已经引发了热烈的讨论。随后在国内开始火起来。全球用户争相晒出自己与 ChatGPT 极具创意的交流成果。我们通过谷歌搜索指数,看其火爆程度可见一斑。

横空出世的背后

OpenAI家族

我们首先了解下OpenAI是哪路大神。

OpenAI是一个人工智能研究实验室,目的是促进和发展友好的人工智能,使人类整体受益,总部位于旧金山,由特斯拉的马斯克、Sam Altman及其他投资者在2015年共同创立,目标是开发造福全人类的AI技术。而马斯克则在2018年时因公司发展方向分歧而离开。

此前,OpenAI 因推出 GPT系列自然语言处理模型而闻名。从2018年起,OpenAI就开始发布生成式预训练语言模型GPT(Generative Pre-trained Transformer),可用于生成文章、代码、机器翻译、问答等各类内容。

GPT系列的每一代的参数和数据都是爆发式增长,追求“越大越强”的目标道路一去不复返。

OpenAI 目标之初就很远大,解决通用人工智能问题,主要涉及强化学习和生成模型。

强化学习最早被认为是实现人类通用智能重要手段,2016 年 DeepMind 开发的 AlphaGo Zero 使用强化学习训练,让人类围棋的历史经验成为了「Zero」,标志着人类向通用型的人工智能迈出了重要一步。2019 年 OpenAI 在《Dota2》的比赛中战胜了人类世界冠军。OpenAI 在强化学习有很多深入的研究,Dactyl 也是一款 OpenAI 通过强化强化学习训练能够高精度操纵物体的机器人手,OpenAI Gym 是一款用于研发和比较强化学习算法的工具包,所以 ChatGPT 中使用强化学习也是顺理成章。

曾经的创始人之一马斯克也发推称赞ChatGPT的强大。

背后的技术原理

能力提升概述

ChatGPT 整体技术方案是基于 GPT-3.5 大规模语言模型通过人工反馈强化学习来微调模型,是InstructGPT 的兄弟模型,让模型一方面学习人的指令,另一方面学习回答的好不好。

OpenAI使用 RLHF(Reinforcement Learning from Human Feedbac,人类反馈强化学习) 技术对 ChatGPT 进行了训练,且加入了更多人工监督进行微调。

此外,ChatGPT 还具有以下特征:

1)可以主动承认自身错误。若用户指出其错误,模型会听取意见并优化答案。

2)ChatGPT 可以质疑不正确的问题。例如被询问 “哥伦布 2015 年来到美国的情景” 的问题时,机器人会说明哥伦布不属于这一时代并调整输出结果。

3)ChatGPT 可以承认自身的无知,承认对专业技术的不了解。

4)更好地理解用户的提问,提升模型和人类意图的一致性,同时具备连续多轮对话能力。

指令微调

code-davinci-002 是一个基础模型,对于纯代码补全任务。这也是 ChatGPT 具备超强代码生成能力的原因。

text-davinci-002 是在 code-davinci-002 基础上训练的 InstructGPT 模型,训练策略是 instructGPT+FeedRM。

text-davinci-003 是基于 text-davinci-002 模型的增强版本,训练策略是 instructGPT+PPO。

001 模型主要是为了做纯代码 / 纯文本任务;002 模型则深度融合了代码训练和指令微调,代码和文本都行。ChatGPT 是在 text-davinci-003 基础上微调而来,这也是 ChatGPT 模型性能如此强大的核心要素。

能够响应人类指令的能力是指令微调的直接产物,对没有见过的指令做出反馈的泛化能力是在指令数量超过一定程度之后自动出现的。

人类反馈强化学习

InstructGPT/GPT3.5(ChatGPT的前身)与GPT-3的主要区别在于,新加入了被称为RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)。这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。

在InstructGPT中,以下是“goodness of sentences”的评价标准。

回应详细:text-davinci-003 的生成通常比 text-davinci-002长。ChatGPT 的回应则更加冗长

公正性:ChatGPT 通常对涉及多个实体利益的事件(例如政治事件)给出非常平衡的回答。

拒绝问题:这是内容过滤器和由 RLHF 触发的模型自身能力的结合,过滤器过滤掉一部分,然后模型再拒绝一部分。

承认能力不足:例如,拒绝在2021 年 6 月之后发生的新事件(因为它没在这之后的数据上训练过)。这是 RLHF 最神奇的部分,因为它使模型能够隐式地区分哪些问题在其知识范围内,哪些问题不在其知识范围内。

通过人的反馈数据,学习一个最能解释人类判断的奖励模型 Reward Model,然后使用 RL 来学习如何实现目标。随着人类继续提供模型无法判断时候的反馈,实现了进一步完善它对目标的理解。

局限及未来演进

1.chatGPT对算力的消耗巨大,难以达到工业级落地水平,动辄上TB的数据及参数所需要的算力和资源足够让很多公司及技术开发者望而却步,产出的模型也过大导致落地场景受限。所以想要落地工业化,模型的压缩及剪枝等势在必行。

2.chatGPT目前无法联网获取数据,但有一篇 WebGPT 论文发表于2021年12月,里面就让 GPT 调用了搜索引擎,所以检索的能力已经在 OpenAI 内部进行了测试,可以用chatGPT+webGPT组合来实现。无法联网就失去了动态信息的输入导致实时的信息无法获取,导致某些问题的答案滞后,且由于数据是2021的数据集,部分答案甚至会产生和现实世界的割裂感。

3.数理及推理能力补足,chatGPT虽然连续对话的能力强,但在部分数理场景很容易尬聊甚至胡说八道的场景。比如一些复杂的小学数学题由于chatGPT推理逻辑的权重问题难以给出正常答案,鸡兔同笼问题等。

资本追捧or怀疑?

在chatGPT出圈的时候,质疑的声音也接踵而至,所谓“人红是非多”有些技术研究员认为chatGPT并没有实质性的突破,只是目前技术的集大成者且技术落地的切入点选择的比较好,能激起大家的兴趣。但是这些也不能阻挡科技巨头和资本的追捧,chatGPT属于泛AIGC(AI Generated Content),目前这个领域是AI界投资的大热。

科技巨头争先入场,布局早的都迫不及待地发布自己的相关产品,比如谷歌的Bard,微软搜索引擎内置chatGPT,包括新秀公司Anthropic推出的Claude聊天机器人,还有国内百度即将上线的“文心一言”等,阿里、京东也马不停蹄地将chatGPT技术融入自己现有的业务场景中,有的即将完成内测。

金融市场上百度、商汤、讯飞等一众公司受资本的逐利,股价也是水涨船高,但是可以看到资本对于这次热点也是适可而止,并没有盲目赌上全部身家,而是一种更合理更冷静的方式入场。毕竟市场整体环境不景气,外部影响因素较多,像谷歌的Bard给出的错误答案可能还会变成一场灾难性的表演。

但也不能否认chatGPT确实给AI的应用市场来了一针强心剂,伴随着后续AIGC应用多点开花,商业模式进一步的探索落地,资本的入局(投资机构红杉在《Generative AI: A Creative New World》研究报告中提到,生成式AI有潜力产生数万亿美元的经济价值。国外研究机构数据显示,2022年海外投资者在AIGC赛道至少投入13.7亿美元,完成78笔交易,相当于前五年投资额之和。),让人工智能的未来可期。

题外话

chatGPT的火爆随之而来的质疑也不断,有声音说未来的工作会被AI所取代,危险的AI即将来临,甚至AI要统治世界的灭亡论都出现了,其实大可不必,尤记得几年前参加了一次AI安全攻防的讲座AI在学术界和工业界的技术在安全攻防上还有很大的发展空间,许多漏洞能让AI瘫痪,但同时也容易被黑客利用进行破坏性的活动。当然我们chatGPT本身也要不断进化,尤其是对一些敏感问题需要更严谨的回答​,减少片面的偏见性回答​。

人类应当利用AI将自己从重复性脑力劳动中解放出来,做人类应该做的事——爱、服务、探索与创造,以给生活和世界赋予意义。

微信公众号首发,欢迎各位coder关注:江湖修行,666.

参考资料:

WebGPT: Improving the Factual Accuracy of Language Models through Web Browsing

ChatGPT: Optimizing Language Models for Dialogue

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

聊聊火出圈的ChatGPT 的相关文章

随机推荐

  • 大鹏展翅_ParparVM展翅高飞

    大鹏展翅 我们写了很多关于为iOS构建的新VM的体系结构以及构建它的原因 直到最近 我们一直将其视为一种Codename One专用工具 只会对我们有用的东西 我们之所以使用开放源代码 是因为 这就是我们的方式 此后没有多加考虑 最近 我们
  • Vscode 下pip的换源方式(包括临时换源和永久换源)

    换源方式 这里我们提供两种换源的方式 临时换源 永久换源 临时换源 临时换源只需要在pip安装包时 加上一个 i参数后接源的url即可 1 临时换源 复制代码 清华源 pip3 install markdown i https pypi t
  • 若依绕过登录页访问其他自定义页面,以及自定义公众号页面账号登录后权限获取

    1 添加白名单路由path路径 2 路由路径进行配置 component resolve gt require views wxgzh Login resolve 白名单 3 公众号登录时候需要保存后端返回的token值 自定义公众号登录后
  • Launcher与普通Activity的区别

    Launcher与普通Activity的区别 分类 Android应用 2013 09 05 15 40 692人阅读 评论 0 收藏 举报 activity launcher MONKEY HOME Intent 目录 1 Intent
  • Docker笔记(十三):容器日志采集实践

    日志是服务运行过程中的一个关键环节 借助日志 我们可以排查定位问题 也可以借助集中化的日志管理平台 如ELK 来做一些必要的数据统计分析 在Docker环境中 日志的采集比传统环境更为复杂 因此了解Docker日志的管理机制 及基于此熟悉日
  • 解决Visual Studio Code 热键冲突

    因为最近很火的ChatGPT 更新了VSCode的版本 但是界面和配置有了一些变化 原来的热键也有所调整 在使用markdown的时候 enter键竟然都出现了冲突 在此记录一下操作步骤 非常简单 报错如下 command markdown
  • Python如何使用和配置Anaconda入门

    1 Anaconda介绍 Anaconda 是一款广泛使用的Python和R语言开发环境 集成了许多常用的科学计算和数据分析库 它包括conda Python解释器以及大量有用的库和工具 使得您可以更轻松地搭建Python和R的开发环境 此
  • QTP11破解无期限使用

    1 找到C ProgramData SafeNet Sentinel目录 更名或者删除 2 找到QTP11安装目录下bin子目录 如C Program Files x86 HP QuickTest Professional bin 执行in
  • 服务器PCI插槽上的固态硬盘,SSD接口详解,再也不会买错固态硬盘了

    硬盘知识科普中 我们提到了SSD的发展史虽短 但是种类和协议比HDD不知道多到哪里去了 因此 本期小编就通过接口类型 总线标准和协议标准来详细地介绍SSD 本文可能会出现很多小白都没有见过或者听过的名词 但是 对科技的探索 就是在不断学习新
  • 分享97个社区论坛PHP源码,总有一款适合你

    社区论坛 PHP源码链接 https pan baidu com s 1G4mtEKq7jPCG74ArOUwhLQ 提取码 484u 分享97个社区论坛PHP源码 总有一款适合你 下面是文件的名字 我放了一些图片 文章里不是所有的图主要是
  • 【openeuler 21.3】Linux硬盘分区、更改/home目录挂载空间及root目录扩容

    简介 公司使用的服务器的硬盘用的是RAID阵列 装openeuler系统时总共划分了两个阵列组 因为系统目前只使用了一个硬盘阵列 现在打算将一个阵列用作系统盘 将系统默认分配给home目录的空间分配给 目录提升 目录空间 另一个阵列全数用作
  • XML 学习笔记(基础)

    XML文件不区分大小写
  • C# 窗体大小运行时已固定,但是运行和实际Form.CS的不一样

    在属性找到AutoSizeMode 改为GrowAndShrink即可
  • 数据结构与算法之二叉排序树的增加,删除,遍历

    顺序二叉树 子树的左节点小于子树节点 子树的右节点大于子树节点 和子树相同大小的节点可在左也可在右一般不提倡出现相同大小的节点 优点 数组遍历快而插入删除效率不高 链表插入删除效率高 而遍历效率不高 而二叉排序树在遍历和插入删除效率都较高
  • 详解Unicode和JavaScript字符编码

    Unicode Unicode 又称万国码 统一码和国际码 是由统一码联盟制定的一套规范统一的字符编码集 其设计意图是将世界上所有字符都包含在其中 它使用特定的十六进制编号来表示字符 每一个特定十六进制编号统称为码点 也叫码位 用 U 紧接
  • java数组基础详解

    目录 java数组基础详解 一 引言 二 声明数组 三 初始化数组 3 1 静态初始化 3 2 动态初始化 四 访问数组元素 五 遍历数组 六 分析数组内存 七 数组常见异常 7 1 索引越界异常ArrayIndexOutOfBoundsE
  • 题10:神奇的回文串

    回文串 acbca 1212 package 字符串问题 public class case10 神奇的回文串 public static void main String args boolean res isPalindrome abc
  • Philcoin如何提高在宗教方面和当地社区的影响力

    Philcoin如何提高在宗教方面和当地社区的影响力 Philcoin的规模正在快速增长 在短短几周内 社区成员已经超过了10万 并且还在呈指数增长 Philcoin的宗旨是将慈善带到偏远的地方 这具有很大的挑战性 我们知道需要更多伙伴加入
  • 2023.9.8 基于传输层协议 UDP 和 TCP 编写网络通信程序

    目录 UDP 基于 UDP 编写网络通信程序 服务器代码 客户端代码 TCP 基于 TCP 编写网络通信程序 服务器代码 客户端代码 IDEA 打开 支持多客户端模式 UDP 特点 无连接性 发送端和接收端不需要建立连接也可相互通信 且每个
  • 聊聊火出圈的ChatGPT

    前言 OpenAI 近期发布聊天机器人模型 ChatGPT 迅速火爆各大技术网站 就像一个突然激起的巨浪打破了沉寂已久的水面 它的出现无论是对人工智能的资本圈还是技术圈都感受到了春风回暖 前兔似锦的未来 尤记得2015年谷歌开源的Tenso