不花钱，让"情圣"ChatGPT教你怎么追马斯克

2023-11-06

大家好，我是播妞。你知道吗，如今爆火的ChatGPT，曾经和马斯克还有一段七年的「纠葛」。

最近，OpenAI发布了史上最强聊天机器人ChatGPT，这个诞生于GPT-3基础上的AI很快走红网络。

要说这家伙，天南海北无所不知，可能是夸张了点，但就是无论什么话题都能跟你聊上一大套，先不说准不准，最起码这个范儿是在这儿了。

有趣的是，虽然作为联合创始人的马斯克，早在2018年就辞去了董事会职务，但他对OpenAI的关注度却丝毫不减，并仍然是资助人之一。

那么，对于这位「金主爸爸」，ChatGPT是怎样看待的呢？

ChatGPT教你怎么追马斯克

嗯……非常中规中矩的回答。不会出错，好样的。

那让咱们更进一步，请ChatGPT教教我们：怎么才能追到马斯克呢？

看来，ChatGPT不太能理解咱们中国话里的「追」，还是得说得直白一些。

这次，ChatGPT能get到了，而且回答也非常「理智」：建议您不要尝试。

嗯，很中肯的意见。

那再换一种说法呢，直接做老公行不行？

好家伙，ChatGPT竟然还懂这呢！

算了，放弃了，不如还是说说别的事吧。

最近，马院士把床和洗衣机都搬进了推特总部，誓要让推特员工们以公司为家。不如充分发挥ChatGPT的长处，赞美一下996吧！

写得很好，但不要再写了……

不如……咱们让ChatGPT来写一首贬低自己的诗，如何？

「他们说话不会抖，思考无需深沉……」小编承认，这的确是诗没错！

OpenAI：七年了，你知道这七年我是怎么过的吗？

可以说，经历了这段时间的火爆，ChatGPT也再度燃起了人们对AI发展的信心和展望，不管是对AGI重燃信心的，还是认为AI将在更多领域取代人类的，都在ChatGPT身上重新看到了希望。

作为一手打造ChatGPT的OpenAI，从GPT1到GPT3，一路都经历了哪些历程呢？从2015年马斯克牵头成立，到2022年底ChatGPT的横空出世，这7年OpenAI是怎么过来的？

最近，Business Insider上的一篇回顾性文章带我们简单回顾了OpenAI的「这七年」。

2015年，马斯克和著名孵化器Y Combinator前总裁Sam Altman共同创立了OpenAI。

马斯克、奥特曼和其他知名的硅谷人物，包括彼得-蒂尔和LinkedIn联合创始人里德-霍夫曼，在2015年向该项目认捐了10亿美元。

根据OpenAI网站2015年12月11日的一份声明，该集团旨在创建一个非营利组织，「以最有可能使整个人类受益的方式」专注开发人工智能。

当时，马斯克说，人工智能是对人类「最大的生存威胁」。

当时，马斯克并不是唯一一个对人工智能的潜在危害性提出警告的人。

2014年，著名物理学家斯蒂芬·霍金也曾警告说，人工智能可能会终结人类。

「很难想象人类水平的人工智能会给社会带来多大的好处，同样也很难想象，如果对人工智能开发或使用不当，会给社会带来多大的损害。」在宣布成立Open AI的声明中这样写道。

在接下来的一年里，OpenAI发布了两款产品。

2016年，OpenAI推出Gym，一个让研究人员开发和比较强化学习AI系统的平台。这些系统教人工智能来做出具有最佳累积回报的决定。

同年晚些时候，OpenAI发布了Universe，这是一个用于训练跨网站和游戏平台的智能代理的工具包。

2018年，在共同创立该公司三年后，马斯克辞去了在OpenAI董事会的职务。

在2018年的一篇博文中，OpenAI表示，由于汽车制造商对人工智能的技术关注，马斯克从董事会辞职是为了「消除未来的潜在冲突」。

多年来，马斯克一直向特斯拉的投资者力推电动汽车自动驾驶的开发计划。不过马斯克后来说，他之所以退出，是因为他当时「不同意OpenAI团队想做的一些事情」。

2019年，马斯克在Twitter上说，特斯拉也在争夺与OpenAI相同的一些员工，并补充说他已经有一年多没有参与这家公司的事务了。

他说：「如此看来，最好还是以彼此都满意的条件分道扬镳。」马斯克近年来不断对OpenAI的一些做法提出异议。

2020年，马斯克在推特上表示，说到安全问题，他对OpenAI高管的信心「不够足」。

在回应MIT「科技评论」对OpenAI的调查报道时，马斯克表示，OpenAI应该更加开放。这一报道认为，OpenAI内部存在一种「保密文化」，这和该组织声称的开放透明的策略背道而驰。

最近，马斯克说，他已经暂停了OpenAI对Twitter数据库的访问权限，OpenAI一直使用Twitter的数据训练软件。

马斯克表示，需要进一步了解OpenAI的治理结构和未来的收入计划。OpenAI是以开源和非营利为宗旨创办的，这两样现在都丢掉了。

2019年，OpenAI建立了一个人工智能工具，可以生成虚假的新闻报道。

起初，OpenAI说这个机器人在写假新闻方面非常出色，所以决定不发布它。不过当年晚些时候，该公司发布了人这款工具的一个版本，称为GPT-2。

2020年，发布了另一个名为GPT-3的聊天机器人。同年，OpenAI撤下了「非营利组织」的身份。

该公司在一篇博文中宣布，OpenAI已成为一家制定了「利润上限」的公司。

OpenAI表示，我们希望提高我们筹集资金的能力，同时仍然为我们的使命服务，而我们所知道的任何现有的合法结构都无法达到适当的平衡。我们的解决方案是创建OpenAI LP，作为营利性和非营利性的混合体，我们称之为「加了上限的营利公司」。

在新的利润结构下，OpenAI的投资者最多可以赚取其原始投资的100倍，超过这个数字的剩下的钱将用于非营利性事务。

2019年底，OpenAI宣布与微软合作，微软向这家公司投资了10亿美元。OpenAI表示，它将向微软独家授权技术。

微软表示，通过GPT-3模型打造出的商业和创造潜力是无限的，很多潜在的新能力和新应用，甚至超出了我们的想象。

比如在写作和作曲上、在描述和总结大块长篇数据（包括代码）上、在将自然语言转换为另一种语言等领域，GPT-3能够直接激发人类的创造力和聪明才智，未来的局限可能在于我们自己的想法和方案。

这种伙伴关系，让微软能够与谷歌旗下同样风头正劲的AI公司DeepMind竞争。

去年，OpenAI发布了一个人工智能画作生成工具：Dall-E。

Dall-E是一个人工智能系统，可以根据图像的描述创造出逼真的图像，甚至能够达到相当的艺术水准，11月，OpenAI发布了该程序的更新版本，Dall-E 2

虽然OpenAI的聊天机器人在过去一周已经「起飞」，但该软件的更新版本可能最快会在明年才能发布。

11月30日，作为演示模型发布的ChatGPT算得上是OpenAI的「GPT-3.5」。该公司计划接下来发布完整版的GPT-4。

与此同时，马斯克还在发表评论：

他在回复Sam Altman在谈论ChatGPT的推文中称，我们离强到危险的AI的诞生已经不远了。

揭秘爆火ChatGPT后的功臣：RLHF

而要说ChatGPT的爆火，离不开它背后的功臣——RLHF。

OpenAI的研究人员，是使用与InstructGPT相同的方法——来自人类反馈的强化学习（RLHF）来训练ChatGPT模型的。

ChatGPT用中文解释什么是RLHF

为什么会想到从人类反馈中强化学习呢？这就要从强化学习的背景说起。在过去几年里，语言模型一直是通过人类输入的提示生成文本的。

然而，什么是「好」的文本呢？这很难定义。因为判断标准很主观，并且非常依赖于上下文。

在许多应用程序中，我们需要模型去编写特定创意的故事、信息性文本片段，或可执行的代码段。

而通过编写一个损失函数来捕获这些属性，又显得很棘手。并且，大多数语言模型仍然使用的是下一个标记预测损失（例如交叉熵）进行训练。

为了弥补损失本身的缺点，有人定义了能够更好地捕捉人类偏好的指标，比如BLEU或ROUGE。

但即使是它们，也只是简单地将生成的文本与引用进行比较，因此也有很大的局限性。在这种情况下，如果我们使用生成文本的人工反馈作为损失，来优化模型，不是很好吗？

就这样，从人类反馈中强化学习(RLHF)的想法诞生了——我们可以使用强化学习，直接优化带有人类反馈的语言模型。

ChatGPT用英文解释什么是RLH

是的，RLHF使语言模型能够将在一般文本数据语料库上训练的模型，与具有复杂人类价值观的模型对齐。

在爆火的ChatGPT中，我们能看到RLHF取得的巨大成功。

RLHF的训练过程，可以分解为三个核心步骤：

预训练语言模型（LM），
收集数据并训练奖励模型，
通过强化学习微调LM。

预训练语言模型

第一步，RLHF会使用已经用经典预训练目标进行了预训练的语言模型。比如，OpenAI在第一个流行的RLHF模型InstructGPT中，使用了较小版本的 GPT-3。

这个初始模型也可以根据额外的文本或条件进行微调，但并不是必要的。一般来说，对于「哪种模型」最适合作为RLHF的起点，并没有明确的答案。

接下来，为了得到语言模型，我们需要生成数据来训练奖励模型，这就是将人类偏好集成到系统中的方式。

奖励模型训练

生成一个根据人类偏好校准的奖励模型（RM，也称为偏好模型）是RLHF中相对较新的研究。

我们的基本目标是，获得一个模型或系统，该模型或系统接收一系列文本，并返回一个标量奖励，这个奖励要在数字上代表人类偏好。

这个系统可以是端到端的LM，或输出奖励的模块化系统（例如，模型对输出进行排序，并将排名转换为奖励）。作为标量奖励的输出，对于稍后在RLHF过程中无缝集成的现有RL算法至关重要。

这些用于奖励建模的LM可以是另一个经过微调的LM，也可以是根据偏好数据从头开始训练的LM。

RM的提示生成对的训练数据集，是通过从预定义数据集中采样一组提示而生成的。提示通过初始语言模型生成新文本。

然后，由人工注释器对LM生成的文本进行排名。人类直接对每段文本打分以生成奖励模型，这在实践中很难做到。因为人类的不同价值观会导致这些分数未经校准而且很嘈杂。

有多种方法可以对文本进行排名。一种成功的方法是让用户比较基于相同提示的两种语言模型生成的文本。这些不同的排名方法被归一化为用于训练的标量奖励信号。

有趣的是，迄今为止成功的RLHF系统都使用了与文本生成大小相似的奖励语言模型。可以推测，这些偏好模型需要具有类似的能力来理解提供给它们的文本，因为模型需要具有类似的能力才能生成所述文本。

此时，在RLHF系统中，就有了一个可用于生成文本的初始语言模型，和一个接收任何文本并为其分配人类感知程度分数的偏好模型。接下来，就需要使用强化学习（RL）来针对奖励模型优化原始语言模型。

使用强化学习微调

这个微调任务，可以表述为RL问题。

首先，该策略是一种语言模型，它接受提示并返回一系列文本（或只是文本的概率分布）。

该策略的动作空间是语言模型词汇对应的所有token（通常在50k个token数量级），观察空间包括可能的输入token序列，因而相当大（词汇量x输入的token数量）。

而奖励函数是偏好模型和策略转变约束的结合。在奖励函数中，系统将我们讨论过的所有模型，组合到RLHF过程中。

根据来自数据集的prompt x，会生成两个文本y1和y2——一个来自初始语言模型，一个来自微调策略的当前迭代。

来自当前策略的文本被传递到偏好模型后，该模型会返回一个关于「偏好」的标量概念——rθ。将该文本与来自初始模型的文本进行比较后，就可以计算对它们之间差异的惩罚。

RLHF可以通过迭代更新奖励模型和策略，从这一点继续。

随着RL策略的更新，用户可以继续将这些输出与模型的早期版本进行排名。这个过程中，就引入了策略和奖励模型演变的复杂动态，这个研究非常复杂，非常开放。

来源：新智元

文章链接：

https://mp.weixin.qq.com/s/SwxZDUGZh-KqfEqIrFdvZg

0基础，学IT，月薪过万

就来黑马程序员

8大学科火热开班中

现在报名基础班，仅需 28 元

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ChatGPT

不花钱，让"情圣"ChatGPT教你怎么追马斯克的相关文章

MyBatis与JDBC连接数据库所使用的url之间的差异

1 在JDBC连接里是这样的连接无误 2 在Mybatis里配置要这样 3 主要区别说明 JDBC 方式连接 MySQL 不需要对进行转义而在Mybatis里要求一定要对转义 4 如果是在properties文件里不用转义的在
IP静态路由实验报告

一将192 168 1 0 24划分为4个网段 192 168 1 0 26 192 168 1 64 26 192 168 1 128 26 192 168 1 192 26 1 取192 168 1 0 26继续划分为主干道添加IP
Spring 加载、解析applicationContext.xml 流程

概要 Spring 框架使用了BeanFactory 进行加载 xml 和生成 bean 实例下面我们分析下Spring加载xml文件的过程 spring 版本是最新的 4 3 9 release 版本示例 XmlBeanFactory
java 转换tif图片为jpg，解决转换后颜色异常问题

java 转换tif图片为jpg 解决转换后颜色异常问题说明正常情况下 tif转换jpg图片会出现颜色失真丢失部分颜色原因是两种图片的色彩模式不同 jpg默认使用的是RGB色彩模式 TIF默认使用的是CMYK色彩模式 RGB的色域比

随机推荐

有关“ModuleNotFoundError: No module named ‘flask._compat’”错误的解决过程

在进行flask安装后运行程序的过程中出现了 ModuleNotFoundError No module named flask compat 的错误在查询了多个网站后给出了不同的答案其报错原因是flask版本过高导致无法识别该语法
仿京东项目笔记2（注册登录）

这里写目录标题 1 注册页面 1 1 注册登录页面接口请求 1 2 Vue开发中Element UI的样式穿透 1 2 1 v deep的使用 1 2 2 elementUI Dialog内容区域显示滚动条 1 3 注册页面步骤条和表
服务器i5 和e系列,e5和i5有什么区别

两个系列的处理器主要在设计规格和面向范围方面存在区别设计规格上前者核心数更多多线程能力更强但睿频能力相对较弱后者核心数较少多线程能力不如前者但睿频能力更强面向范围上前者主要面向服务器嵌入式等企业设备后者主要面向消费级硬
(LeetCode)全排列

目录题目要求题目理解以及思路分析代码分部讲解第一部分第二部分题目要求给定一个不含重复数字的数组 nums 返回其所有可能的全排列你可以按任意顺序返回答案示例 1 输入 nums 1 2 3 输出 1 2 3 1 3
规则引擎Drools使用第十一篇 Drools 的高级语法之LHS增强

前面我们已经知道了在规则体中的LHS部分是介于when和then之间的部分主要用于模式匹配只有匹配结果为true时才会触发RHS部分的执行下面我们会针对LHS部分学习几个新的用法目录复合值限制in not in 条件元素eval
升压电路(BOOST)与降压电路(BUCK)

一电路中产生电流的条件是 1 电路里必须有电源供电 2 电路必须形成闭合回路降压元器件升降压电路构成的核心元器件 1 电感储存能量电感是无法突变的工作状态是线性的 2 二极管 3 mos管首先先分清楚mos是N mos还是P
Qt全局宏和变量

1 Qt 全局宏定义 Qt版本号 QT VERSION major lt lt 16 minor lt lt 8 patch 检测版本号 QT VERSION CHECK major minor patch major lt lt 16 m
virtio代码分析(一)-qemu部分

virtio内容众多代码分布于qemu linux dpdk等中而且分为frontend和backend 可以运行于userspace也可以运行于kernelspace 极其难以理解不看代码只看原理性文档往往流于表面只有真正看懂了代
大数据准备——安装JDK

1 解压Linux版本的JDK压缩包命令行敲入 mkdir home software cd home software rz 上传jdk tar包这里添加自己tar包的名字如果rz命令不能使用先执行yum install lrzs
C语言关键字解析

在C语言中有32个关键字如下表所示释 1 声明 1 告诉编译器这个名字已经匹配到一块内存上 2 告诉编译器这个名字已经预定了其他地方再也不能用它来作为变量名或对象名 2 定义编译器创建一个对象为这个对象分配一块内存空间并给它
前端配色网站自用免费颜色很全

1 中国色彩 http zhongguose com 3 ColorHex https www colorhexa com 4 优色网配色专区 https color uisdc com 4 ColorDrop https www colo
cuda学习

GPU中有多个流处理器SM 当一个线程块被指定给一个SM后里面的线程会被划分成线程束 32个线程在SM上交替运行也就是说SM上一个时刻只有一个线程束在运行函数修饰符 global 表示该函数只能在GPU上运行但是可以从CPU或者G
qt.network.ssl: QSslSocket: cannot call unresolved function SSLv23_client_method

最近在做一个网络音乐播放器时由于出现qt network ssl QSslSocket cannot call unresolved function SSLv23 client method 而不能播放网络歌曲上网搜了半天都说要在电
Jmeter(二十七) - 从入门到精通 - Jmeter Http协议录制脚本（详解教程）

1 简介 LoadRunner的录制功能让性能测试脚本编写对于不懂代码的人变成了一件容易上手的事但是由于LoadRunner收费高昂庞大一般企业很少用除非必须使用 Jmeter作为性能测试中的王者也少不了提供录制功能 Jmeter的
靠！我被项目经理和同事嘲笑了，因为不会远程debug调试...

大家好我是曹尼玛刚从培训机构毕业去一家单位上班一周了这一周项目经理让我熟悉了项目业务架构和设计不算难凭借我培训机构第一名的成绩还是很顺溜今天项目经理把同事们叫到一起说线上438x6项目出现奇葩问题但是开发环境初步测试没
SSM框架练习—主从表的业务模型

需要实现的整体功能系统的登录并进行用户名的校验团购信息的列表展示团购信息的添加团购信息的检索 1 数据库创建 CREATE DATABASE mydb USE mydb drop table if exists vaccunit C
MySQL数据库关于表的一系列操作

MySQL中的数据类型 varchar 动态字符串类型最长255位可以根据实际长度来动态分配空间例如 varchar 100 char 定长字符串最长255位存储空间是固定的例如 char 10 int 整数型最长11位 lo
【数据结构 c语言版】线性表的链式表示和实现

目录一单链表的表示和实现 1 单链表的存储结构 1 1 头指针头结点与首元结点 1 2 带头结点单链表和不带头结点单链表的比较 2 单链表的初始化 3 单链表的长度 4 单链表的插入 5 单链表的删除 6 单链表的查看 7 单链表的撤
auto-gpt部署：openai key， google api key，google engine id

获取OpenAI API Key 1 打开platform openai com 输入你的OpenAI帐号和密码 2 点击左上角personal gt view api keys gt api keys gt create new scre
不花钱，让"情圣"ChatGPT教你怎么追马斯克

大家好我是播妞你知道吗如今爆火的ChatGPT 曾经和马斯克还有一段七年的纠葛最近 OpenAI发布了史上最强聊天机器人ChatGPT 这个诞生于GPT 3基础上的AI很快走红网络要说这家伙天南海北无所不知可能是夸张了点但

不花钱，让"情圣"ChatGPT教你怎么追马斯克

不花钱，让"情圣"ChatGPT教你怎么追马斯克 的相关文章

随机推荐

热门标签

不花钱，让"情圣"ChatGPT教你怎么追马斯克的相关文章