竞品还在追赶 OpenAI用GPT-4飚赢自己

2023-11-09

赶在百度“文心一言”发布前一天,OpenAI祭出了GPT-4,这对于百度、谷歌们来说,可能是一个重大打击。

人们已经领略过GPT-3.5加持下的ChatGPT,但GPT-4比“前辈”更强大,它具有更高的可靠性和准确性,能够读懂图片,甚至还能角色扮演。目前,GPT-4已被应用到ChatGPT和Bing上,再一次刷新外界对AI的能力认知。

GPT-4越耀眼,谷歌、百度等竞争对手们便越焦虑。毕竟,其他公司忙着对标GPT-3.5时,OpenAI快速将大模型升级为GPT-4,一骑绝尘的样子丝毫“不讲武德”,像一个孤独求败的杀手,眼望着挑战者的到来。

GPT-4打败GPT-3.5

知名KOL和菜头说,因为OpenAI在3月15日凌晨发布了GPT-4,他和他的一些老朋友都没睡好,微信里的消息提示此起彼伏,“感觉像是回到了乔布斯还在世的时候,大家相约线上看苹果发布会的那些夜晚。”

北京时间3月15日凌晨,GPT-4发布受万众瞩目,这是采用GPT-3.5的ChatGPT火爆后的必然结果。看客们想要知道,它比GPT-3.5到底强多少?人们甚至没有兴趣拿它来对比别的同类产品,因为能站在同一起跑线上与之对比的还没有出现。

OpenAI很了解围观者的胃口,在那场更像是产品演示的发布会里,开发者一上来就让GPT-3.5和GPT-4分别尝试回答同样的问题。结果,熬夜的人没白等。

一开始,OpenAI的开发者复制了一篇博客文章,并交给了GPT-3.5,让它进行总结,要求是每个单词都要以“G”开头。结果GPT-3.5直接选择了放弃。轮到GPT-4,它快速地给出了答案,完全符合要求。随后,开发者又让它尝试以字母“A”开头回答同样的问题,GPT-4又做到了。

这还没完,如同提升“节目效果”一样,开发者直接和Discord社群互动起来,选取了网友提出的字母“Q”。再来一遍,GPT-4依然轻松拿捏。

这轮演示,OpenAI特地选取了一个超过GPT-3.5“阈值”的问题来测试,意在表现GPT-4的能力进化水平。正如官方所解释的,在随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能很微妙,当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。

为了全面且可视化地评估GPT-4的能力提升程度,OpenAI展示了它与GPT-3.5共同参与了多项模拟考试的情况,包括统一律师资格考试、研究生入学考试、医学知识自测、艺术史、微积分等等,结果GPT-4几乎碾压了GPT-3.5。比如,在模拟律师考试中,GPT-4的分数在应试者的前10%左右,而GPT-3.5 的得分排在倒数10%左右。

各项考试中GPT-4领先GPT-3.5

如同苹果发布会每次都会带来一个大彩蛋,GPT-4也带来了一项跨越式的功能——接受视觉输入。这意味着,GPT-4能够看懂图片了。

官方解释:GPT-4在给定由散布的文本和图像组成的输入的情况下,可生成文本输出(自然语言、代码等)。换言之,给它一张带有文字的图片,并提出要求,它就能给出想要的结果。

在演示中,开发者画了一张网站的草图,要求GPT-4用简短的 HTML/JS 将这个草图变成彩色的网站。仅仅几秒钟后,GPT-4就带来了一个完整的网页。

不仅如此,GPT-4还能尝试理解一些流行的“梗图”。如下图所示,让它解释这张图的笑点在哪,GPT-4不但Get到了,还一本正经地解释了一通。

GPT-4解释“梗图”的笑点

GPT-4的识图功能只有体验过才能知道是否如OpenAI说得这么厉害。遗憾的是,目前视觉输入还没有完全开放,仅在一小部分开发者中进行测试。OpenAI创始人Sam Altman解释称,此举是为了防止可能出现的安全性和伦理问题。

GPT-4还有一项特别本领,它可以扮演不同的角色和说话的方式,这与具有固定语气和风格的GPT-3.5不同。基于这个功能,用户可以让GPT-4实现角色扮演并定制它的性格。

就像当年的一代代新款iPhone给人们带来惊奇感受,GPT-4展现了比它的上一代更强大的能力。不过,它也并不完美。与GPT-3.5一样,GPT-4有时仍会虚构事实,“一本正经地胡说八道”还不能完全避免。OpenAI宣称,在内部对抗性真实性评估中,GPT-4的得分比GPT-3.5高40%,显然,它还有很大的提升空间。

谷歌、百度更焦虑了

OpenAI正和当初的苹果走在一样的道路上:成为引领者,并在别人苦苦追赶时,又猛地拉开一大截。

就在GPT-4发布前,互联网巨头谷歌也在YouTube上发布了一支预告片,宣布将AI整合到Gmail电子邮件和GoogleDocs文档等办公应用中。谷歌在视频中费了很大力气展示相关功能,告诉人们可以在文件中进行头脑风暴、校对、写作和改写;利用幻灯片中自动生成的图片、音频和视频,将创意构想变为现实等。

然而,“一点水花都没有,几个小时之后GPT-4开发布会,人一下子就全跑光了。”和菜头如此描述他的观察。从社交网络上舆论风向看,谷歌的AI新动作被铺天盖地的GPT-4消息所淹没——无论是海外的推特还是国内的微博,GPT-4都登上了热搜榜。

和谷歌一样被冷落的AI玩家还有Meta。不久前,Meta公布了旗下全新的AI大型语言模型LLaMA,宣称可帮助研究人员降低生成式AI工具可能带来的“偏见、有毒评论、产生错误信息的可能性”等问题。Meta还放话,这一大模型仅用约1/10的参数规模,就能匹敌OpenAI GPT-3、谷歌PaLM等主流大模型的性能表现。这一新动态在GPT-4到来后,没有在舆论场上再露脸。

OpenAI的光芒越盛,其他科技巨头们就越焦虑。

2月,仓促应战ChatGPT的谷歌还闹出过笑话,其开发的聊天机器人Bard首秀“翻车”,答错问题导致其市值一天之内蒸发约1000亿美元。

在国内,百度也在加急研发与ChatGPT类似的聊天机器人“文心一言”。按照预告,百度将在今天下午举办有关文心一言的新闻发布会。在许多人也许还在好奇文心一言能否比肩GPT-3.5模型下的ChatGPT,结果,OpenAI赶在百度发布会前带来了更强大的GPT-4。

别人忙着对标GPT-3.5时,OpenAI如同冷血杀手一般,亲手击败了自己出品的GPT-3.5。同类竞争公司们有多焦虑,网友们已经自行脑补出了各种“梗图”。

“那种提刀在手,环顾天下,寂寞如雪的感觉,让我忍不住感慨:即便在美国本土,这件事也和绝大多数美国科技公司无关了。”和菜头形容,OpenAI迭代的速度让他感觉到心惊肉跳,“所有试图追赶的人和公司,目前落后进度最少两年。在这种AI爆发式增长的时代,两年就是三辈子。”

回顾GPT的发展,它用5年时间里完成了从量变到质变的飞跃。2018年,GPT-1首次发布,当时的模型参数只有1.17亿个,随后的GPT-2将标准提高到15亿个参数,GPT-3和GPT-3.5的神经网络直接提升到1750亿个参数,而到了GPT-4,采用的参数超过2000亿个,并利用了超过200万个数据源(GPT-3.5使用了45万个数据源),包括互联网上的各种文本、图像、音频和视频数据。

相比之下,2022年初谷歌曾披露其LaMDA 模型参数为1370亿个,不如当时的GPT-3多。而据百度透露,文心一言大模型参数规模达到2600亿,相比GPT-4更多,这或许还能让它留给人们一些期待。

不过,有专家指出,模型参数并不是决定AI聊天机器人能力的绝对因素,在此基础上,对数据的清洗和标注、模型结构设计、训练推理的技术积累都会决定最终产品的表现。

GPT-4甚至不用担心产品化了,它已经应用于ChatGPT和微软的搜索引擎必应(Bing)上。一骑绝尘后,尘土里若隐若现着谷歌和百度。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

竞品还在追赶 OpenAI用GPT-4飚赢自己 的相关文章

  • HTTP中Put和Post的区别

    解释HTTP中Put和Post 它们有什么区别 哪个使用时更加安全 Put和Post都是浏览器向网页服务器提交数据的方法 Put把要提交的数据编码在url中 比如 http hi baidu com mianshiti key1 value

随机推荐

  • 【狂神说Mybatis29道练习题】

    Mybatis Mybatis动态SQL 狂神说学习笔记 29道练习题 Mybatis动态SQL 狂神说学习笔记 29道练习题 以下代码分为工具类 几个配置文件 mybatis config xml 实体类 持久层 mapper映射文件 测
  • 小程序原生和wepy、mpvue、uni-app、taro等主流开发框架,哪个好?这里是深度横评对比

    如下文章为2019年4月发布 2020年的测评版本也已出炉 最新评测点击 跨端开发框架深度横评之2020版 上周 Taro 团队发布了一篇 小程序多端框架全面测评 让开发者对业界主流的跨端框架 有了初步认识 感谢 Taro 团队的付出 不过
  • 【LeetCode】MySQL数据库简单题

    简单题近期打卡 1322 广告效果 1322 1 SQL架构 1322 2 题目要求 1322 3 代码实现 585 2016年的投资 585 1 SQL架构 1327 列出指定时间段内所有的下单产品 1327 1 SQL架构 1327 2
  • 【千律】C++基础:多态性与虚函数

    虚函数 通过父类的指针 指向子类的对象 调用虚函数时 调用子类的函数 include
  • 搭建完全分离式LNMP平台的简单案例

    案例拓扑图 安装配置nginx服务器 编译安装nginx时 需要事先安装 开发包组 Development Tools 和 Server Platform Development 同时还需专门安装pcre devel包 yum y grou
  • Git官网下载太慢,解决方案

  • 银行客户流失分析预测

    客户流失意味着客户终止了和银行的各项业务 毫无疑问 一定量的客户流失会给银行带来巨大损失 考虑到避免一位客户流失的成本很可能远低于挖掘一位新客户 因此对客户流失情况的分析预测至关重要 本文分析了某银行10000条客户信息 含14个字段 接下
  • 1X1卷积的作用,以及pytorch代码实现简单程序

    解释 从从某种程度来讲用1 1卷积并不是是网络变得更深 而是更宽 这里的宽实际上是增加数据量 但是通过1 1的卷积我们就可以对原始图片做一个变换 得到一张新的图片 从而可以提高泛化的能力减小过拟合 同时在这个过程中根据所选用的1 1卷积和f
  • MapBox根据鼠标位置显示经纬度组件

    只需要将map实例传进来就可以了 可以通过props 也可以通过vuex pinia等 原理就是监听mousemove事件 将经纬度取出来就可以 完整组件如下
  • Vue 中 v-if 用于判断某个变量是否在列表中

    本人使用的方法是 list列表的includes函数 判断name变量是否包含中 name1 name2 name3 中 是可以跑通的 v if name1 name2 name3 includes name 查了网上还有一种方式 v if
  • VUE框架中同意使用cookie弹框,第一次进入网站展示,点击同意后不再显示

    需求 全幅横栏 点击确认后隐藏 文案 我们想使用cookie以便更好了解您对本网站的使用情况 这将有助于改善您今后访问本网站的体验 关于cookie的使用 以及如何撤回或管理您的同意 请详见我们的隐私政策 如您点击右侧确认按钮 将视为您同意
  • onclick事件在苹果手机上失效

    项目在开发阶段 在我本地电脑上点击是可以实现页面跳转的 但是部署到服务器上用手机访问时发现页面不动 后来发现在电脑上以及在安卓手机上都是可以点击实现正常跳转的 只有苹果手机上不行 解决 经过查找资料才知道 苹果有这么个设置 对于点击的对象
  • Android开发之多级下拉列表菜单实现(仿美团,淘宝等)

    注 本文转载于 http blog csdn net minimicall article details 39484493 下载地址 http download csdn net detail minimicall 7956483 我们在
  • [架构之路-191]-《软考-系统分析师》-8-软件工程 - 解答什么是面向功能的结构化程序设计:算法+数据结构 = 程序

    目录 1 什么是结构化程序设计 2 结构化程序设计的局限性 3 程序设计的三种基本结构 1 顺序结构 2 选择结构 3 循环结构 1 什么是结构化程序设计 功能 Function 函数 算法 数据流Data Flow 数据结构Data St
  • 数学建模-用scipy库的odeint函数实现微分方程的数值解法

    introduction python对于常微分方程的数值求解是基于一阶方程进行的 高阶微分方程必须化成一阶方程组 通常采用龙格 库塔方法 scipy integrate模块的odeint模块的odeint函数求常微分方程的数值解 其基本调
  • 为啥 IDEA 不推荐使用 @Autowired 注解?

    因公众号更改推送规则 请点 在看 并加 星标 第一时间获取精彩技术分享 点击关注 互联网架构师公众号 领取架构师全套资料 都在这里 0 2T架构师学习资料干货分 上一篇 2T架构师学习资料干货分享 大家好 我是互联网架构师 大家在使用IDE
  • Java中的while循环

    Java中的while循环和do while循环 开发工具与关键技术 Java 作者 黄瑞杰 撰写时间 2022 11 18 while循环 while是最基本的循环 1 格式 只要布尔表达式为 true 循环就会一直执行下去 练习1 打印
  • python统计正数负数的个数

    方法一 encoding utf 8 original list 1 3 5 7 0 1 9 4 5 8 positive list negative list for i in original list if i gt 0 positi
  • linux里面touch 和 mkdir

    一 touch命令 touch命令有两个作用 一个是创建新的空文件 二是用于把已存在的文件的时间标签更新为系统当前的时间 默认方式 它们的数据将原封不动地保留下来 语法 touch options filename a 改变访问时间 m 改
  • 竞品还在追赶 OpenAI用GPT-4飚赢自己

    赶在百度 文心一言 发布前一天 OpenAI祭出了GPT 4 这对于百度 谷歌们来说 可能是一个重大打击 人们已经领略过GPT 3 5加持下的ChatGPT 但GPT 4比 前辈 更强大 它具有更高的可靠性和准确性 能够读懂图片 甚至还能角