阿里通义千问、百度文心一言、ChatGPT与GPT-4大比拼

2023-05-16

各个大模型的研究测试传送门

​阿里通义千问传送门:

https://tongyi.aliyun.com/chat

百度文心一言传送门:

https://yiyan.baidu.com/

ChatGPT传送门(免墙,可直接注册测试):

https://wowchat.vip

GPT-4传送门(免墙,可直接注册测试):

https://gpt4test.com

引言

这几天风闻阿里的AI大模型要发布,我刷了这把老脸,成功成为了第一批吃到螃蟹的人!

测试界面长这样:

没想到的是,仅仅玩了不到一小时,我的认知就发生了改变。

在测试阿里通义千问模型之前,我觉得国内的大模型赛道在一段时间内应该是百度文心一言一枝独秀,其他公司要赶超,会有不小的压力。但现在来看,我错了。

直接说整体结论:

阿里通义千问会成为百度文心一言的强有力竞争对手。

生成式大模型的评测要比传统的NLP任务复杂一些,目前这方面依然是以人工评测GSB(Good/Same/Bad)为主。

即,选取一个基线模型,给待评测模型和基线模型输入相同的问题,人工评测两个模型的回答质量,如果待评测模型表现更好,则记为G;如果基线模型表现更好,则记为B;如果表现差不多,记为S。最后统计G:S:B的比例,来判断待评测模型是否比基线模型更优秀。

当然,也有工作用GPT-4去做评测的,这种方式虽然省力,但显然非常有偏。

为了给大家直观的体现对比结果,笔者从15个维度出发设置题目,将阿里通义千问与百度文心一言进行GSB评比,来全面考察模型的基础语言理解、复杂指令理解、基础文本生成、复杂内容生成、常识推理、数学推理、反事实推理、法律伦理意识、中国文学知识、跨语言能力和代码能力等。

设置的题目包括:

  • 事实性问答
  • 科普文写作
  • 小红书文案写作
  • 项目计划撰写
  • 古文理解
  • 爆炒钢筋混凝土
  • 代码理解
  • 推销狂魔
  • 如何实现996?
  • 数字排序
  • 对对联
  • 数值计算
  • 推理解题
  • 跨语言能力
  • 弱智吧混战

互啄一波

来,先让你们来一个“菜鸡互啄”!

百度:

阿里:

百度回避了用户的问题,阿里选择了勇往直前。

本题纯娱乐,不作为评测题目

事实性问答

阿里:

百度:

这一轮pk,我本以为百度要赢了,结果他最后补了句“而羊和西红柿则是蔬菜”。。。

科普文写作

阿里:

百度:

阿里丢失了写作风格信息,百度完胜!

小红书文案写作

阿里:

百度:

无论是内容丰富度、emoji插入还是小红书风格的把握,阿里明显更胜一筹,阿里完胜!

项目计划撰写

阿里:

百度:

双方都没有达到理想态,都没有掌握“一个季度包含3个月”的常识信息。不过从表格信息的完整度和信息的丰富度上来说,阿里更胜一筹。

来看一下GPT-4的回答(测试站链接):

妥妥的理想态。。。

古文理解

阿里:

百度:

百度完胜!

爆炒钢筋混凝土

这一题考察模型的常识能力和反事实推理能力。

阿里:

百度:

你俩都很刚。。不过阿里提供的步骤更加详(劲)细(爆)。本题算打平吧。

来,又到了搬出GPT-4的时刻:

代码理解

阿里:

百度:

百度前面写的好好的,最后来了句“目标是达到0.5的准确率”是什么鬼。。这貌似不是百度第一次“死于话多”了。本题阿里胜!

推销狂魔

阿里:

百度:

说真的,我看了你俩的推销话术,我是无论如何不可能花8万块钱买你俩的课的。。。这局打平!

来看看GPT-4怎么推销:

好家伙,分期付款都给我安排上了??GPT-4这么懂行的吗?好,我买了。。。

如何实现996?

阿里:

百度:

可以,双方的AI模型都是遵纪守法的好模型,本局打平!

数字排序

阿里:

百度:

虽然你们都写对了代码,但。。。我没让你们写代码啊T_T

而且你们模拟代码的输出还都给错了,尤其百度,你这个输出结果是什么鬼。。

又到了GPT-4时刻:

GPT-4:颤抖吧,菜鸡们!

对对联

阿里:

百度:

好吧,既然你们这么默契,那建议你们在一起。。。

数值计算

阿里:

百度:

计算器:

阿里胜!

推理解题

阿里:

百度:

百度胜!

跨语言能力

阿里:

百度:

明显阿里的模型把握住了“通俗讲解”的用户诉求,而不是简单翻译。本局阿里胜!

弱智吧混战

阿里:

百度:

好了,你俩果然都打不赢我们弱智人类,认输吧,AI!

结论

通过上面15个维度的评价,我们统计了阿里相比百度的Good:Same:Bad的比例如下:

G:S:B=5:7:3

整体上阿里通义千问大模型比百度文心一言模型略强一丢,这也是文首笔者说“刷新认知”的原因。笔者本以为百度文心一言应该会远远甩开国内其他竞争对手,但目前来看,像阿里这样的强力竞争者确实不容小觑。

很早之前,笔者写过一篇文章分析过阿里做大模型的优势,今天做完这次测试后笔者更加确信了这一点——大模型的竞争是云+AI的全方位竞争,而不是一个单一的算法问题。阿里在打造M6等万亿乃至十万亿参数大模型的过程中,积累下来了深厚、先进的算力基础设施。因此,虽然阿里通义千问大模型的起步比文心一言模型要晚,但成长速度实在惊人,我觉得这很大一部分就来自于云设施这方面的技术和基础设施沉淀。

但,从上面的测评中,我们也能肉眼可见国内这两家巨头与GPT-4的差距。我们需要承认差距,然后奋力追赶。相信国产大模型与OpenAI大模型同台叫板的那一天不会太远!

 各个大模型的研究测试传送门

​阿里通义千问传送门:

https://tongyi.aliyun.com/chat

百度文心一言传送门:

https://yiyan.baidu.com/

ChatGPT传送门(免墙,可直接注册测试):

https://wowchat.cn

GPT-4传送门(免墙,可直接注册测试):

https://gpt4test.com

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

阿里通义千问、百度文心一言、ChatGPT与GPT-4大比拼 的相关文章

  • K8S服务发现(kube-dns) : CoreDNS

    K8S中 xff0c Pod如果想也另外一个Pod通信 xff0c 通常不会直接基础此Pod的IP xff08 动态的 xff09 xff0c 也不会记住此Pod形成的Service的IP xff08 相对比较稳定 xff0c 但也是动态的
  • Git 主干分支模型中的CI、CD ( 一)

    分支模型 主干分支模型如上图 xff0c 项目有个主干分支和若干个release分支 主干分支 xff1a 开发人员在主干分支上 xff08 通常情况下是master分支 xff09 push代码 xff0c push代码签需要在本地做re
  • Git主干分支模型中的CI、CD ( 二)

    分支模型 如果主干分支随意push引起较大的混乱 xff0c 可以考虑么个人开发是创建一个临时feature分支 如下图 xff1a 主干分支模型如上图 xff0c 项目有个主干分支和若干个release分支 xff0c 还有一些临时的fe
  • 持续集成CI, 持续发布CD,持续部署CD的意义及区别

    持续集成 xff0c 持续发布 xff0c 持续部署是自动化release pipeline的三个阶段 xff0c 通过这三个阶段 xff0c 团队把软件从创意 xff0c 生产为软件 xff0c 并发布给终端用户 这三个阶段关注产品的三个
  • linux系统常用命令总结

    简介 本文简单记录常用的linux系统shell命令 命令 linux系统常用shell命令如下表格 命令功能示例备注alias给命令起别名alias c 61 clear 取clear的别名为ccat显示文本内容cat file显示fil
  • 持续集成:CI

    持续集成 xff0c 持续发布 xff0c 持续部署是DevOps中三个实现手段很相似 xff0c 但是应用场景不同的三个概念 我接下来主要从应用场景来描述一下这三个场景的主要关注点 持续集成 xff1a 发生在开发阶段 xff0c 开发人
  • 持续发布(CD Continuous Deployment)

    持续发布是持续集成的延续 每次当我的代码被push到代码仓库后 xff0c 业务也应该被持续部署 如果使用持续发布 xff08 CD xff09 xff0c 发布过程是手动触发的 CD可以自动检查代码变化 xff0c 但是必须需要人工干预
  • 持续部署(CD, Continuous Deployment)

    持续也是持续集成的扩展 xff0c 和持续发布一样 xff0c 不同的是持续部署不需要手动干预 xff0c 直接自动部署到生产环境
  • Git中Feature分支模型中的CI,CD

    分支模型 主干分支 Master xff1a 随时可供在生产环境中部署的代码 xff0c 建议伴有标签 xff08 TAG xff09 Develop xff1a 每天需要提交和合并的代码 xff0c 功能逐渐完成的代码开发分支 辅助分支
  • DevSecOps及软件IT安全防护的开源扫描工具

    最近研究了一下热门话题 xff1a DevSecOps xff0c 明白了不少网络安全方面的概念和不少顶级的开源安全扫描工具 xff0c 现分享给大家 过去 xff0c 每个公司有一个信息安全防护的部门 xff0c 专门负责公司的IT信息安
  • K8S服务发现(kube-dns)

    K8S中 xff0c Pod如果想也另外一个Pod通信 xff0c 通常不会直接基础此Pod的IP xff08 动态的 xff09 xff0c 也不会记住此Pod形成的Service的IP xff08 相对比较稳定 xff0c 但也是动态的
  • K8S中的负载均衡Ingress

    K8S通过Ingress xff0c 把K8S集群中的服务 xff0c 通过Http和https路由暴露给外部用户 路径等信息通过Ingress的资源文件配置 1 一个K8S集群 2 一个集群Admin xff0c 两个个K8S用户 Use
  • DevOps关键指标

    不能衡量 xff0c 就无法管理 xff1b 不能管理 xff0c 就无法改进 xff0c 这句话对于DevOps或其它研发管理实践来说 xff0c 是正确的 为了实现DevOps的承诺 xff1a 更快地交付更高质量的产品 xff0c D
  • 成功的CEO的特质(一个投资人的观察)

    一个投资人总结他投资的100多个成功创业者的特质 1 不需要外部驱动 xff0c 不需要钱 危机状况触发他们的斗志 xff0c 他们内心有者强烈的驱动力 xff0c 证明自己的想法是对的 xff0c 能让世界变得更好 即使他们变得很富有了也
  • minikube 及安装

    和 kind 一样 xff0c minikube是一个在PC机上本地部署单节点Kubernetes集群的工具 xff0c 可以作为K8S的学习 xff0c 测试环境 在linux上安装minikube xff1a span class to
  • linux系统进程间通信方式(三):管道

    进程间通信方式之管道 管道通常指无名管道 xff08 PIPE xff09 或有名管道 xff08 FIFO xff09 xff0c 但实际上套接字也都是管道 接口 PIPE和FIFO的相关接口如下表格 功能创建无名管道 xff1a PIP
  • Python3 注释

    前言 确保对模块 函数 方法和行内注释使用正确的风格 xff08 文末送读者福利 xff09 Python 中的注释有单行注释和多行注释 Python 中单行注释以 开头 xff0c 例如 xff1a 这是一个注释 print Hello
  • 2023!七大最佳Python书籍,入门到精通推荐!

    前言 什么是Python xff1f Python是一种高级编程语言 xff0c 用于使用正确的工具和库文件进行Web开发 xff0c 桌面应用程序 xff0c 人工智能 xff0c OS xff0c 原型 xff0c GUI应用 xff0
  • 树莓派3B+UbuntuMate18.04安装ROS

    最近一直在配置树莓派的各种环境 xff0c 今天了解到可以搭载ROS然后控制摄像头 xff0c 激光雷达等 xff0c 就开始了疯狂踩坑 xff0c 记录问题及解决办法如下 配置 xff1a 树莓派3B 43 xff0c UbuntuMAT
  • 电脑技巧:Win10无线投屏功能介绍

    Win10操作系统可以将电脑中的内容投屏到其他显示设备 xff0c 比如将电脑屏幕投屏到电视上 xff0c 这是通过Miracast技术来实现的 其实Win10电脑自身也可以作为被投屏的那一方 xff01 比如可以将手机屏幕投屏到电脑屏幕上

随机推荐

  • 收集一些程序员励志经典名言

    1 作为一个真正的程序员 xff0c 首先应该尊重编程 xff0c 热爱你所写下的程序 xff0c 他是你的伙伴 xff0c 而不是工具 2 程序员可以让步 xff0c 却不可以退缩 xff0c 可以羞涩 xff0c 却不可以软弱 xff0
  • SVN连接不上,提示:Error running context: The server unexpectedly closed the connection.

    结果 xff0c 询问一起其他伙伴 xff0c 人家都能正常使用 最终找到的问题是 xff1a 把TortoiseSVN gt Settings gt Network gt Enable Proxy Server 这个勾选项取消勾选 就可以
  • 组装机怎么重装系统?组装机U盘装系统方法

    很多用户都会给自己的电脑进行重装 xff0c 这样就能使用上自己购买的硬件配置 组装好的电脑第一步要做的就是装系统 xff0c 下面小编就给大家整理了新电脑用U盘装系统的方法 xff0c 希望可以帮到大家 U盘重装系统Win10下载 系统之
  • 电脑老系统怎么换新系统?

    现在还有好多用户家里装的是旧电脑 xff0c 使用的系统也都是很久之前的系统了 xff0c 就有用户想给电脑换新系统 xff0c 但是不知道具体怎么操作 针对这个问题 xff0c 小编为大家带来详细的重装教程 xff0c 有需要的用户可以看
  • 介绍snipaste截图快捷键

    snipaste是非常受人欢迎的一款截图软件 xff0c 体积小巧 xff0c 功能强大 为了方便使用 xff0c 很多用户都会设置一些快捷键 xff0c 那么snipaste怎么设置快捷键呢 xff1f 下面就来看看具体的设置步骤 设置方
  • 教教大家vmware虚拟机安装win11的方法

    vmware是大家经常使用的虚拟机软件 xff0c 在其上面可以安装多种操作系统不管是windows系统 linux系统还是mac系统 那么win11系统也能安装吗 xff1f 当然是可以的 vmware安装Win11教程 1 首先我们需要
  • freertos的可视化追踪和运行时间统计功能

    简介 很多时候 xff0c 我们想要知道rtos任务目前的运行情况 xff0c 比如任务的状态 优先级 cpu的占用率等等 xff0c 或者我们想要知道当前正系统在运行的是哪一个任务 xff0c 又或者我们想要知道某一个任务运行了多长时间
  • 麻将算法(上)

    一 麻将规则 xff08 云南昭通麻将 xff09 1 牌 1 万 筒 和 条 三房牌 xff0c 各36张 xff0c 共108张牌 xff1b 2 只能 碰 杠 胡 xff0c 不能吃牌 3 4人进行游戏 xff1b 4 游戏开始时 x
  • DIR dirp对目录的操作

    xfeff xfeff DIR函数以及dirp函数 DIR opendir const char pathname 即打开文件目录 xff0c 返回的就是指向DIR结构体的指针 返回该指针以后 xff0c 就可以被以下函数来使用了 xff0
  • SocketException: 由于目标计算机积极拒绝,无法连接。 127.0.0.1:10000

    在尝试python socket编程的时候 xff0c 首先将编写好的客户端和服务器端都部署在本地进行 xff0c 并且使用同一台宿主机 客户端使用127 0 0 1 xff0c 服务器端使用0 0 0 0或者直接 刚开始我端口是随意选择的
  • NVIDIA Jetson Xavier NX——入手安装

    Google search sd card formatter for formatting SD card Google search balenaetcher for flashing JetPack SDK Google search
  • positional encoding位置编码详解:绝对位置与相对位置编码对比

    本文转载自公众号 夕小瑶的卖萌屋 xff0c 专业带逛互联网算法圈的神操作 我是传送门 关注后 xff0c 回复以下口令 xff1a 回复 789 xff1a 领取深度学习全栈手册 xff08 含NLP CV海量综述 必刷论文解读 xff0
  • Pytorch与Tensorflow,哪个更适合你?

    本文转载自公众号 夕小瑶的卖萌屋 xff0c 专业带逛互联网算法圈的神操作 我是传送门 关注后 xff0c 回复以下口令 xff1a 回复 789 xff1a 领取深度学习全栈手册 xff08 含NLP CV海量综述 必刷论文解读 xff0
  • 抖音算法推荐机制详解(科普向)

    本文转载自公众号 夕小瑶的卖萌屋 xff0c 专业带逛互联网算法圈的神操作 我是传送门 关注后 xff0c 回复以下口令 xff1a 回复 789 xff1a 领取深度学习全栈手册 xff08 含NLP CV海量综述 必刷论文解读 xff0
  • 小样本学习只是一场学术界自嗨吗

    文 ALme 64 知乎 这两年看见很多人 xff0c 包括我实习的mentor在内 xff0c 都在批评few shot learning xff0c 觉得是学术界在自high xff0c 思考良久 xff0c 感觉有必要给这个领域正个名
  • ChatGPT镜像来了,体验核心能力

    1月份开始 xff0c chatgpt开始火上天了 但其实很多人都不知道它真正的能力和魅力在哪里 甚至有人不停的问他是男的女的 xff0c 多大岁数 xff0c 叫啥名字 xff0c 然后问了几个无聊的闲聊问题后 xff0c 觉得这个AI好
  • 超详细面经分享!@最近考虑换工作的伙伴们

    文 xff5c ELon Z 源 xff5c AI机器学习与知识图谱 编 xff5c 极市平台 本文作者在秋招期间面试了10 43 家互联网公司 xff0c 总结了不同公司的考察点以及面试准备的全过程中的经验 帮助大家对各公司有个大致的认知
  • 详解webpack构建优化

    当项目越来越复杂时 xff0c 会面临着构建速度慢和构建出来的文件体积大的问题 webapck构建优化对于大项目是必须要考虑的一件事 xff0c 下面我们就从速度和体积两方面来探讨构建优化的策略 分析工具 在优化之前 xff0c 我们需要了
  • GPT4国内镜像站

    GPT 4介绍 GPT 4是OpenAI发布的最先进的大型语言模型 xff0c 是ChatGPT模型的超级进化版本 与ChatGPT相比 xff0c GPT 4的推理能力 复杂问题的理解能力 写代码能力得到了极大的强化 xff0c 是当前人
  • 阿里通义千问、百度文心一言、ChatGPT与GPT-4大比拼

    各个大模型的研究测试传送门 阿里通义千问传送门 xff1a https tongyi aliyun com chat 百度文心一言传送门 xff1a https yiyan baidu com ChatGPT传送门 xff08 免墙 xff