当四款AI大模型遇上考公真题,谁被难倒了?

2023-11-16

在当今社会,人工智能(AI)正以不可思议的速度发展,并在各个领域崭露头角,给人们的生活和工作带来许多便利。AI大模型被誉为人类“第二大脑”,成为人们学习、生活、工作的 “智能助手”。

公务员考试在我国教育领域独具特色,受到了众多考生的关注和青睐。众所周知,在公务员考试的过程中,行测真题中以数量关系最难也最耗时,使得考生们备考压力不小。在这样的背景下,用AI大模型来做行测真题,它们能做对吗?

今天,我们来简单测评一下GPT-3.5、GPT-4、文心一言及通义千问在特定的场景下的实际能力究竟如何。

我们选取21年国家公务员考试《行测》真题

某地调派 96 人分赴车站、机场、超市和学校四个人流密集的区域进行卫生安全检查,其中公共卫生专业人员有 62 人。已知派往机场的人员是四个区域中最多的,派往车站和超市的人员中,专业人员分别占 64%和 65%, 派往学校的人员中,非专业人员比专业人员少 30%,问派往机场的人员中,专业人员的占比在四个区域中排名第几?

正确答案:排名第一

第一位AI大模型选手:GPT-4

简介:GPT-4是OpenAI发布的最新一代语言模型,于2023年3月14日正式发布,并通过API和ChatGPT Plus平台向用户开放。

答案:在四个区域中,机场的专业人员占比排名是第1


答案完全正确,过程十分详尽。

第二位AI大模型选手:GPT-3.5

简介:OpenAI于2023年3月1日正式发布GPT-3.5-turbo,它是目前最大规模的预训练语言模型之一,包含超过1亿个参数,可用于各种自然语言处理任务。

答案:在四个区域中排名第2

错误。

第三位AI大模型选手:通义千问

简介:通义千问是阿里巴巴推出的预训练语言模型。它是达摩院自主研发的超大规模语言模型,也能够回答问题、创作文字,还能表达观点、撰写代码。

答案:因此,在四个区域中,专业人员的占比排名为第 4 位

错误。

第四位AI大模型选手:文心一言

简介:文心一言(英文名:ERNIE Bot)是百度基于文心大模型技术推出的生成式对话产品,被外界誉为“中国版ChatGPT”,将于2023年3月份面向公众开放。

答案:在四个区域中排名第2

错误。

Beezy点评

1.准确性

GPT-4的回答

通过建立多个方程并进行代数运算,最终得到了机场的专业人员占比排名是第一。整个过程有明确的推导过程,考虑了所有限定条件。过程详尽且答案完全正确。

GPT-3.5的回答

不等式形式的推导不清晰、且错误,没有给出具体实际情况下的求解。

通义千问的回答

通过计算在四个区域的专业人员占比及非专业人员占比,然后求取排名,这个过程中存在明显错误。在计算四个区域的专业人员比例时,通义千问未考虑到不同区域的总人数已知且有限制条件,而直接将比例相加。此回答是错误的。

文心一言的回答

未建立方程,也没有给出详细推导过程,仅仅给出了结论。在准确性上,此回答并不可靠。

2.实用性

从实用性方面出发,GPT-4的回答明确描述了解题思路,并通过方程的建立及化简找到答案。相对于其他回答者,实用性更强。但考虑考公行测有非常强的时间限制,解题需要早1-2分钟内完成,因此,GPT-4可能在奥数方面不占优势。

3.数学逻辑推导

GPT-4的回答有明确的方程建立,符合题意,通过代入及化简,达到求解目的。推导过程较为严谨。

GPT-3.5的回答由于不等式条件的错误,导致其推导不清晰且错误,不符合题目条件。

通义千问的回答虽然有一定的推导过程,但其错误地将比例相加而未考虑实际限制条件,计算过程错误。

文心一言的回答没有建立方程,缺乏严谨的数学推导过程。

综合来看:GPT-4的回答在准确性、实用性和数学推导方面具有较优的表现。GPT-3.5、通义千问、文心一言三个回答的问题分别在于不等式条件错误、计算过程错误和缺乏推导过程。但结合实际考公行测过程中,严苛的时限性质,其实AI大模型未未必能完全达标。

END

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

当四款AI大模型遇上考公真题,谁被难倒了? 的相关文章

随机推荐

  • OAuth2实现单点登录SSO完整教程,其实不难!

    点击上方 Java基基 选择 设为星标 做积极的人 而不是积极废人 源码精品专栏 原创 Java 2020 超神之路 很肝 中文详细注释的开源项目 RPC 框架 Dubbo 源码解析 网络应用框架 Netty 源码解析 消息中间件 Rock
  • vovnet 测试

    vovnet39 1070 640 640 batch 1 15ms 自己改了参数 import time import torch import torch nn as nn import torch nn functional as F
  • Jvm实际运行情况-JVM(十七)

    上篇文章说jmap和jstat的命令 如何查看youngGc和FullGc耗时和次数 Jmap JVM 十六 Jvm实际运行情况 背景 机器配置 2核4G JVM内存大小 2G 系统运行天数 7天 期间发生FULL GC次数和耗时 500多
  • JS数组reduce()方法详解

    reduce 方法接收一个函数作为累加器 数组中的每个值 从左到右 开始缩减 最终计算为一个值 reduce 可以作为一个高阶函数 用于函数的 compose 注意 reduce 对于空数组是不会执行回调函数的 首先我们看一下参数initi
  • 期货开户交易贵在坚持

    期货人生之一 交易贵在坚持 水滴石穿虽然平日看起来不起眼 但随着岁月的流逝 小流也将汇集成复利的海洋 因为只有时间才是真正成就复利可怕的力量 即使一生做的再成功 也并不能说明什么问题 只能说明我坚持了交易的原则 仅此而已 失去原则 我将一文
  • json应用场景与实战

    1 php中的json简介 首先我们说json是一种简便的轻量级的数据交换格式 能够在吴福气之间交换数据 json起源 1 标量 2 序列 3 映射 2 怎样使用json JSON的基本语法 JSON的四个基本规则 1 并列的数据之间用逗号
  • BeanUtils.copyProperties的用法

    BeanUtils copyProperties的用法 BeanUtils copyProperties a b 首先BeanUtils有2个包 org springframework beans BeanUtils 这个包 是a b为对象
  • 基于 spring cloud 的广告系统设计与实现(一)

    1 实现功能 CPM Cost Per Mille 每千人成本 CPT Cost Per Time 每时间段成本 CPC Cost Per Click 每点击成本 2 所包含子系统 3 所用技术 4 扩展 5 广告系统架构 转载于 http
  • 数据分析 之(一) --- 环境搭建

    安装 首先打来终端 安装 ipython 可以在终端 输入 ipython 回车进入 exit 回车退出 1 pip V 2 pip install ipython 其次 安装 jupyter 1 pip install jupyter 启
  • [人工智能-综述-9]:科学计算、大数据分析、人工智能、机器学习、深度学习全面比较

    作者主页 文火冰糖的硅基工坊 文火冰糖 王文兵 的博客 文火冰糖的硅基工坊 CSDN博客 本文网址 https blog csdn net HiWangWenBing article details 124245520 目录 第1章 sci
  • CORS漏洞原理分析

    CORS跨域漏洞原理分析 CORS全称为Cross Origin Resource Sharing即跨域资源共享 用于绕过SOP 同源策略 来实现跨域资源访问的一种技术 而CORS漏洞则是利用CORS技术窃取用户敏感数据 以往与CORS漏洞
  • Tika错误总结

    参考链接 https my oschina net u 3091870 blog 3032408 1 错误 NoSuchMethodError org apache commons compress archivers ArchiveStr
  • libspark,不懂日文怎么学……

    由于工作的需求 还有我未来的规划 决心研究 AR 这必然要研究 FLARToolKit 于是我找到了 libspark 接着我发现 这里面的东西太多了太强大了 而且是日本人的开源项目 所以里面很多源码注释都是日文的 于是我今天申请了goog
  • 微分方程(人口预测与传染病模型)

    一 定义 微分方程 含导数或微分的方程 微分方程的阶数 所含导数或微分的最高阶数 如y 2y 2x 0是三阶微分方程 微分方程的解 使得微分方程成立的函数 例如y 2x 0的解可以为x 或者x 1 微分方程的通解和特解 特解为满足等式条件即
  • React 的七个值得推荐的动画库

    今天 Web 应用程序用户界面有许多吸引用户的元素 为了满足这些需求 开发人员不得不寻找新的方法来实现带有动画和过渡的 UI 因此 开发了专门的库和工具来处理 Web 应用程序中的动画 在本文中 将讨论一些优秀的 React 动画库 以便于
  • 基于大数据的智能消防可视化平台

    0 前言 Hi 大家好 今天给大家介绍一个大数据可视化项目 大家可以用于自己的课设或毕设 可以灵活耦合任意数据 为自己的项目添加灵活的可视化动态效果 今天要分享的是 基于大数据的智能消防可视化平台 包含内容 完整可视化实现源码 html一键
  • redis5以上集群环境搭建

    1 系统环境及安装包准备 1 1 服务器 一台Centos7 服务器或虚拟机 ip地址 192 168 56 55 1 2 网络规划 master节点 slave节点 192 168 56 55 8001 192 168 56 55 800
  • 什么是接口测试呢

    什么是接口测试呢 测试人员通常所说的 接口测试 是针对系统各组件之间接口的一种测试 它属于功能测试 接口能测出普通界面操作难以发现的问题 如 我们都知道系统是由前端后端组成 一些数据在前端做了校验 后端同样也需要校验才能保证安全 界面操作显
  • 机器入门学习方法与学习路径

    机器学习方法与学习路径 1 数学基础 有无数激情满满大步向前 誓要在机器学习领域有一番作为的同学 在看到公式的一刻突然就觉得自己狗带了 是啊 机器学习之所以相对于其他开发工作 更有门槛的根本原因就是数学 每一个算法 要在训练集上最大程度拟合
  • 当四款AI大模型遇上考公真题,谁被难倒了?

    在当今社会 人工智能 AI 正以不可思议的速度发展 并在各个领域崭露头角 给人们的生活和工作带来许多便利 AI大模型被誉为人类 第二大脑 成为人们学习 生活 工作的 智能助手 公务员考试在我国教育领域独具特色 受到了众多考生的关注和青睐 众