大模型时代，如何评估人工智能与人类智能？

2023-10-27

省时查报告-专业、及时、全面的行研报告库

省时查方案-专业、及时、全面的营销策划方案库

《底层逻辑》高清配图

(本文阅读时间：10分钟)

编者按：大模型时代的到来，使得人工智能成为了真正影响人类社会的重要技术之一，如何打造“负责任的人工智能”的问题正变得愈发迫切和关键。一直以来，微软始终致力于依照以人为本的伦理原则推进人工智能的发展，微软亚洲研究院也将“社会责任人工智能（Societal AI）”作为一个重要的研究方向。

2023年，微软亚洲研究院特别组织了“社会责任人工智能（Societal AI）”系列研讨会，为计算机领域的科研人员与社会科学领域的专家学者提供了一个深入探讨跨学科前沿问题的平台，助力塑造人工智能与人类社会和谐共处的未来。系列研讨会包括法律与伦理、心理学和社会学三大主题讨论。今天是社会责任人工智能（Societal AI）系列研讨会内容梳理的第二期，为大家带来的是各界学者对人工智能与心理学及教育学相关的思考和讨论。

随着人工智能（AI）应用的不断落地，AI 之于人类的角色也在悄然改变。人们对于人工智能的期待和看法，从完成特定任务的机器转向了真正的智能伙伴。然而，这些新伙伴所具有的复杂性和未知性却是人们前所未见的，因此大模型的测评工作成为了当下亟待解决的关键问题。人类若要深入地理解这些复杂且高度智能的模型，就需要心理学及教育学等涉及认知能力内在的研究领域与计算机科学合力探索。

ChatGPT4国内可以直接访问的链接，无需注册，支持编程等多个垂直模型，点开即用：

https://ai.zntjxt.com（复制链接电脑浏览器或微信中点开即可，也可扫描下方二维码直达）

在心理测量领域，研究者们已将对人类能力的深刻理解和洞察进行了汇集，并提供了丰富的理论模型以及对其进行有效测评的方法，这些都能够为人工智能的评估和进一步发展提供启示。近期，在北京师范大学心理学部骆方教授的大力支持与协助下，微软亚洲研究院举办了“社会责任人工智能（Societal AI）”系列研讨会的心理与教育专题讨论。研讨会上，来自心理测量领域、教育领域以及计算机领域的顶尖专家们共同探讨了心理测量技术应用与人工智能测评的可行性、大模型如何赋能心理测评，并展望了人工智能辅助下的未来教育。

微软亚洲研究院“社会责任人工智能”系列研讨会心理与教育专题讨论参会嘉宾

人类及大模型的能力评估：汇聚与整合

目前，人工智能领域的传统评估对象是为特定任务设计和构建的 AI 模型，如机器翻译模型等，模型评估即评估这些 AI 模型在这一特定任务上的表现。然而，新一代的人工智能并不是为了执行某一个特定任务而设计的，它们能够广泛地模拟人类智慧，胜任多样化的任务，比如 ChatGPT。因此，基于单一任务表现的传统评估方式不再适用于新一代人工智能模型。

面对这样的现状，来自瓦伦西亚理工大学的 José Hernández-Orallo 教授判断，已有的评估方法“任务导向的评估”（task-oriented evaluation），现在需要转向“能力导向的评估”（capability-oriented evaluation），把评估的重点从衡量某项特定任务的表现，转向这些表现背后的思维能力。

尽管对于大模型而言，能力测评是一个全新的议题，但对于人类的能力测评却有着悠久的历史。心理测量学认为人类所具有的某种潜在特质会导致一系列典型行为，测量这些典型行为的目的便是获取对能力的估计，而能力又可以进一步预测在更多相关行为上的表现。因此，心理测量领域的研究者们多年来以人类为研究对象，研究如何量化人类的不可见心理特质，如思维能力，并将它们与可观察的行为表现进行关联。José Hernández-Orallo 教授认为，为了实现对大模型能力的准确评估，人工智能领域的科研人员需要做好进行“范式转变”的准备，把心理测量方法融入到 AI 评估中。

然而，在将基于人类智能所构建的心理测评方法应用于大模型的能力时，必须要十分审慎。José Hernández-Orallo 教授指出，“心理测量学的方法和技术需要根据 AI 的特点进行有针对性的调整，相关结果的意义和解读可能也需要重新思考”。来自卑尔根大学的 Marija Slavkovik 教授也认为，人工智能并不是完全模仿人类智能，所以计算机完成任务所采用的是与人类不同的方式。

奥本大学的范津砚教授提到，相比于能否将心理测验应用于测评大模型这一问题本身，观念和思维方式的转变更为重要，通过心理测评的视角去探索全新的人工智能测评道路是十分有意义的。而这要求计算机科学和心理学的科研人员要共同探索适用于 AI 能力测评的新范式，不断地去发现和解决那些前所未有的新问题。

此外，圣加仑大学的 Clemens Stachl 教授还指出，之前已有的测验很可能已经出现在了大模型的训练数据中，因此研究者应该关注大模型在那些全新测验上的表现，即考察大模型是否具备应对和解决新问题的能力。

大模型辅助下的未来教育及测评

在心理测量领域既有的知识经验不断为人工智能领域带来深远影响的同时，新兴的人工智能技术也给测量领域带来了新的思路和启示。

传统心理测量学更多采用的是自上而下的思路——基于理论构建某种比较简单的统计模型，然后获取结构化的数据，以验证模型的有效性。而在人工智能技术充分发展的当下，各种在线学习平台提供了丰富的学习资料、学习场景以及交互形式。牛津大学的 Alina A von Davier 教授提出，未来的学习和测评系统将会具有数字化、自适应、个性化以及沉浸感等特点，且人们可获取的学习及测验数据也愈发丰富，包含了语音、视频等，因此研究者需要思考如何建模这些多模态数据。在这一背景下，测量领域也需要转变范式，探索人工智能辅助下的测评模式。

Alina A von Davier 教授提到，人工智能在测验的编制、施测、评分以及结果报告整个过程中的每一个环节都能够发挥重要作用，但各个环节中仍需要人类专家进行监控和决策，每个环节都应该是人工智能和人类智能协作的结果。针对编制环节，来自剑桥大学的 David Stillwell 教授分享了尝试采用大模型自动编制测验题目的经验，他认为大模型能够帮助研究者想出更多元、更丰富的题目情境，从而提高测验的编制效率。然而目前大模型生成的题目质量还够不理想，需要人类专家进行细致的筛查。Clemens Stachl 教授则表示，大模型在实现自动化测量上具有情境，但其可信度和有效性以及透明度等问题则会构成挑战。

Alina A von Davier 教授的团队目前已经尝试将 AI 技术融入心理测量中，并提出了 Digital-First Assessment 这一新型的测验方法。Digital-First Assessment 基于数字化环境设计，可提供交互式的操作和功能，利用人工智能算法辅助进行测验的生成和分发，在自动采集被试多模态的过程性数据后，再结合心理测量理论进行分析和解读，从而保证了测评结果的有效性和可靠性。Alina A von Davier 教授认为这种融合有望成为人工智能时代下，心理及教育测评的主要形式。

当大模型应用进入教育领域，学校、家长以及社会都在担忧由其引发的一些有损教育初衷和公平性的情况，如学生使用大模型完成作业和考试等。来自中国科学技术大学的研究员朱孟潇认为科研人员需要思考如何识别和避免这些情况的发生，包括对异常作答的检测，但更为重要的是思考如何重新设计作业和评估的形式。对此，范津砚教授提供了一个思路——过程性评估，即不像以往那样完全关注结果，而是更关注产出结果的过程，根据过程来反映被试的能力。

大模型的出现和应用直接推动了教育观念的改变，促使人们重新思考未来教学和评估的焦点。Marija Slavkovik 教授认为大模型的出现让大家开始反思如今的教育是否在培养和评估学生的能力而非特定知识，但这实际上是教育本就需要思考的问题，是大模型的出现增加了这个问题的紧迫性。来自北京师范大学的卢宇教授强调，如今我们比以往更需要强调高阶思维能力的培养和测评。José Hernández-Orallo 教授则指出了一个更具有前瞻性的方向：评估人类与人工智能的共同体（the hybrid of human and AI system），即评估个体能否利用人工智能工具来更好地解决问题。孟菲斯大学的胡祥恩教授认为，新一代 AI 代表了数字化的文明，人们需要具备与它们合作的能力。面对一个 AI 无处不在的未来世界，社会各界必须帮助下一代在这个世界的生存和发展做好准备。

大模型与心理测量的结合预示着一场划时代的变革。心理测量学可以帮助人们深刻、透彻地理解和挖掘大模型的真实能力。与此同时，大模型也将成为心理及教育测评研究者深度合作的伙伴，通过将 AI 技术融入心理及教育测量的全过程之中，心理及教育测评领域将能够实现个性化、自动化且沉浸式的评估。可以预见的是，一旦大型语言模型与心理测量技术结合的巨大潜力被激发，一个更为智能、开放和人性化的教育新纪元将会成为现实！

ChatGPT4国内可以直接访问的链接，无需注册，支持编程等多个垂直模型，点开即用：

https://ai.zntjxt.com（复制链接电脑浏览器或微信中点开即可，也可扫描下方二维码直达）

「更多干货，更多收获」

【免费下载】2023年8月份全网热门报告合集

ChatGPT提词示例，让你的ChatGPT聪明100倍！

超百页干货资料：AI应用的难点、痛点与未来！

万字干货：ChatGPT的工作原理

2023年创业（有创业想法）必读手册

ChatGPT调研报告（仅供内部参考）

ChatGPT的发展历程、原理、技术架构及未来方向

2023年AIGC发展趋势报告：人工智能的下一时代

2023年，如何科学制定年度规划？

《底层逻辑》高清配图

荣耀推荐算法架构演进实践.pdf

大规模推荐类深度学习系统的设计实践.pdf

某视频APP推荐策略详细拆解（万字长文）

关注我们

智能推荐

个性化推荐技术与产品社区

长按并识别关注

一个「在看」，一段时光

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

ChatGPT

大模型时代，如何评估人工智能与人类智能？的相关文章

比尔盖茨与萨姆.奥尔特曼的对话及感想

谈话内容比尔盖茨嘿萨姆萨姆奥尔特曼嘿比尔比尔盖茨你好吗萨姆奥尔特曼哦天哪这真的太疯狂了我还好这是一个非常激动人心的时期比尔盖茨团队情况怎么样萨姆奥尔特曼我想你知道很多人都注意到了这样一个事实

用通俗易懂的方式讲解：图解 Transformer 架构

文章目录用通俗易懂方式讲解系列 1 导语 2 正文开始现在我们开始编码从宏观视角看自注意力机制从微观视角看自注意力机制通过矩阵运算实现自注意力机制

【信道估计】【MIMO】【FBMC】未来移动通信的滤波器组多载波调制方案（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章

【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章

蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现

【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现

利用CHAT写实验结论

问CHAT 通过观察放置在玻璃表面上的单个水滴人们可以观察到水滴充当成像系统探究这样一个透镜的放大倍数和分辨率 CHAT回复实验报告标题利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率一实验目的通过对比和测量研究和探索玻

利用CHAT上传文件的操作

问CHAT autox js ui 上传框 CHAT回复上传文件的操作如果是在应用界面中的话由于Android对于文件权限的限制你可能不能直接模拟点击选择文件一般来说有两种常见的解决方案一种是使用intent来模拟发送一个文件路径

扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17

基于opencv的大米计数统计（详细处理流程＋代码）

在我每周的标准作业清单中有一项是编写计算机视觉算法来计算该图像中米粒的数量因此当我的一个好朋友M给我发了一张纸上的扁豆照片显然是受到上述转发的启发请我帮他数一下谷物的数量时它勾起了我怀旧的回忆因此我在我的旧硬盘上寻找很久以前

【毕业设计选题】复杂背景下的无人机(UVA)夜间目标检测系统 python 人工智能深度学习

前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生级别难度的对本科同学来说是充满挑战为帮助大家顺利通过和节省时间

性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片

作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初

人工智能 AI 如何让我们的生活更加便利

每个人都可以从新技术中获益一想到工作或生活更为便利简捷且拥有更多空余时间谁会不为之高兴呢借助人工智能每天能够多一些空余时间或丰富自己的业余生活为培养日常兴趣爱好增添一点便利从电子阅读器到智能家居再到植物识别应用和智能室内花

回望计算机视觉会议ICCV的31年

作者原野寻踪编辑汽车人原文链接 https zhuanlan zhihu com p 670393313 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心全栈算法技术交流群本文只做

蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现

基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据

考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据

国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技

深度学习(5)--Keras实战

一 Keras基础概念 Keras是深度学习中的一个神经网络框架是一个高级神经网络API 用Python编写可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计用户友好性模块化和可扩

随机推荐

tp5 修改使用个人的success、error跳转页面

我们使用tp5或者tp3 2的框架用的成功或者失败跳转提示页面一般是用框架的根据我们自己开发的项目我们也需要将跳转提示页面更改成自己的样式如果我们直接更改框架源码页面会影响我们后期的框架升级其实有解决办法 tp官方已经考虑到了这一

《精通direct3d图形及动画程序设计》学习(8)(2012.12.24)

7 02 8 2 alpha混合 8 18 顶点ALPHA 17 20 ALPHA测试

Maven添加本地Jar包

在java项目中构建工具一般都是用maven 但是在开发过程中会遇到一些不是第三方的jar 是自己项目打成的jar 如果不用nexus仓库管理的可以直接把打好的jar放在在自己的项目中也是可以解决问题的 1 首先我在项目根目录中创建一个

python 浏览器模拟手机_Python selenium —— 用chrome的Mobile emulation模拟手机浏览器测试手机网页...

很多人发现chrome有项功能就是在开发者工具里能够模拟手机打开网页便想能否用selenium对此进行自动化测试答案当然是yes chrome emulation 今天博主便给大家分享下如何用chrome的MobileEmulatio

usb文档

http www crifan com files doc docbook usb basic release htmls emulation html

SAMSUNG i535（Verizon版S3）不能使用电信3G网络的问题

参考了好几篇文章最后解决了参考文章如下 http www diypda com thread 1028813 1 1 html http bbs 189store com thread 66887 1 1 html http www di

初学nodejs一：别被Express的API搞晕了

初学nodejs 这个系列并不是入门系列其实我自己还没入门入门的话推荐大家 1 一起学nodejs 2 BYVoid大神的 Node js开发指南不过虽然是大神写的教程也要带着怀疑的态度去看这个系列主要讲一些我初学nodejs

星际战甲服务器维护时间,星际战甲官网：2月4日服务器维护结束公告

感谢各位玩家的耐心等待目前服务器已维护完毕并已对外开放玩家可以正常登录游戏本次维护内容包括新内容开放断罪之影活动开启时间 2021年2月4日中午12 00 阿拉德五世将发送邮件告知追猎者的使徒正在起源星系追杀天诺开始断罪之影活

基于onnxruntime的YOLOv5单张图片检测实现

接上一篇基于pytorch的YOLOv5单张图片检测实现我们实现了pytorch的前向推理但是这个推理过程需要依赖yolov5本身的模型文件以及结构搭建的过程所以还是比较麻烦的这里有没有一个直接前向推理然后只处理结果无需考虑

4.4.2分类模型评判指标（三） - KS曲线与KS值

简介 KS曲线是用来衡量分类型模型准确度的工具 KS曲线与ROC曲线非常的类似其指标的计算方法与混淆矩阵 ROC基本一致它只是用另一种方式呈现分类模型的准确性 KS值是KS图中两条线之间最大的距离其能反映出分类器的划分能力一句话概括

Docker国内镜像源设置

编辑json文件添加如下内容后重启docker即可 root Docker cat etc docker daemon json registry mirrors http 18817714 m daocloud io 说明 json配置

计算机专业知识要点,计算机专业基础知识要点及习题

计算机专业基础知识要点及习题第一章概论数据就是指能够被计算机识别存储和加工处理的信息的载体数据元素是数据的基本单位可以由若干个数据项组成数据项是具有独立含义的最小标识单位数据结构的定义逻辑结构从逻辑结构上描述数据独立于计

CCF 2019年9月第一题--小明种苹果（java）

此代码为提交满分代码如有什么不好之处欢迎留言必认真研讨试题编号 201909 1 试题名称小明种苹果时间限制 2 0s 内存限制 512 0MB 问题描述 package com hsx ccf import java util

.NET Framework各版本比较

摘自CSDN 导读一直以来众多学校教学以及公司开发环境所使用Visual Studio NET Framework版本多不相同本文作者比较了 NET Framework多个版本之间的区别方便各位选择和切换 NET Framework

centos end trace

每个人遇到的问题可能不一样吧我也不是专业的运维我只能说我自己的解决方法错误重启的时候出现的百度 Google后感觉问题大概出现在内核版本上面在https www linuxquestions org questions slack

写出一个抽奖页面,有200个人参加抽奖

写出一个抽奖页面有200个人参加抽奖每次抽出一个人不能重复必须每个人都要抽中奖前面10次抽奖要选中固定的10个人每次就从这10人中随机抽取一人不能重复从第11次开始就从剩余的190人当中抽奖不能重复直到抽奖结束已经中过

Java实现输出 1000 - 2000 之间所有的闰年

我之前写过一篇文章输出1 100之内的素数其实是差不多的可以参考一下 https blog csdn net question mark article details 100627185 关于闰年我们知道有三种情况分别是普通闰年

软件测试/测试开发丨学习笔记之接口自动化测试

本文为霍格沃兹测试开发学社学员学习笔记分享原文链接 https ceshiren com t topic 25120 一接口自动化测试框架介绍 1 接口测试场景 2 自动化测试场景 3 接口自动化测试与 Web App 自动化测试区别

pands 表头字段自适应

fields Unnamed 0 Unnamed 1 合计人民币元美元合计 1 美元 1 沙特里亚尔合计 2 人民币元 1 美元 2 沙特里亚尔 1 合计 3 美元 3 沙特里亚尔 2 cleaned sentence a 0 wh

大模型时代，如何评估人工智能与人类智能？

省时查报告专业及时全面的行研报告库省时查方案专业及时全面的营销策划方案库免费下载 2023年8月份全网热门报告合集 ChatGPT提词示例让你的ChatGPT聪明100倍超百页干货资料 AI应用的难点痛点与未来 202

热门标签

backbutton

upcasting

formlayout

asyncctp

getmethod

pdbfiles

fasta

bazaar

zcat

returntype

hotreload

erlangotp

pyhook

大模型时代，如何评估人工智能与人类智能？

大模型时代，如何评估人工智能与人类智能？ 的相关文章

随机推荐

热门标签

大模型时代，如何评估人工智能与人类智能？的相关文章