大模型时代,如何评估人工智能与人类智能?

2023-10-27

省时查报告-专业、及时、全面的行研报告库

省时查方案-专业、及时、全面的营销策划方案库

【免费下载】2023年8月份全网热门报告合集

ChatGPT提词示例,让你的ChatGPT聪明100倍!

超百页干货资料:AI应用的难点、痛点与未来!

2023年AIGC行业调研报告.pdf(附下载链接)

ChatGPT提词手册,学完工作效率提升百倍

万字干货:ChatGPT的工作原理

2023年创业(有创业想法)必读手册

ChatGPT调研报告(仅供内部参考)

2023年AIGC发展趋势报告:人工智能的下一时代

《底层逻辑》高清配图

(本文阅读时间:10分钟)

编者按:大模型时代的到来,使得人工智能成为了真正影响人类社会的重要技术之一,如何打造“负责任的人工智能”的问题正变得愈发迫切和关键。一直以来,微软始终致力于依照以人为本的伦理原则推进人工智能的发展,微软亚洲研究院也将“社会责任人工智能(Societal AI)”作为一个重要的研究方向。

2023年,微软亚洲研究院特别组织了“社会责任人工智能(Societal AI)”系列研讨会,为计算机领域的科研人员与社会科学领域的专家学者提供了一个深入探讨跨学科前沿问题的平台,助力塑造人工智能与人类社会和谐共处的未来。系列研讨会包括法律与伦理、心理学和社会学三大主题讨论。今天是社会责任人工智能(Societal AI)系列研讨会内容梳理的第二期,为大家带来的是各界学者对人工智能与心理学及教育学相关的思考和讨论。

随着人工智能(AI)应用的不断落地,AI 之于人类的角色也在悄然改变。人们对于人工智能的期待和看法,从完成特定任务的机器转向了真正的智能伙伴。然而,这些新伙伴所具有的复杂性和未知性却是人们前所未见的,因此大模型的测评工作成为了当下亟待解决的关键问题。人类若要深入地理解这些复杂且高度智能的模型,就需要心理学及教育学等涉及认知能力内在的研究领域与计算机科学合力探索。

ChatGPT4国内可以直接访问的链接,无需注册,支持编程等多个垂直模型,点开即用:

https://ai.zntjxt.com(复制链接电脑浏览器或微信中点开即可,也可扫描下方二维码直达)

82d9f3d85fd5315c3812b33ac637069c.png

在心理测量领域,研究者们已将对人类能力的深刻理解和洞察进行了汇集,并提供了丰富的理论模型以及对其进行有效测评的方法,这些都能够为人工智能的评估和进一步发展提供启示。近期,在北京师范大学心理学部骆方教授的大力支持与协助下,微软亚洲研究院举办了“社会责任人工智能(Societal AI)”系列研讨会的心理与教育专题讨论。研讨会上,来自心理测量领域、教育领域以及计算机领域的顶尖专家们共同探讨了心理测量技术应用与人工智能测评的可行性、大模型如何赋能心理测评,并展望了人工智能辅助下的未来教育。

17227eb1d715db7101e8e691b4cf4c60.png

微软亚洲研究院“社会责任人工智能”系列研讨会心理与教育专题讨论参会嘉宾

5525bd2a3e0ccf3edbdff164a7b7e6a3.png

人类及大模型的能力评估:汇聚与整合

目前,人工智能领域的传统评估对象是为特定任务设计和构建的 AI 模型,如机器翻译模型等,模型评估即评估这些 AI 模型在这一特定任务上的表现。然而,新一代的人工智能并不是为了执行某一个特定任务而设计的,它们能够广泛地模拟人类智慧,胜任多样化的任务,比如 ChatGPT。因此,基于单一任务表现的传统评估方式不再适用于新一代人工智能模型。

面对这样的现状,来自瓦伦西亚理工大学的 José Hernández-Orallo 教授判断,已有的评估方法“任务导向的评估”(task-oriented evaluation),现在需要转向“能力导向的评估”(capability-oriented evaluation),把评估的重点从衡量某项特定任务的表现,转向这些表现背后的思维能力。

尽管对于大模型而言,能力测评是一个全新的议题,但对于人类的能力测评却有着悠久的历史。心理测量学认为人类所具有的某种潜在特质会导致一系列典型行为,测量这些典型行为的目的便是获取对能力的估计,而能力又可以进一步预测在更多相关行为上的表现。因此,心理测量领域的研究者们多年来以人类为研究对象,研究如何量化人类的不可见心理特质,如思维能力,并将它们与可观察的行为表现进行关联。José Hernández-Orallo 教授认为,为了实现对大模型能力的准确评估,人工智能领域的科研人员需要做好进行“范式转变”的准备,把心理测量方法融入到 AI 评估中。

a6c8473232d9188541d035bd38f7eb81.jpeg

然而,在将基于人类智能所构建的心理测评方法应用于大模型的能力时,必须要十分审慎。José Hernández-Orallo 教授指出,“心理测量学的方法和技术需要根据 AI 的特点进行有针对性的调整,相关结果的意义和解读可能也需要重新思考”。来自卑尔根大学的 Marija Slavkovik 教授也认为,人工智能并不是完全模仿人类智能,所以计算机完成任务所采用的是与人类不同的方式。

奥本大学的范津砚教授提到,相比于能否将心理测验应用于测评大模型这一问题本身,观念和思维方式的转变更为重要,通过心理测评的视角去探索全新的人工智能测评道路是十分有意义的。而这要求计算机科学和心理学的科研人员要共同探索适用于 AI 能力测评的新范式,不断地去发现和解决那些前所未有的新问题。

此外,圣加仑大学的 Clemens Stachl 教授还指出,之前已有的测验很可能已经出现在了大模型的训练数据中,因此研究者应该关注大模型在那些全新测验上的表现,即考察大模型是否具备应对和解决新问题的能力。

2f301b160836055904e0e69e5099bfcb.png

大模型辅助下的未来教育及测评

在心理测量领域既有的知识经验不断为人工智能领域带来深远影响的同时,新兴的人工智能技术也给测量领域带来了新的思路和启示。

传统心理测量学更多采用的是自上而下的思路——基于理论构建某种比较简单的统计模型,然后获取结构化的数据,以验证模型的有效性。而在人工智能技术充分发展的当下,各种在线学习平台提供了丰富的学习资料、学习场景以及交互形式。牛津大学的 Alina A von Davier 教授提出,未来的学习和测评系统将会具有数字化、自适应、个性化以及沉浸感等特点,且人们可获取的学习及测验数据也愈发丰富,包含了语音、视频等,因此研究者需要思考如何建模这些多模态数据。在这一背景下,测量领域也需要转变范式,探索人工智能辅助下的测评模式。

Alina A von Davier 教授提到,人工智能在测验的编制、施测、评分以及结果报告整个过程中的每一个环节都能够发挥重要作用,但各个环节中仍需要人类专家进行监控和决策,每个环节都应该是人工智能和人类智能协作的结果。针对编制环节,来自剑桥大学的 David Stillwell 教授分享了尝试采用大模型自动编制测验题目的经验,他认为大模型能够帮助研究者想出更多元、更丰富的题目情境,从而提高测验的编制效率。然而目前大模型生成的题目质量还够不理想,需要人类专家进行细致的筛查。Clemens Stachl 教授则表示,大模型在实现自动化测量上具有情境,但其可信度和有效性以及透明度等问题则会构成挑战。

Alina A von Davier 教授的团队目前已经尝试将 AI 技术融入心理测量中,并提出了 Digital-First Assessment 这一新型的测验方法。Digital-First Assessment 基于数字化环境设计,可提供交互式的操作和功能,利用人工智能算法辅助进行测验的生成和分发,在自动采集被试多模态的过程性数据后,再结合心理测量理论进行分析和解读,从而保证了测评结果的有效性和可靠性。Alina A von Davier 教授认为这种融合有望成为人工智能时代下,心理及教育测评的主要形式。

当大模型应用进入教育领域,学校、家长以及社会都在担忧由其引发的一些有损教育初衷和公平性的情况,如学生使用大模型完成作业和考试等。来自中国科学技术大学的研究员朱孟潇认为科研人员需要思考如何识别和避免这些情况的发生,包括对异常作答的检测,但更为重要的是思考如何重新设计作业和评估的形式。对此,范津砚教授提供了一个思路——过程性评估,即不像以往那样完全关注结果,而是更关注产出结果的过程,根据过程来反映被试的能力。

49a82b316811a778e1f0a9127fe9ef1f.jpeg

大模型的出现和应用直接推动了教育观念的改变,促使人们重新思考未来教学和评估的焦点。Marija Slavkovik 教授认为大模型的出现让大家开始反思如今的教育是否在培养和评估学生的能力而非特定知识,但这实际上是教育本就需要思考的问题,是大模型的出现增加了这个问题的紧迫性。来自北京师范大学的卢宇教授强调,如今我们比以往更需要强调高阶思维能力的培养和测评。José Hernández-Orallo 教授则指出了一个更具有前瞻性的方向:评估人类与人工智能的共同体(the hybrid of human and AI system),即评估个体能否利用人工智能工具来更好地解决问题。孟菲斯大学的胡祥恩教授认为,新一代 AI 代表了数字化的文明,人们需要具备与它们合作的能力。面对一个 AI 无处不在的未来世界,社会各界必须帮助下一代在这个世界的生存和发展做好准备。

大模型与心理测量的结合预示着一场划时代的变革。心理测量学可以帮助人们深刻、透彻地理解和挖掘大模型的真实能力。与此同时,大模型也将成为心理及教育测评研究者深度合作的伙伴,通过将 AI 技术融入心理及教育测量的全过程之中,心理及教育测评领域将能够实现个性化、自动化且沉浸式的评估。可以预见的是,一旦大型语言模型与心理测量技术结合的巨大潜力被激发,一个更为智能、开放和人性化的教育新纪元将会成为现实!

ChatGPT4国内可以直接访问的链接,无需注册,支持编程等多个垂直模型,点开即用:

https://ai.zntjxt.com(复制链接电脑浏览器或微信中点开即可,也可扫描下方二维码直达)

59b98e9ebaa989e99784fe1b7ad267ea.png

「 更多干货,更多收获 」

【免费下载】2023年8月份全网热门报告合集

ChatGPT提词示例,让你的ChatGPT聪明100倍!

超百页干货资料:AI应用的难点、痛点与未来!

万字干货:ChatGPT的工作原理

2023年创业(有创业想法)必读手册

ChatGPT调研报告(仅供内部参考)

ChatGPT的发展历程、原理、技术架构及未来方向

2023年AIGC发展趋势报告:人工智能的下一时代

推荐系统在腾讯游戏中的应用实践.pdf

推荐技术在vivo互联网商业化业务中的实践.pdf

2023年,如何科学制定年度规划?

《底层逻辑》高清配图

推荐技术在vivo互联网商业化业务中的实践.pdf

推荐系统基本问题及系统优化路径.pdf

荣耀推荐算法架构演进实践.pdf

大规模推荐类深度学习系统的设计实践.pdf

某视频APP推荐策略详细拆解(万字长文)

关注我们

智能推荐

个性化推荐技术与产品社区

长按并识别关注

b260c4184f3ec32b56a062d9b31638fa.jpeg

一个「在看」,一段时光

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

大模型时代,如何评估人工智能与人类智能? 的相关文章

随机推荐

  • tp5 修改使用个人的success、error跳转页面

    我们使用tp5或者tp3 2的框架 用的成功或者失败跳转提示页面一般是用框架的 根据我们自己开发的项目 我们也需要将跳转提示页面更改成自己的样式 如果我们直接更改框架源码页面会影响我们后期的框架升级 其实有解决办法 tp官方已经考虑到了这一
  • 《精通direct3d图形及动画程序设计》学习(8)(2012.12.24)

    7 02 8 2 alpha混合 8 18 顶点ALPHA 17 20 ALPHA测试
  • Maven添加本地Jar包

    在java项目中 构建工具一般都是用maven 但是在开发过程中会遇到一些不是第三方的jar 是自己项目打成的jar 如果不用nexus仓库管理的 可以直接把打好的jar放在在自己的项目中也是可以解决问题的 1 首先我在项目根目录中创建一个
  • python 浏览器模拟手机_Python selenium —— 用chrome的Mobile emulation模拟手机浏览器测试手机网页...

    很多人发现chrome有项功能 就是在开发者工具里能够模拟手机打开网页 便想能否用selenium对此进行自动化测试 答案当然是yes chrome emulation 今天博主便给大家分享下如何用chrome的MobileEmulatio
  • usb文档

    http www crifan com files doc docbook usb basic release htmls emulation html
  • SAMSUNG i535(Verizon版S3)不能使用电信3G网络的问题

    参考了好几篇文章最后解决了 参考文章如下 http www diypda com thread 1028813 1 1 html http bbs 189store com thread 66887 1 1 html http www di
  • 初学nodejs一:别被Express的API搞晕了

    初学nodejs 这个系列并不是入门系列 其实我自己还没入门 入门的话 推荐大家 1 一起学nodejs 2 BYVoid大神的 Node js开发指南 不过虽然是大神写的教程 也要带着怀疑的态度去看 这个系列 主要讲一些我初学nodejs
  • 星际战甲服务器维护时间,星际战甲 官网:2月4日服务器维护结束公告

    感谢各位玩家的耐心等待 目前服务器已维护完毕并已对外开放 玩家可以正常登录游戏 本次维护内容包括 新内容开放 断罪之影 活动开启时间 2021年2月4日中午12 00 阿拉德五世将发送邮件告知追猎者的使徒正在起源星系追杀天诺 开始断罪之影活
  • 基于onnxruntime的YOLOv5单张图片检测实现

    接上一篇 基于pytorch的YOLOv5单张图片检测实现 我们实现了pytorch的前向推理 但是这个推理过程需要依赖yolov5本身的模型文件以及结构搭建的过程 所以还是比较麻烦的 这里 有没有一个直接前向推理 然后只处理结果 无需考虑
  • 4.4.2分类模型评判指标(三) - KS曲线与KS值

    简介 KS曲线是用来衡量分类型模型准确度的工具 KS曲线与ROC曲线非常的类似 其指标的计算方法与混淆矩阵 ROC基本一致 它只是用另一种方式呈现分类模型的准确性 KS值是KS图中两条线之间最大的距离 其能反映出分类器的划分能力 一句话概括
  • Docker国内镜像源设置

    编辑json文件 添加如下内容后重启docker即可 root Docker cat etc docker daemon json registry mirrors http 18817714 m daocloud io 说明 json配置
  • 计算机专业知识要点,计算机专业基础知识要点及习题

    计算机专业基础知识要点及习题 第一章概论 数据就是指能够被计算机识别 存储和加工处理的信息的载体 数据元素是数据的基本单位 可以由若干个数据项组成 数据项是具有独立含义的最小标识单位 数据结构的定义 逻辑结构 从逻辑结构上描述数据 独立于计
  • CCF 2019年9月第一题--小明种苹果(java)

    此代码为提交满分代码 如有什么不好之处 欢迎留言 必认真研讨 试题编号 201909 1 试题名称 小明种苹果 时间限制 2 0s 内存限制 512 0MB 问题描述 package com hsx ccf import java util
  • .NET Framework各版本比较

    摘自CSDN 导读 一直以来 众多学校教学以及公司开发环境所使用Visual Studio NET Framework版本多不相同 本文作者比较了 NET Framework多个版本之间的区别 方便各位选择和切换 NET Framework
  • centos end trace

    每个人遇到的问题可能不一样吧 我也不是专业的运维 我只能说我自己的解决方法 错误 重启的时候出现的 百度 Google后感觉问题大概出现在内核版本上面在https www linuxquestions org questions slack
  • 写出一个抽奖页面,有200个人参加抽奖

    写出一个抽奖页面 有200个人参加抽奖 每次抽出一个人 不能重复 必须每个人都要抽中奖 前面10次抽奖要选中固定的10个人 每次就从这10人中随机抽取一人 不能重复 从第11次开始就从剩余的190人当中抽奖 不能重复 直到抽奖结束 已经中过
  • Java实现输出 1000 - 2000 之间所有的闰年

    我之前写过一篇文章 输出1 100之内的素数 其实是差不多的 可以参考一下 https blog csdn net question mark article details 100627185 关于闰年我们知道 有三种情况 分别是普通闰年
  • 软件测试/测试开发丨学习笔记之接口自动化测试

    本文为霍格沃兹测试开发学社学员学习笔记分享 原文链接 https ceshiren com t topic 25120 一 接口自动化测试框架介绍 1 接口测试场景 2 自动化测试场景 3 接口自动化测试与 Web App 自动化测试区别
  • pands 表头字段自适应

    fields Unnamed 0 Unnamed 1 合计 人民币元 美元 合计 1 美元 1 沙特里亚尔 合计 2 人民币元 1 美元 2 沙特里亚尔 1 合计 3 美元 3 沙特里亚尔 2 cleaned sentence a 0 wh
  • 大模型时代,如何评估人工智能与人类智能?

    省时查报告 专业 及时 全面的行研报告库 省时查方案 专业 及时 全面的营销策划方案库 免费下载 2023年8月份全网热门报告合集 ChatGPT提词示例 让你的ChatGPT聪明100倍 超百页干货资料 AI应用的难点 痛点与未来 202
Powered by Hwhale