如何对大模型进行评估上

2023-12-19

大模型评估指标

对于AI大模型，可以从哪些方面来进行评估呢？要进行大模型评估，首先需要熟悉有哪些评估指标。大模型有哪些评估指标呢？先从查看开源大模型的官网开始，看看开源大模型给出了哪些评估指标数据。下图是Qwen、Llama的评估指标

下图是Qwen官网给出的评估指标数据，可以看到，Qwen用了多个数据集对大模型进行了评估。

Llama官网给出的评估指标数据，主要是针对代码编写能力，这里使用了HumanEval,MBPP和Multingual Human Eval指标。

那么上面的各项指标具体代表什么含义呢？背后使用了什么数据集进行评估呢？接下来将一一介绍。

评估指标含义

MMLU： mmlu数据集包含来自各个知识领域的多项选择题。该数据集涵盖了人文学科、社会科学、自然科学以及其他一些对某些人学习至关重要的领域。数据集包括57个任务，其中包括初等数学、美国历史、计算机科学、法律等内容。通过这个数据集可以评估大模型在不同领域的推理能力。

CMMLU ：CMMLU数据集是一个综合性的中文评估基准，由MBZUAI、上海交通大学、微软亚洲研究院共同推出，在评估语言模型在中文语境下的知识和推理能力方面极具权威性。 一句话理解就是中文版本的MMLU。

C-Eval ：C-Eval是一个全面的中文基础模型评估套件,它包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别， 一句话理解就是中文版本的mmlu 。

GSM-8K ：GSM8K是由人类问题作者创建的8.5K高质量语言多样化小学数学单词问题的数据集，通过这套数据集可以评估大模型的数学推理运算能力。下图是考察大模型8大方面能力，例如写作，人文，推理，角色扮演等，众所周知，数学运算是所有大模型能力最弱的部分。GSM8K数据集就是专门用来评估大模型数学运算能力的。

HumanEval： HumanEval是一个用于评估代码生成能力的数据集，由OpenAI在2021年推出。这个数据集包含164个手工编写的编程问题，每个问题都包括一个函数签名、文档字符串（docstring）、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。

MBPP ：MBPP（Mostly Basic Programming Problems）是一个数据集，主要包含了974个短小的Python函数问题，由谷歌在2021年推出，这些问题主要是为初级程序员设计的。数据集还包含了这些程序的文本描述和用于检查功能正确性的测试用例。一句话理解，和HumanEval一样，也是用于评估大模型代码生成能力的数据集。

BBH ：一个包含23个具有挑战性的 BIG-Bench 任务的套件，我们称之为 BIG-Bench Hard（BBH）。这些任务是先前语言模型评估未能超越平均人类评分者的任务。

Multi-HumanEval： 包含多种编程语言的数据集，一句话理解就是HumanEval只包含了python的编程问题，multi-humaneval包含的多种编程语言，例如java，go，javascript等等。

HumanEval-X ：HumanEval-X 是一个用于评估代码生成模型的多语言能力的基准测试。它包含了820个高质量的人工制作的数据样本（每个样本都包含测试用例），涵盖了Python、C++、Java、JavaScript和Go这五种编程语言，可用于各种任务，如代码生成和翻译。一句话理解：HumanEval-X数据集和Multi-HumanEval数据集作用相同，只是数据集推出的机构不同而已。

如果完成评估

在了解了评估指标背后的数据集含义后，如何通过数据集完成评估呢？从实现评估的纬度看，上面的数据集可以分为3类。

选择题类型的数据集

第一类是选择题类型，例如mmlu，cmmlu，c-eval等都属于这种类型。对于选择题类型的评估数据。原理是：将问题输入给大模型，大模型返回的选择题答案与正确答案进行比较，正确答案的占比作为评估数据的指标值。上面的5-shot指：在输入问题给大模型时，给出5个参考样例。实际每个数据集不同类型的问题中都split出了test/validation/train/dev数据集，其中dev数据集只有5条，这5条通常用于shot数据。具体如下图所示，上面提到的所有数据集都可以在 Huggingface 上查看到。

代码编写类型的数据集

第二类是代码编写类型的数据集，这里评估的原理是：每一条数据中都带了单元测试，大模型编写的代码与数据集中单元测试进行组合，如果单元测试通过，则认为编写的代码正确。当然，在计算Pass@k值的时候，并不是简单使用通过单元测试的量/总数据集的百分比来计算的。Pass@k有个详细的计算公式，具体如下所示，这里暂不会对公式的计算过程进行详细介绍，在后面源代码解释部分，会详细说明该公式的计算过程。下图是pass@k的计算公式。

数学题目类型

第三类是从大模型生成的response中提取答案，例如GSM-8K。对于数学类运算问题，在输入给大模型的input text中，通常都会添加step by step的提示语信息。这样，大模型会生成一个计算数学问题的推演过程，在进行评估时，需要从response中提取出最终的答案。然后，和数据集中的正确答案进行对比，从而得到大模型在数学方面的能力分数。

总结而言，使用三种不同类型数据集，在编写脚本进行评估时，有三种范式，具体如下：

上面只观察了Qwen和Llama大模型公布的评估指标，那还有其他常用大模型评估指标么？我们再来看看其他大模型，例如 Baichuan 和 CodeGeeX2 。

下图是Baichuan官网给出的一些评估指标，这里使用的还是mmlu和c-eval数据集，只是将数据集中的数据进行了进一步的细分，来观察不同纬度的得分。

另外，Baichuan模型的官网还使用了 Gaokao 和AIGEval的数据集进行评估，这两个数据集都是选择题类型，所以，从实现评估脚本的纬度来看，和mmlu评估方式一样，属于第一种类型。

CodeGeeX2是一款专门用于代码生成的大模型，如下图所示，官网给出的指标主要是pass@1，pass@10，pass@100等指标。属于上面第二种类型。

其中，HumanEval-X数据集是一个用于评估代码生成模型的多语言能力的基准测试。它包含了820个高质量的人工制作的数据样本（每个样本都包含测试用例），涵盖了Python、C++、Java、JavaScript和Go这五种编程语言，可用于各种任务，如代码生成和翻译等。同 multi-humaneval数据集作用相同。

以上就是对大模型评估的理论介绍，下一篇博客将从源代码实现层面出发，一步步分析如何通过python脚本调用LLM生成这些指标。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

如何对大模型进行评估上的相关文章

【需求响应】改进连续时间控制方法用于分散式需求响应的恒温负荷研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python代码及文章
Jenkins流水线怎么做？

问CHAT Jenkins流水线怎么做 CHAT回复 Jenkins流水线是一种创建测试和部署应用程序的方法以下是为Jenkins创建流水线的步骤 1 安装Jenkins 首先你需要在你的服务器上安装Jenkins 这个过程可能会根据你
AAAI 2024 一作讲者招募 | 持续报名中

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入我们诚挚地邀请您来AI TIME分享您发表在AAAI 2024的工作请您扫码填写以下问卷如内容合适我们将会与您沟通相关分享事宜 AAAI 2024预讲会计划时间 2024年1
2024年华数杯国际赛B题：光伏发电功率思路模型代码解析

2024年华数杯国际赛B题光伏发电功率 Photovoltaic Power 一问题描述中国的电力构成包括传统能源发电如煤油和天然气可再生能源发电如水电风能太阳能和核能以及其他形式的电力这些发电模式在满足中国对电力的巨
深度好文：最全的大模型 RAG 技术概览

本文是对检索增强生成 Retrieval Augmented Generation RAG 技术和算法的全面研究对各种方法进行了系统性的梳理涉及了 RAG 流程中的数据拆分向量化查询重写查询路由等等在做 RAG 的小伙伴一定知道
用通俗易懂的方式讲解：图解 Transformer 架构

文章目录用通俗易懂方式讲解系列 1 导语 2 正文开始现在我们开始编码从宏观视角看自注意力机制从微观视角看自注意力机制通过矩阵运算实现自注意力机制
【信道估计】【MIMO】【FBMC】未来移动通信的滤波器组多载波调制方案（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
什么是充放电振子理论？

CHAT回复充放电振子模型 Charging Reversal Oscillator Model 是一种解释ENSO现象的理论模型这个模型把ENSO现象比喻成一个热力学振荡系统在这个模型中 ENSO现象由三个组成部分充电 Char
面对AI革新时，Soul App等社交应用的“出圈”解法是什么？

2023年初 ChatGPT掀开海内外互联网 AI革新的序幕公众在惊讶于ChatGPT对于海量信息富有逻辑的整合归纳帮助大家提升工作及学习效率之余更为期待的莫过于有一天人工智能的意识觉醒十余年前由斯派克琼斯 Spike Jon
利用CHAT上传文件的操作

问CHAT autox js ui 上传框 CHAT回复上传文件的操作如果是在应用界面中的话由于Android对于文件权限的限制你可能不能直接模拟点击选择文件一般来说有两种常见的解决方案一种是使用intent来模拟发送一个文件路径
多模态、长文本、智能体，智谱AI推出GLM-4模型全家桶，发布即上线！

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入 2024年01月16日智谱AI首届技术开放日 Zhipu DevDay 在北京中关村国家自主创新示范区展示中心成功举办现场智谱AI团队全面展示了其投身于大模型事业三年多来所
【毕业设计选题】复杂背景下的无人机(UVA)夜间目标检测系统 python 人工智能深度学习

前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生级别难度的对本科同学来说是充满挑战为帮助大家顺利通过和节省时间
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
开始弃用NeRF？为什么Gaussian Splatting在自动驾驶场景如此受欢迎？（浙江大学最新）...

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述文章首先回顾了3D Gaussian的原理和应用借着全面比较了3D GS在静态
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

文章目录摘要 1 问题的提出引出当前研究的不足与问题 KGC方法 LLM幻觉现象解决方案 2 数据集和模型构建

随机推荐

将yolo格式转化为voc格式：txt转xml(亲测有效)

1 文件目录如下所示对以上目录的解释 1 dataset下面的image文件夹里面装的是数据集的原图片 2 dataset下面的label文件夹里面装的是图片对应得yolo格式标签 3 dataset下面的Annotations文件夹
集成测试：确保软件系统无缝协同的关键

摘要本文将详细介绍集成测试的概念目的方法和实践通过深入探讨集成测试的重要性以及如何有效地进行集成测试帮助读者更好地理解和应用集成测试技术提高软件系统的质量和稳定性一引言随着软件开发过程的不断演进软件系统变得越来越复杂
各种免费的格式转换工具

PDF转CAD或其它 Zamzar video converter audio converter image converter eBook converter
Arraylist与LinkedList有什么区别？

Arraylist与LinkedList有什么区别一个工作4年的程序员去某互联网公司面试被问到了这个问题如果大家不知道这个问题该怎么回答可以在文章尾端扫码二维码领取我整理的50W字的大厂面试指南问题分析 ArrayList和Lin
模块测试：确保软件质量的关键步骤

引言在软件开发过程中模块测试是确保软件质量的关键环节通过模块化的设计和测试方法可以提高开发效率降低错误率并最终提供稳定可靠的软件产品本文将介绍模块测试的概念重要性以及实施步骤帮助读者了解如何有效地进行模块测试一什么是模
5.docker容器及相关命令

docker中的容器实际上就是宿主机中的一个进程目录 1 创建并启动容器 docker run 1 1 如果没有指定的镜像的话 docker会尝试从源拉取 1 2 给容器起名字 name 1 3 交互方式启动 i 与弹出客户端 t 1 4
软件测试之威胁分析：保护您的应用程序免受潜在风险的侵害

引言在当今数字化时代软件已经成为我们日常生活和工作中不可或缺的一部分然而随着软件的复杂性和规模不断增加软件测试的重要性也日益凸显本文将重点介绍软件测试中的威胁分析帮助您了解并应对潜在的风险确保您的应用程序的安全性和稳定性一
MCU平台下确定栈空间大小的方法

本文介绍MCU平台下确定栈空间大小的方法通常使用IDE开发MCU程序在生成Image文件时 Image文件被划分为代码区数据区 BSS区堆区栈区其中代码区数据区 BSS区空间大小由编译器最终决定对于MCU 堆区一般设置为0
leetcode 560. 和为 K 的子数组（优质解法）

代码 class Solution public int subarraySum int nums int k int length nums length key 表示前缀和 value 表示个数 HashMap
AI创艺术之美：摄影绘画的未来已来

前言 AI 与摄影绘画在这个数字化时代的浪潮中人工智能技术以其惊人的创造力和创新性席卷全球从智能助手到自动驾驶从自然语言处理到机器学习 AI正日益成为我们日常生活和各个领域不可或缺的一部分摄影和绘画领域也不例外 AI技术为我们提供
股指期权开通要什么条件?

股指期权是一种金融衍生工具它赋予持有者在未来某一特定日期按照约定的价格买入或卖出标的资产的权利对于投资者来说开通股指期权账户需要满足一定的条件那么股指期权开通要什么条件本文来自财顺期权开通股指期权账户需要的条件是申请前20个
一网打尽目前常用的聚类方法，详细介绍了每一种聚类方法的基本概念、优点、缺点！！

目前常用的聚类方法 1 K 均值聚类 K Means Clustering 2 层次聚类 Hierarchical Clustering 3 DBSCAN聚类 DBSCAN Clustering 4 谱聚类 Spectral Cluster
小程序项目基于微信点单小程序系统

前言本微信点单小程序是根据当前的实际情况开发的在系统语言选择上我们使用的Java语言数据库是小巧灵活的MySQL数据库框架方便使用的是当前最主流的SPRING BOOT框架本系统的开发可以极大的满足了人们在线点单的需求微信点单小
期权有杠杆吗？在哪里看期权有多少倍杠杠？

期权有杠杆吗在哪里看期权有多少倍杠杠期权本身没有杠杆期权合约自带杠杆期权买方只需要缴纳较少的权利金就可以获得更高价值的标的资产波动所带来的收益但是期权卖方不需要缴纳保证金期权卖方需要付出保证金才可以建仓这是因为期权卖方需要履行
如何对大模型进行评估下

如果从实现评估的纬度来分可以将不同类型的评估分为三类具体如下所示更多理论的详细信息可以参见博客如何对大模型进行评估上接下来就从第一种类型出发看看评估脚本是如何实现的这里分析的源代码是 Qwen的评估脚本如何使用选择题类型数据
新书推介——《AI摄影绘画与PS优化从入门到精通》

在这个数字化时代的浪潮中人工智能技术以其惊人的创造力和创新性席卷全球从智能助手到自动驾驶从自然语言处理到机器学习 AI正日益成为我们日常生活和各个领域不可或缺的一部分摄影和绘画领域也不例外 AI技术为我们提供了前所未有的创作和表达方
PyCharm的环境配置和使用

最近要开发python项目用到了编辑器PyCharm 这款工具用起来还是很方便的自带代码提示功能和代码格式化报错信息提示调试代码很方便我用的软件版本是 PyCharm 2021 3 2 Community Edition 安装完
什么是虚值期权？什么是深度虚值期权？

在期权市场里有一种合约的价格往往比较便宜它就是虚值期权也是最受欢迎的期权之一虚值期权也就是高杠杆和波动被世人所爱久闻的一日192倍行情就是出自于虚值期权下文科普什么是虚值期权什么是深度虚值期权一虚值期权是什么虚值合约因为价
基于Java的旅游路线系统网站

前言本基于Java web的旅游路线系统是根据当前我国旅游的大环境相关的内容实际情况开发的在系统语言选择上我们使用的Java语言数据库是小巧灵活的MySQL数据库本系统的开发可以极大的提高旅游方面的管理本基于Java web的旅游
如何对大模型进行评估上

大模型评估指标对于AI大模型可以从哪些方面来进行评估呢要进行大模型评估首先需要熟悉有哪些评估指标大模型有哪些评估指标呢先从查看开源大模型的官网开始看看开源大模型给出了哪些评估指标数据下图是Qwen Llama的评估指标下图

如何对大模型进行评估上

如何对大模型进行评估上 的相关文章

随机推荐

热门标签

如何对大模型进行评估上的相关文章