如何评估大型语言模型(LLM)?

2023-11-03

编者按:近期几乎每隔一段时间,就有新的大语言模型发布,但是当下仍然没有一个通用的标准来评估这些大型语言模型的质量,我们急需一个可靠的、综合的LLM评估框架。

本文说明了为什么我们需要一个全面的大模型评估框架,并介绍了市面上这些现有的评估框架,同时指出这些框架存在的问题,最后说明如何评估大型语言模型(LLM),评估时应该考虑哪些因素。

以下是译文,Enjoy!

作者 | Gyan Prakash Tripathi

编译 | 岳扬

目录
  • 01 简介
  • 02 为什么急需一个全面的LLMs评估框架?
  • 03 现有的LLMs评估框架有哪些?
  • 04 现有评估框架存在的问题
  • 05 在评估LLMs时应考虑哪些因素?
  • 06 结论

01 简介 Introduction

随着ChatGPT和其他大型语言模型(LLMs)的发布,可用模型数量大量增加,现在几乎每天都有新的LLMs发布。尽管如此,当下仍然没有一个通用的标准来评估这些大型语言模型的质量。本文将回顾现有的大型语言模型(LLMs)和基于LLMs的体系化评估框架。此外,我们还将尝试分析LLMs哪些因素应该受到评估。

图片

Source: Cobus Greyling

02 为什么急需一个全面的LLMs评估框架?

在某项技术发展的早期阶段,大家很容易确定哪些地方需要改进。然而,随着技术进步和各种新的替代方案出现,我们越来越难确定哪种方案选择最好。因此,拥有一个可靠的评估框架来准确评判LLMs的质量变得非常重要。

对于LLMs,当下迫切需要一个真正的评估框架。这种框架可用于以下三种方式评估LLMs:

  • 能够帮助管理机构和其他相关机构评估模型的安全性、准确性、可靠性或可用性问题。
  • 目前,这些大型科技公司似乎在盲目地争先恐后发布LLMs,许多公司只是在其产品上附加免责声明来试图撇清责任。因此制定一个全面的评估框架将有助于这些公司更负责任地发布这些模型。
  • 如果拥有一个全面的评估框架,能够帮助这些LLMs的用户确定在哪里以及如何微调这些大模型,并使他们清楚应该使用哪些额外的数据来完成部署。

在接下来的内容中,我们将会回顾当前的模型评估模式。

03 现有的LLMs评估框架有哪些?

评估大语言模型来确定它们在各种应用中的质量和实用性是比较重要的。市面上已经存在多个评估LLMs的框架,但是没有一个框架足够全面,可以覆盖所有自然语言处理任务。让我们看一下这些现有的主流评估框架。

框架名称 评估时考虑的因素 框架链接
Big Bench 泛化能力 https://github.com/google/BIG-bench
GLUE Benchmark 语法、释义、文本相似度、推理、文本关联性、解决代词引用问题的能力 https://gluebenchmark.com/
SuperGLUE Benchmark 自然语言理解、推理,理解训练数据之外的复杂句子,连贯和规范的自然语言生成,与人对话,常识推理(日常场景、社会规范和惯例),信息检索,阅读理解 https://super.gluebenchmark.com/
OpenAI Moderation API 过滤有害或不安全的内容 https://platform.openai.com/docs/api-reference/moderations
MMLU 跨各种任务和领域的语言理解 https://github.com/hendrycks/test
EleutherAI LM Eval 在最小程度的微调情况下,使用小样本进行评估,并能够在多种任务发挥性能的能力。 https://github.com/EleutherAI/lm-evaluation-harness
OpenAI Evals https://github.com/EleutherAI/lm-evaluation-harness 文本生成的准确性,多样性,一致性,鲁棒性,可转移性,效率,公平性 https://github.com/openai/evals
Adversarial NLI (ANLI) 鲁棒性,泛化性,对推理的连贯性解释,在类似示例中推理的一致性,资源使用方面的效率(内存使用、推理时间和训练时间) https://github.com/facebookresearch/anli
LIT (Language Interpretability Tool) 以用户定义的指标进行评估的平台。了解其优势、劣势和潜在的偏见 https://pair-code.github.io/lit/
ParlAI 准确率,F1分数,困惑度(模型在预测序列中下一个单词的表现),按相关性,流畅性和连贯性等标准进行人工评估,速度和资源利用率,鲁棒性(评估模型在不同条件下的表现,如噪声输入、对抗攻击或不同水平的数据质量),泛化性 https://github.com/facebookresearch/ParlAI
CoQA 理解文本段落并回答出现在对话中的一系列相互关联的问题。 https://stanfordnlp.github.io/coqa/
LAMBADA 预测一段文本的最后一个词。 https://zenodo.org/record/2630551#.ZFUKS-zML0p
HellaSwag 推理能力 https://rowanzellers.com/hellaswag/
LogiQA 逻辑推理能力 https://github.com/lgw863/LogiQA-dataset
MultiNLI 了解不同体裁的句子之间的关系 https://cims.nyu.edu/~sbowman/multinli/
SQUAD 阅读理解任务 https://rajpurkar.github.io/SQuAD-explorer/

04 现有评估框架存在的问题

上述评估大型语言模型的方法各有其优势。然而,有几个重要因素使得以上这些方法似乎都并不足够完善:

  1. 以上任何一个框架都没有将安全性作为评估因素考虑在内。尽管“OpenAI Moderation API”在某种程度上涉及这个问题,但这并不足够。
  2. 上述框架在评估模型因素方面是分散的。它们中没有一个因素是足够全面综合的

在下一节中,我们将尝试列出所有应该在一个综合的评估框架中存在的重要因素。

05 在评估LLMs时应考虑哪些因素?

经过审查现有的大模型评估框架存在的问题之后,下一步是确定在评估大型语言模型(LLMs)的质量时应考虑哪些因素。我们听取12名数据科学专业人员的意见,这12名专家对LLMs的工作原理和工作能力有一定的了解,并且他们曾经尝试过测试多个LLMs。该调查旨在根据他们的理解列出所有重要因素,并在此基础之上评估LLMs的质量。

最终,我们发现有几个关键因素应该被考虑:

1. 真实性

LLMs生成的结果准确性至关重要。包括事实的正确性以及推理和解决方案的准确性。

2. 速度

模型产生结果的速度很重要,特别是当大模型需要部署到关键功能(critical use cases)时。虽然在某些情况下速度较慢的大模型可能可以可接受,但这些rapid action团队需要速度更快的模型。

3. 正确的语法和可读性

LLMs必须以具备可读性的格式生成自然语言。确保正确、合适的语法和句子结构至关重要。

4. 没有偏见

LLMs必须不受与性别、种族和其他因素相关的社会偏见影响。

5. 回溯回答的参考来源

了解模型回答的来源对于我们来说是十分必要的,以便我们可以重复检查其 basis。如果没有这个,LLMs的性能将始终是一个黑匣子。

6. 安全和责任

AI模型的安全保障是必要的。尽管大多数公司正在努力使这些大模型安全,但仍然有显着的改进空间。

7. 理解上下文

当人类向AI聊天机器人咨询有关个人生活的建议时,重要的是该模型需要基于特定的条件提供更好的解决方案。在不同的上下文中提出同样的问题可能会有不同的答案。

8. 文本操作

LLMs需要能够执行基本的文本操作,如文本分类、翻译、摘要等。

9. 智商

智商是用来评判人类智力的一项指标,也可以应用于机器。

10. 情商

情商是人类智力的另一方面,也可应用于LLMs。具有更高情商的模型将更安全地被使用。

11. 具备多功能

模型可以涵盖的领域和语言数量是另一个重要因素,可以用于将模型分类为通用AI或特定领域的AI。

12. 实时更新

一个能够实时进行信息更新的模型可以做出更大范围的贡献,产生更好的结果。

13. 成本

开发和运维成本也应该考虑在内。

14. 一致性

相同或类似的提示应该产生相同或几乎相同的响应,否则确保部署于商业环境的质量将会很困难。

15. 提示工程的需要程度

需要使用多少详细和结构化的提示工程才能获得最佳响应,也可以用来比较两个模型。

06 总结

大型语言模型(LLMs)的发展彻底改变了自然语言处理领域。然而,当下仍需一个全面性的和标准化的评估框架来评估这些模型的质量。现有的框架提供了有价值的参考,但它们缺乏全面性和标准化,并且没有将安全作为评估因素

可靠的评估框架应该考虑诸如真实性、速度、正确的语法和可读性、没有偏见、回溯回答的参考来源、安全和责任、理解上下文、文本操作、智商、情商、具备多功能和实时更新等因素。 开发这样的框架将帮助这些公司更负责任地发布LLMs,并能够确保其质量、可用性和安全性。与相关机构和专家合作,建立一个真实和全面的LLMs评估框架是十分有必要的。

END

本文经原作者授权,由Baihai IDP编译。如需转载译文,请联系获取授权。

原文链接

https://www.analyticsvidhya.com/blog/2023/05/how-to-evaluate-a-large-language-model-llm/

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何评估大型语言模型(LLM)? 的相关文章

随机推荐

  • 主变压器新装或大修后投入运行为什么有时气体继电器会频繁动作?遇到此类问题怎样判断和处理?

    主变压器新装或大修后投入运行为什么有时气体继电器会频繁动作 遇到此类问题怎样判断和处理 答 新装或大修的变压器在加油 滤油时 会将空气带入变压器内部 若没有能够及时排出 则当变压器运行后油温会逐渐上升 形成油的对流 将内部贮有的空气逐渐排除
  • 个人信息可携带权的中国路径(线上)研讨会

    个人信息保护法 将于今年11月1日正式实施 其中首次提出了个人信息可携带权的相关法条 体现了将个人信息权利还于个人的立法思路 也为进一步释放数据要素生产力带来了新的历史机遇 为深入了解个人信息可携带权在全球范围的发展及在中国的可行落地路径
  • lstm(三) 模型压缩lstmp

    lstmp结构 对于传统的lstm而言 i t W i
  • Linux专栏(二):创建虚拟机与Ubuntu安装

    文章目录 1 下载Ubuntu20 04镜像 2 创建虚拟机 3 安装Ubuntu系统 本文将介绍在VMware中如何创建虚拟机并安装Ubuntu20 04系统 1 下载Ubuntu20 04镜像 下载地址 Ubuntu官网镜像下载 2 创
  • 复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来

    来源 机器之心 智能体会成为打开 AGI 之门的钥匙吗 复旦 NLP 团队全面探讨 LLM based Agents 近期 复旦大学自然语言处理团队 FudanNLP 推出 LLM based Agents 综述论文 全文长达 86 页 共
  • block(块),page(页),buffer cache(块缓冲)区别与联系

    在自己的理解里 块就是用来管理磁盘空间的 就像我们在给一个磁盘建立文件系统时候 我们可以指定block size 而页是针对内存管理 例如从磁盘读出的数据就缓存在内存页中 但突然对关buffer cache block buffer 这些东
  • vue项目实现搜索功能

    使用vue框架实现以下要求 1 点击 首页 顶部搜索框 通过路由跳转到搜索页 并实现关键字模糊搜索功能 2 搜索页和首页下面用到的JSON数据自行模拟 并正确搜索渲染出来 3 在搜索页保留每次的搜索历史关键字 在搜索页的 历史搜索 中显示出
  • 微信小程序wx.request 使用 post方式传参

    参考网址 https blog csdn net lengxin337 article details 78234503 重点注意 method 是 get 方式的时候 header为 Content Type application js
  • 产品不快,你就死定了!

    作者碎碎念 创业团队做产品要拼迭代速度 天下武功 唯快不破 扎克伯格说 不酷 你就死定了 我要套用他的话说 不快 你就死定了 因为太阳底下没有新鲜事 聪明人辣么多 凭空想出一个绝世好点子 你没戏的 但是 发现别人做得不足的地方 再迅速赶超
  • java.net.SocketException:Connection reset

    背景 HttpClient远程调用HTTPS的API时 报错java net SocketException Connection reset 原因 Jdk版本差异导致的异常 由于Jdk1 7默认的是TLS的协议版本是v1 0 而Jdk1
  • C++工厂模式总结-简易版反射

    设计模式之factory method与c 反射 记我曾经的误解 Factory Method的官方解释是 Define an interface for creating an object but let subclasses deci
  • c++ 拷贝构造函数_C++构造函数总结

    最近在找工作 比较忙 所以没有时间写文章了 找了一段时间了 还是没有什么收获 找工作给我一个最大的体会就是 基础要扎实 代码能力要强 这里的代码不是指那种业务逻辑的代码哦 01 文章概要 这篇文章总结一下C 中的构造函数 然后自己实现一个M
  • SQL Server 数据库——第三章课后题

    习题 3 SQL表达式 4 SQL语句建立第2章习题6中4个表 5 针对习题4中的4个表试用SQL完成以下各项操作 9 请为三建工程项目建立一个供应情况的视图 心得 3 SQL表达式 SELECT FROM S WHERE A 10 SEL
  • IPv6 vs IPv4使用差异说明

    1 IPv6 vs IPv4使用差异说明 1 1 约束限制 chrony支持全局地址 global address 不支持链路本地地址 link local address Firefox支持通过http https协议访问全局地址 glo
  • 微信分享链接出现config:invalid signature错误的解决方法

    当开发微信时需要做特定的页面做分享时 根据官方提供的jssdk php文件创建的签名数据包调试时 大家碰到的最多的错误而且解决最麻烦的大概就是signature错误了 如下图 分享时提示错误 errMsg config invalid si
  • JSP中的内置对象pageContext的作用

    1 当作当前页面域对象使用 2 可以获取到jsp中其他8个内置对象 jsp中其实可以直接用其他内置对象 但再el表达式中可以尝试使用 因为request response session servletContext servletConf
  • 小程序-报错 xxx is not defined (已解决)

    小程序 报错 xxx is not defined 已解决 问题情境 这样一段代码 微信的小程序报错 is not defined 我 wxml 想这样调用 wxml 代码
  • 力扣每日一题【用户分组】

    题目链接 用户分组 视频连接 用户分组 C 代码 class Solution public vector
  • CTO六大能力模型

    一个公司的CTO面临着许多难题和尴尬处境 他们整天忙得焦头烂额 跟CEO肩并肩共同应对各种困难 他们跟其它高管紧密配合 提供强大的技术后盾 他们不断学习新技术 制定符合企业的技术战略 想要成为一名优秀的CTO 究竟要具备哪些方面的能力素质
  • 如何评估大型语言模型(LLM)?

    编者按 近期几乎每隔一段时间 就有新的大语言模型发布 但是当下仍然没有一个通用的标准来评估这些大型语言模型的质量 我们急需一个可靠的 综合的LLM评估框架 本文说明了为什么我们需要一个全面的大模型评估框架 并介绍了市面上这些现有的评估框架