ChatGPT的评估指标有哪些?微调与上下文学习是否存在相似性?

2023-11-17

NLP 分很多的任务,不同的任务有不同的指标来度量模型质量,比如AUC,Precision/Recall是分类模型的度量指标。

27871cb4c77a18ff85d03ea658076171.png

ChatGPT可以看作一个生成式语言模型,简单说就是给它输入一段文字,它会输出另一段文字,当然输出和输入之间是有关联的。对于这类模型,本文将介绍部分评估指标。

Q

在传统的机器学习中,我们有AUC、Precision/Recall等指标,但是衡量ChatGPT输出质量应该使用什么指标呢?

1

BLEU分数(BLEU Score)

基于n-gram重叠度量生成文本和参考文本之间的相似性,评估机器生成的文本与参考文本之间的质量。然而,BLEU具有一些局限性,可能无法完全捕捉质量差异的全部范围。

2

困惑度(Perplexity)

表示模型在对给定文本进行预测时的不确定性和混乱程度。

3

语言流畅度(Fluency)

生成文本的流畅性和符合自然语言表达的能力。

4

相关性(Relevance)

生成文本应该与前文内容相关,并符合预期的输出内容。

5

语义准确性(Semantic Accuracy)

生成文本的意义是否符合原始输入或上下文的意义。

6

多样性(Diversity)

生成文本的多样性和独创性。

7

一致性(Coherence)

生成文本的连贯性、逻辑性和清晰度。

ChatGPT 作为生成模型,上述指标都可以对其进行评价。而困惑度在很大程度上可以区分人类生成语言和模型生成语言,因此近来兴起的一系列针对ChatGPT的反作弊工具都会将困惑度作为评判是否机器生成的依据。

c05a61f70bf149273379a42842ed615d.png

Q

如何理解“微调”和上下文学习在LLM中的相似性?这是否意味着使用这些学习方法将在下游任务中获得类似的性能?

A

In-context Learning 的基本思想是将学习的过程集成到使用模型的过程中,从而使模型能够根据实时输入的上下文信息自适应地调整自己的行为和输出。比如现在常说的Prompt Learning(又叫 Prompt-based Learning)就属于In-context Learning。

Pretrained Model + Finetuning 与 LLM + Prompt Learning 是两种不同的范式。前者一般指针对特定的下游任务(例如分类、续写等),在Pretrained Model原有的网络结构上在增加一到多层额外的网络层,然后进行训练,Finetuned Model既改变了Pretrained Model的网络结构也改变了其中的参数。而后者则是不会改变LLM原本的网络结构或参数的。

Q

微调方法是否会导致灾难性遗忘?如果是,那么上下文学习方法是否比微调方法更好?

A

Catastrophic forgetting 说的是在一个任务上训练出来的模型,如果在一个新任务上进行训练,就会大大降低原任务上的泛化性能,即之前的知识被严重遗忘了。

Finetuning和catastrophic forgetting之间并没有必然的关联。而Prompt Learning从实践的角度,也又发现教了新知识LLM忘了之前教授知识的情况。

622537f3b434fe50ed954982a66253e2.gif

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

ChatGPT的评估指标有哪些?微调与上下文学习是否存在相似性? 的相关文章

随机推荐

  • 使用DQN训练Grid_word任务

    Tensorflow实战 一书中 强化学习一章里讲到了DQN网络 很有感触 在这里和大家分享一下 DQN网络也是Q learning的升级版 在原有的Q learning中加入了卷积层 由于深度学习需要大量的样本数据 DQN也就引入了Exp
  • 常见的计算机局域网络的拓扑结构是,局域网常见的拓扑结构有哪三种

    大家好 我是时间财富网智能客服时间君 上述问题将由我为大家进行解答 局域网常见的拓扑结构有星型结构 环型结构和总线型结构 1 星型结构 这种结构是目前在局域网中应用得最为普遍的一种 在企业网络中几乎都是采用这一方式 星型网络几乎是Ether
  • 目标检测和语义分割常用的数据增强(代码)

    语义分割 from PIL import Image ImageFont ImageDraw ImageEnhance import matplotlib pyplot as plt import numpy as np import ra
  • xshell5产品秘钥

    xshell5产品秘钥 150105 116578 999990 转载于 https www cnblogs com lxcmyf p 7551610 html
  • 打开VMware虚拟机时提示“内部错误”

    解决方法 输入命令行 services msc打开服务 将上述服务重启 可以正常进入虚拟机
  • 移动Web:媒体查询及手机端PC端识别

    媒体查询 响应式布局的核心 能够检测视口的宽度 然后编写差异化的 css 样式调整网页的布局方式 响应式布局原理 根据 UI 设计稿需求合理设置响应断点 配合媒体查询书写差异化CSS样式 响应断点是指媒体查询所采用的视口的宽度 作用 将屏幕
  • SAR: 1 4 https://www.vulnhub.com/entry/sar-1%2C425/

    SAR 1 About Release Back to the Top Name Sar 1 Date release 15 Feb 2020 Author Love Series Sar Download Back to the Top
  • 一种基于卷积神经网络的图像去雾研究-含matlab代码

    目录 一 绪论 二 去雾卷积网络 2 1 特征提取 2 2 多尺度映射 2 3 局部均值 2 4 非线性回归 三 实验与分析 四 Matlab代码获取 一 绪论 雾是一种常见的大气现象 空气中悬浮的水滴 灰尘 细沙或其他颗粒等都会引起成像清
  • SpringBoot 配置全局异常处理

    SpringBoot 项目pom xml 依赖配置文件
  • 数字化时代新经营模式千载难逢的翻身机会

    随着互联网的兴起 它对于线下实体商户的冲击早已不是一天两天了 网上店铺的崛起 吸引走了大部分流量 这对于靠流量吃饭的线下商户来说 是致命的打击 相关数据统计 这几年 随着网络购物越来越火热 越来越成为一种消费主流 线下实体商户的闭店率出现了
  • 迪文串口屏TTL与主控板RS232电平信号转换方案

    一 TTL和RS232简述 串口 COM口是指的物理接口形式 硬件 按位 bit 发送和接收字节 而TTL RS 232是指的电平标准 电信号 TTL和RS232不同在于 电平表示的逻辑含义不同 1 TTL 逻辑高电平 1 3 3V或5V
  • (转)工业机器人用什么语言编程的?

    机器人的开发语言一般为C C C Builder VB VC等语言 主要取决于执行机构 伺服系统 的开发语言 而机器人编程分为示教 动作级机器人编程语言 任务级编程语言三个级别 机器人编程语言分为专用操作语言 如VAL语言 AL语言 SLI
  • Dynamic Web project,Jsp可正常访问,servlet出现404,刷新出现Http500,解决方式

    新手建立首个Dynamic Web project Jsp可正常访问 servlet出现404 刷新出现Http500 解决方式如下 Tips 关于配置servlet到web xml Servlet class 为pakagename se
  • PyTorch 的 Autograd详解

    点击蓝字 关注视学算法 作者丨xiaopl 知乎 来源丨https zhuanlan zhihu com p 69294347 编辑丨极市平台 PyTorch 作为一个深度学习平台 在深度学习任务中比 NumPy 这个科学计算库强在哪里呢
  • Go语言学习9-结构体类型

    结构体类型 引言 1 结构体 1 1 类型表示法 1 2 值表示法 1 3 属性和基本操作 附录 引言 书接上篇 我们了解了Go语言的接口类型 现在介绍Go语言的结构体类型 主要如下 1 结构体 结构体类型既可以包含若干个命名元素 又称字段
  • React从入门到精通二

    React从入门到精通之购物车案例 1 购物车需求说明 使用到的data list 2 项目code 1 购物车需求说明 list data展示到列表中 每个item的通过 按钮来控制购买的数据量 删除按钮可以删除当前的item Total
  • Request+超详细代码+视图分析(获取值)

    Request 1 request对象和response对象的原理 1 request和response对象是由服务器创建的 我们来使用它们 2 request对象是来获取请求消息 response对象是来设置响应消息 2 request对
  • constrain用法_constrain是什么意思_constrain的用法

    constrain的音标 英 k n stre n 美 k n stre n constrain的用法 v 强迫 强制 迫使 限制 限定 约束 第三人称单数 constrains 现在分词 constraining 过去式 constrai
  • Numpy学习笔记

    基于Wes McKinney的Python for Data Analysis第四章NumPy Basics Arrays and Vectorized Computation整理代码得来 最近在自学Python 感觉还是要敲一下的 又懒得
  • ChatGPT的评估指标有哪些?微调与上下文学习是否存在相似性?

    NLP 分很多的任务 不同的任务有不同的指标来度量模型质量 比如AUC Precision Recall是分类模型的度量指标 ChatGPT可以看作一个生成式语言模型 简单说就是给它输入一段文字 它会输出另一段文字 当然输出和输入之间是有关