[论文] LIMA: Less Is More for Alignment

2023-11-10


Meta新模型LIMA,基于LLaMa-65B,精选1000个微调样本进行训练,对比GPT-4/Bard/DaVinci003,表现出强大的性能。
结果表明,大语言模型中的几乎所有知识都是在预训练过程中学习得到,在指令调整阶段,仅需要有限的多样化、高质量样本便可使模型生成结果得到提升。

地址https://arxiv.org/abs/2305.11206

概要内容

大型语言模型通常分两阶段进行训练:(1)对海量原始文本进行无监督预训练,学习通用表征;(2)指令微调和强化学习,更好地适应最终任务和对齐用户偏好。

该论文通过训练LIMA来衡量这两个阶段的相对重要性,LIMA是一个65B参数的LLaMa语言模型,在没有任何强化学习或人类偏好建模的情况下,只对1000个精心策划的prompts和responses进行了标准监督损失的微调。

LIMA表现出了非常强大的性能,只从训练数据中的少数几个例子中学习到了特定的响应格式,包括一些复杂的查询。此外,模型对训练数据中的未见过的数据也能有较好的泛化。

在一项对照研究中,LIMA给出的结果43%的情况等同于或优于GPT-4,与Bard相比这一数据为58%,与使用人类反馈训练的DaVinci003相比这一统计数据高达65%。

实验结果强烈表明,大型语言模型中的几乎所有知识都是在预训练过程中学习的,只需要有限的指令调整数据便可以教会模型产生高质量的输出。

关键方法

高质量样本获取

从社区论坛StackExchangewikiHow筛选750例热门问题答案,样例筛选要保证质量和多样性。在质量和多样性方面,作者针对不同的论文数据做了大量筛选工作,包括不同主题、最佳回答、长度控制等,具体见文章章节Aligment Data。

论文作者手动撰写了250个prompts和对应答案,同时保证了样例多样性和回答风格的一致性。
在这里插入图片描述
论文提出「表面对齐假设Superficial Alignment Hypothesis」:假设大模型的知识和能力主要是在预训练阶段学习到的,对齐只是教会模型在与用户交互时应该使用哪种格式的子分布(疑惑?)。如果该假设正确,那么对齐在很大程度上是关于学习风格的,人们可以用一组相当小的样本便可充分调动激活预训练语言模型的能力。

模型评估方法

将LIMA与其他模型进行比较,对每个测试prompt生成一个响应,然后要求工作人员将LIMA输出与基线模型输出进行比较,标记他们喜欢的模型结果。
在这里插入图片描述

LIMA与5个基准模型进行对比测试结果如下,LIMA给出的结果43%的情况等同于或优于GPT-4,与Bard相比这一数据为58%,与使用人类反馈训练的DaVinci003相比这一统计数据高达65%。作者还同时使用GPT-4做为评判员(右图),可以看出,和人工评判结果的表现基本一致。
在这里插入图片描述

结论

作者通过消融实验研究了微调训练数据的多样性、质量和数量对生成结果的影响。结论是微调样本的多样性和质量对结果具有可衡量的积极影响,而仅扩大微调样本数量可能并不会产生良性影响。
对未经筛选和经过筛选的Stack Exchange 2000样本数据,微调训练模型结果对比,在生成结果质量评估上二者相差0.5分。设置指数增长的训练集,当训练样本数量倍增时生成结果的质量并没有提升,这一结果表明对齐的比例定律(scaling laws)不仅取决于数量,而在于保证质量的同时提高prompt的多样性。
在这里插入图片描述

思考

大模型预训练阶段获得的能力决定了模型能力的上限,通常来说,在同级别海量语料和相同网络架构下,模型参数越多模型能力越强。在微调训练阶段,只是在进一步激活模型的潜在性能,通过本论文可以看到,微调样本量对生成结果质量并不是关键因素,在微调阶段,更应该关注于微调样本的多样性和数据质量。

基于GPT的生成式大语言模型,在预训练阶段通过对海量数据的无监督学习,得到语言生成能力和对世界知识的存储能力,这一步相当于是在「练内功」,预训练之后的微调和对齐训练是对语言模型能力的挖掘和激活,引入各种任务数据进行微调训练,相当于是「练招式」,只有内功强大,才能更好凸现武术招式的厉害。反过来,如果没有强大的内功再精彩的招式也是花拳绣腿,缺乏实战和落地能力。

再回顾一下chatGPT大模型的一些关键要点[2]:

  • 语言生成能力、基础世界知识、上下文学习能力来自于预训练语言模型(GPT3+)
  • 存储大量知识的能力来自于千亿级的参数量
  • 执行复杂推理的能力很可能来自于代码的训练
  • 指令微调不会为模型注入新的能力
  • 指令微调通过牺牲性能换取与人类的对齐(alignment tax)
  • 生成中立、客观的能力,安全和翔实的答案来自与人类的对齐(RLHF)

参考

  1. https://mp.weixin.qq.com/s/sbIa-fIHvMlp-2aYtCtVLQ
  2. https://www.cnblogs.com/LittleHann/p/17303550.html#_lab2_1_3

---------END---------

同步更新到:AI加油站

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

[论文] LIMA: Less Is More for Alignment 的相关文章

  • 喜报|华测导航荣获“张江之星”领军型企业称号

    近日 2023年度 张江之星 企业培育名单发布 上海华测导航荣获2023年度 张江之星 领军型企业称号 据悉 张江之星 企业培育是上海科创办为落实 关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见 张江高新区加快世界领先科技园区
  • socket网络编程几大模型?看看CHAT是如何回复的?

    CHAT回复 网络编程中常见的有以下几种模型 1 阻塞I O模型 Blocking I O 传统的同步I O模型 一次只处理一个请求 2 非阻塞I O模型 Non blocking I O 应用程序轮询调用socket相关函数检查请求 不需
  • 基于java的ssh医院在线挂号系统设计与实现

    基于java的ssh医院在线挂号系统设计与实现 I 引言 A 研究背景和动机 基于Java的SSH医院在线挂号系统设计与实现的研究背景和动机 随着信息技术的迅速发展和应用 医院在线挂号系统已成为医院管理的重要组成部分 传统的挂号方式存在许多
  • 打造完美人像,PixCake像素蛋糕助您一键修图

    您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰 是否曾经想要打造出完美的自拍照 却不知道该如何下手 现在 我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
  • 毕业设计:基于卷积神经网络的图像分类系统 python人工智能

    目录 前言 设计思路 一 课题背景与意义 二 算法理论原理 2 1 卷积神经网络 2 2 SVM算法 三 检测的实现 最后 前言 大四是整个大学期间最忙碌的时光 一边要忙着备考或实习为毕业后面临的就业升学做准备 一边要为毕业设计耗费大量精力
  • 性能大减80%,英伟达芯片在华“遇冷”,我方霸气回应:不强求

    中国这么大一块市场 谁看了不眼馋 在科技实力大于一切的今天 高端芯片的重要性不言而喻 作为半导体产业发展过程中不可或缺的一环 芯片技术也一直是我国技术发展的一大 心病 在美西方等国的联手压制下 我国芯片技术发展处处受阻 至今也未能在高端芯片
  • 作物叶片病害识别系统

    介绍 由于植物疾病的检测在农业领域中起着重要作用 因为植物疾病是相当自然的现象 如果在这个领域不采取适当的护理措施 就会对植物产生严重影响 进而影响相关产品的质量 数量或产量 植物疾病会引起疾病的周期性爆发 导致大规模死亡 这些问题需要在初
  • 用通俗易懂的方式讲解:使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成

    检索增强生成 Retrieval Augmented Generation RAG 是一种结合了检索 Retrieval 和生成 Generation 的技术 它有效地解决了大语言模型 LLM 的一些问题 比如幻觉 知识限制等 随着 RAG
  • 如何用GPT进行论文润色与改写?

    详情点击链接 如何用GPT GPT4进行论文润色与改写 一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图 图像识别 文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
  • AI在保护环境、应对气候变化中的作用

    对于AI生命周期数据领域的全球领导者而言 暂时搁置我们惯常的AI见解和AI生命周期数据内容产出 来认识诸如世界地球日这样的自然环境类活动日 似乎是个奇怪的事情 我们想要知道 数据是否真的会影响我们的地球环境 简而言之 是 确实如此 但作为一
  • AI在广告中的应用——预测性定位和调整

    营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前 从而增加他们购买的可能性 随着时间的推移 营销人员能够深入挖掘越来越精准的客户细分市场 他们不仅具备了实现上述目标的能力 而且这种能力还在呈指数级提升 在AI技术帮助下 现在的营销
  • AI帮助终结全球饥饿问题

    全球饥饿问题是牵动人心的头等大事 5月28日是 世界饥饿日 这一问题更值得关注 让人人都能吃饱的想法不仅令人向往 而且很快就会变成现实 与大多数新事物引进一样 对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用 人们还踟蹰不前
  • CorelDRAW2024官方中文版重磅发布更新

    35年专注于矢量设计始于1988年并不断推陈出新 致力为全球设计工作者提供更高效的设计工具 CorelDRAW 滋养并见证了一代设计师的成长 在最短的时间内交付作品 CorelDRAW的智能高效会让你一见钟情 CorelDRAW 全称 Co
  • 开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?(浙江大学最新)...

    点击下方 卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述 文章首先回顾了3D Gaussian的原理和应用 借着全面比较了3D GS在静态
  • 考虑光伏出力利用率的电动汽车充电站能量调度策略研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 数据
  • 基于节点电价的电网对电动汽车接纳能力评估模型研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 数据
  • 国产化率100%,北斗导航单日定位4500亿次,外媒:GPS将被淘汰

    追赶30年的技术差距 国产卫星导航系统 北斗 开始扬眉吐气 数据显示 北斗导航目前单日定位量达4500亿次 已经获得100多个国家的合作意向 甚至国际民航也摒弃以往 独宠 GPS的惯例 将北斗纳入参考标准 对此 有媒体直言 GPS多年来的技
  • 深度学习(5)--Keras实战

    一 Keras基础概念 Keras是深度学习中的一个神经网络框架 是一个高级神经网络API 用Python编写 可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计 用户友好性 模块化和可扩
  • Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

    文章目录 摘要 1 问题的提出 引出当前研究的不足与问题 KGC方法 LLM幻觉现象 解决方案 2 数据集和模型构建
  • AI 赋能绿色制冷,香港岭南大学开发 DEMMFL 模型进行建筑冷负荷预测

    近年来 城市化进程加速所带来的碳排放量骤增 已经严重威胁到了全球环境 多个国家均已给出了 碳达峰 碳中和 的明确时间点 一场覆盖全球 全行业的 绿色革命 已经拉开序幕 在一众行业中 建筑是当之无愧的能耗大户 其中又以暖通空调 Heating

随机推荐

  • http协议各个版本

    一 HTTP协议版本更替 http 0 9 1991 原型版本 功能简陋 只有一个命令GET GET index html 服务器只能回应HTML格式字符 串 不能回应别的格式 http 1 0 每个TCP连接只能发送一个请求 发送数据完毕
  • osgEarth的Rex引擎原理分析(六)earth文件如何解析成Config

    目标 解决 一 中的问题 构建地图节点的依据是Config osgEarthDrivers earth EarthFileSerialize2 cpp osg Node EarthFileSerializer2 deserialize co
  • 13. 实战:XPath法抓取某网站外包信息

    目录 前言 思路 代码实现 第一步 先获取页面源代码 第二步 交给XPath的HTML解释器进行解析 第三步 通过源代码检查并获取XPath路径 第四步 创建csv文件 准备写入数据 第五步 遍历所有的div 获取我们需要的信息 完整代码
  • linux:ubuntu mysql 、redis和Mongodb安装

    1 安装mysql sudo apt update sudo apt install mysql server 验证MySQL服务器正在运行 sudo systemctl status mysql 保护MySQL 安装随附一个名为的脚本my
  • 基于KOS系统超详细Aircrack-ng安装保姆级教程

    目录 1 概述 2 安装准备 2 1 操作系统环境 2 2 软件版本 3 安装运行 3 1 安装编译环境 3 2 获取Aircrack ng源码包 3 3 编译Aircrack ng 3 4 运行Aircrack ng 1 概述 浪潮信息K
  • 一些时序计算题

    最近在持续笔试中 今天见的题感觉难度又上升了 因此需要计算一下 首先来看一下题目 已知 输入延时 T in delay 1ns Inverter的延时 T inv max 1ns T inv min 0 5ns Buffer的延时 T bu
  • yolov2检测网数据集获取与预处理_采集健康和非健康猫狗数据

    yolov2检测网数据集获取与预处理 采集健康和非健康猫狗数据 一 网上公开数据集 二 获取并预处理数据集 2 1 获取非健康的猫狗数据 2 2 剔除重复的猫狗数据 2 3 淘宝购买猫狗救助视频 2 4 批量重命名猫狗 2 5 图像数据下采
  • PHP本地环境搭配——WAMP不能启动, 一直处于红色图标或者橙色图标的解决办法

    WAMP不能启动 一直处于红色图标 正常启动为绿色吧 考虑是端口的问题 我找到wamp文件夹中的wamp bin apache apache2 2 22 conf路径下的httpd conf文件 将 Listen 12 34 56 78 8
  • windows下进入DOS命令无法切换目录

    问题呈现 运行 gt cmd gt cd E redis redis2 8 此时无法切换指定目录 E redis redis2 8 解决办法 1 运行 gt cmd gt E 2 回车
  • JavaScript一次替换字符串中多个

    问题 在JavaScript中对字符串替换时可能出现想要替换的字符串strB在原字符串strA中出现多次 而string replace方法只能替换一个字符串strB 解决方法 多次使用replace替换 使用replace 正则表达式替换
  • Rust 编程: 条件编译-Features

    Rust 编程 条件编译 Features Rust 支持条件编译 可通过两种不同的操作实现 cfg 属性 在属性位置中使用 cfg cfg 宏 在布尔表达式中使用 cfg 根据操作系统引用不同文件的相同模块 cfg attr target
  • java-在数组中,用二分法查找一个数。返回下标,找不到则返回-1。

    编写程序 完成下列功能 1 输入 20 个整数到数组中 2 对 20 个数按从大到小的顺序排序 输出排序后的数组 3 输入一个整数 x 4 在数组中 用二分法查找 x 如果找到了输出 x 在数组中的下标 找不到输出 1 package la
  • python Image模块基本语法

    Python Image 基本的图像处理操作 有需要的朋友可以参考下 Python 里面最常用的图像操作库是 Image library PIL 功能上 虽然还不能跟Matlab比较 但是还是比较强大的 废话补多少 写点记录笔记 1 首先需
  • Power BI /Power BI Pro账户等基本概念介绍

    视频内容 Power BI 的基本概念 Power BI 的概念 Power BI 是一种商业分析解决方案 可帮助对数据进行可视化 共享可视化报表 或将报表嵌入应用或网站中 Microsoft Power BI 是一系列的软件服务 应用和连
  • 组件封装

    基本用法 在使用 vue cli 创建的项目中 组件的创建非常方便 只需要新建一个 vue 文件 然后在 template 中写好 HTML 代码 一个简单的组件就完成了 一个完整的组件 除了 template 以外 还有 script和
  • Cannot find module ‘@/views/test/index.vue‘ or its corresponding type declarations.ts(2307)的原因

    在Vue的TypeScript项目中 使用const test gt import views test index vue 语法动态导入模块时 可能会出现类型声明文件找不到的错误 这是由于TypeScript无法正确解析动态导入的路径而导
  • 五线舵机驱动程序_16路舵机驱动板程序使用说明

    用Arduino类库驱动舵机并不是一件难事 如果需要驱动很多电机 就需要要占用更多的引脚 也会影响到Arduino的处理能力 专门的舵机驱动板很好的解决了这个问题 此舵机驱动板使用PCA9685芯片 是16通道12bi tPWM舵机驱动 用
  • 2020年“泰迪杯”数据分析职业技能大赛A 题优秀报告:教育平台的线上课程智能推荐策略

    摘要 近年来 随着互联网与通信技术的高速发展 学习资源共享与建设呈现出新的发展趋势 多样化的线上教育平台如雨后春笋般争相涌入大众视野 尤其是在今年年初 受新冠肺炎疫情的冲击下 学生返校进行线下授课收到严重阻碍 由此 网络线上平台由此成为 互
  • 字节跳动精准测试实践,SmartEye背后的设计逻辑

    简介 在移动互联网高度发展下 移动APP趋近于大型化 功能也趋近于复杂化 诸如各种国民级应用 功能 玩法等迭代不停 其背后对应的研发协作团队也非常庞大 在此种场景下 依靠人力堆叠去保障产品质量 并非最优解 在软件规模达到某个临界点之后 问题
  • [论文] LIMA: Less Is More for Alignment

    文章目录 概要内容 关键方法 高质量样本获取 模型评估方法 结论 思考 Meta新模型LIMA 基于LLaMa 65B 精选1000个微调样本进行训练 对比GPT 4 Bard DaVinci003 表现出强大的性能 结果表明 大语言模型中