[论文] LIMA: Less Is More for Alignment

2023-11-10

文章目录

概要内容
关键方法
- 高质量样本获取
- 模型评估方法
结论
思考

Meta新模型LIMA，基于LLaMa-65B，精选1000个微调样本进行训练，对比GPT-4/Bard/DaVinci003，表现出强大的性能。
结果表明，大语言模型中的几乎所有知识都是在预训练过程中学习得到，在指令调整阶段，仅需要有限的多样化、高质量样本便可使模型生成结果得到提升。

地址：https://arxiv.org/abs/2305.11206

概要内容

大型语言模型通常分两阶段进行训练：（1）对海量原始文本进行无监督预训练，学习通用表征；（2）指令微调和强化学习，更好地适应最终任务和对齐用户偏好。

该论文通过训练LIMA来衡量这两个阶段的相对重要性，LIMA是一个65B参数的LLaMa语言模型，在没有任何强化学习或人类偏好建模的情况下，只对1000个精心策划的prompts和responses进行了标准监督损失的微调。

LIMA表现出了非常强大的性能，只从训练数据中的少数几个例子中学习到了特定的响应格式，包括一些复杂的查询。此外，模型对训练数据中的未见过的数据也能有较好的泛化。

在一项对照研究中，LIMA给出的结果43%的情况等同于或优于GPT-4，与Bard相比这一数据为58%，与使用人类反馈训练的DaVinci003相比这一统计数据高达65%。

实验结果强烈表明，大型语言模型中的几乎所有知识都是在预训练过程中学习的，只需要有限的指令调整数据便可以教会模型产生高质量的输出。

关键方法

高质量样本获取

从社区论坛StackExchange和wikiHow筛选750例热门问题答案，样例筛选要保证质量和多样性。在质量和多样性方面，作者针对不同的论文数据做了大量筛选工作，包括不同主题、最佳回答、长度控制等，具体见文章章节Aligment Data。

论文作者手动撰写了250个prompts和对应答案，同时保证了样例多样性和回答风格的一致性。
在这里插入图片描述
论文提出「表面对齐假设Superficial Alignment Hypothesis」：假设大模型的知识和能力主要是在预训练阶段学习到的，对齐只是教会模型在与用户交互时应该使用哪种格式的子分布（疑惑？）。如果该假设正确，那么对齐在很大程度上是关于学习风格的，人们可以用一组相当小的样本便可充分调动激活预训练语言模型的能力。

模型评估方法

将LIMA与其他模型进行比较，对每个测试prompt生成一个响应，然后要求工作人员将LIMA输出与基线模型输出进行比较，标记他们喜欢的模型结果。
在这里插入图片描述

LIMA与5个基准模型进行对比测试结果如下，LIMA给出的结果43%的情况等同于或优于GPT-4，与Bard相比这一数据为58%，与使用人类反馈训练的DaVinci003相比这一统计数据高达65%。作者还同时使用GPT-4做为评判员（右图），可以看出，和人工评判结果的表现基本一致。
在这里插入图片描述

结论

作者通过消融实验研究了微调训练数据的多样性、质量和数量对生成结果的影响。结论是微调样本的多样性和质量对结果具有可衡量的积极影响，而仅扩大微调样本数量可能并不会产生良性影响。
对未经筛选和经过筛选的Stack Exchange 2000样本数据，微调训练模型结果对比，在生成结果质量评估上二者相差0.5分。设置指数增长的训练集，当训练样本数量倍增时生成结果的质量并没有提升，这一结果表明对齐的比例定律（scaling laws）不仅取决于数量，而在于保证质量的同时提高prompt的多样性。
在这里插入图片描述

思考

大模型预训练阶段获得的能力决定了模型能力的上限，通常来说，在同级别海量语料和相同网络架构下，模型参数越多模型能力越强。在微调训练阶段，只是在进一步激活模型的潜在性能，通过本论文可以看到，微调样本量对生成结果质量并不是关键因素，在微调阶段，更应该关注于微调样本的多样性和数据质量。

基于GPT的生成式大语言模型，在预训练阶段通过对海量数据的无监督学习，得到语言生成能力和对世界知识的存储能力，这一步相当于是在「练内功」，预训练之后的微调和对齐训练是对语言模型能力的挖掘和激活，引入各种任务数据进行微调训练，相当于是「练招式」，只有内功强大，才能更好凸现武术招式的厉害。反过来，如果没有强大的内功再精彩的招式也是花拳绣腿，缺乏实战和落地能力。

再回顾一下chatGPT大模型的一些关键要点[2]：

语言生成能力、基础世界知识、上下文学习能力来自于预训练语言模型（GPT3+）
存储大量知识的能力来自于千亿级的参数量
执行复杂推理的能力很可能来自于代码的训练
指令微调不会为模型注入新的能力
指令微调通过牺牲性能换取与人类的对齐（alignment tax）
生成中立、客观的能力，安全和翔实的答案来自与人类的对齐(RLHF)

参考

https://mp.weixin.qq.com/s/sbIa-fIHvMlp-2aYtCtVLQ

https://www.cnblogs.com/LittleHann/p/17303550.html#_lab2_1_3

---------END---------

同步更新到：AI加油站

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)