700亿参数Llama 2训练加速195%!数据成为其提升效果的关键要素

2023-11-04

Llama 2是Meta AI正式发布的最新一代开源大模型,达到了2万亿的token精调Chat模型是在100万人类标注数据上训练。Llama 2在包括推理、编码、精通性和知识测试等许多外部基准测试中都优于其他开源语言模型。

Llama 2开启了全球范围内AI大型模型的共享新篇章。它包括了模型权重和用于预训练和微调的Llama语言模型的起始代码,参数范围从70亿到700亿不等。相比于上一代模型,Llama 2采用了更多的训练数据,并且将context length直接翻倍,达到了4096。此外,Llama 2在人类的评判下与目前主流的模型相比占据上风,其中包括了在上下文长度为4K下的单轮与多轮对话。

Llama 2在预训练设置和模型架构上和一代模型非常相似。

如图所示,Llama系列模型都使用了自回归Transformer架构,即Transformer's decoder-only架构。两代模型之间保持了一致性。这种一致性体现在以下方面:

预归一化(Pre-normalization):对每个transformer的子层输入都进行归一化处理,使用RMSNorm归一化函数,以确保模型更加稳定和高效地训练。

SwiGLU激活函数:在前馈神经网络(FFN)使用SwiGLU 激活函数,以替换Transformer中的 ReLU 激活函数,从而提高了模型的性能表现。

旋转嵌入编码(Rotary Positional Embeddings,RoPE):RoPE允许模型同时处理相对位置和绝对位置的信息,从而提高模型的泛化能力。这种技术的使用有助于模型更好地理解和处理序列信息。

数据是模型效果提升的关键,Llama 2不仅是在训练数据量的层面相比上一代Llama 1增加了40%,数据的来源和丰富性也得到了显著的增强。

数据质量对Llama 2模型的影响非常显著。如果使用质量不高的开源对话数据,会导致模型效果不佳。相反,如果使用质量更高的对话数据,模型效果会显著提升。因此,Meta在训练Llama 2模型时,对数据进行了严格的筛选,选择了高质量的对话数据。

此外,不同的数据源会对微调后的结果产生显著影响,这也进一步凸显了数据质量的重要性。为了验证数据质量,Meta认真考察了180条样本,并比较了经过人工审核的模型生成结果和人类自己编写的结果。结果显示,经过人工审核的数据与人类编写的数据相比也是具有竞争力的,这意味着高质量的数据对于训练对话模型至关重要。因此,Meta在训练Llama 2模型时,花费大量精力收集了高质量的人类反馈数据。

通过增加数据量、提高数据质量、增加数据多样性和改进数据标注等措施,可以显著提高模型的效果和性能,使模型达到最佳效果,从而构建更加智能、高效、准确的AI应用。

只有高质量的数据才能使模型学习到正确的语言规则和语法,减少出现偏见和误解的可能性;来自多种来源和背景的数据可以增加模型的泛化能力,使其能够适应不同的场景和语言风格;正确的数据标注对于模型的训练也是非常重要的,因为它可以帮助模型更好地理解输入数据的含义和目标,从而更好地生成输出。

景联文科技拥有丰富的文本数据采集标注项目经验,可为AI大模型提供文本相关数据采集和数据标注服务。自有的数据管理平台,支持自然语言处理:文本清洗、OCR转写、情感分析、词性标注、句子编写、意图匹配、文本判断、文本匹配、文本信息抽取、NLU语句泛化、机器翻译等多类型数据标注。打通数据闭环,可有序进行数据分发、清洗、标注、质检、等环节,交付高质量的训练数据,提高企业AI数据训练效率,加速人工智能相关应用的落地迭代周期。

景联文科技|数据采集|数据标注

助力人工智能技术,赋能传统产业智能化转型升级

文章图文著作权归景联文科技所有,商业转载请联系景联文科技获得授权,非商业转载请注明出处。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

700亿参数Llama 2训练加速195%!数据成为其提升效果的关键要素 的相关文章

随机推荐

  • 一名系统研究者的攀登之路-陈海波-

    陈海波 原复旦大学Pa ra lle l Proc e s s ing Institute实验室的牛人 在sosp EuroSys等世界最顶级会议上发表过论文的大牛人 不过 现在被上交软件学院给挖走了 哈哈 1 引言 写好计算机系统领域的研
  • Mysql用同一张表查询的结果删除此表的数据报错

    DELETE FROM study name WHERE name id IN SELECT name id FROM study name WHERE name id 20221209 执行会报错如下 DELETE 0 row s 0 0
  • LaTex学习笔记(三):矩阵的输入

    矩阵的输入类似于表格 在latex中输入矩阵有多种方式 1 left begin array clr 4343 434 235 45 3232 34 56 232 3467 end array right 2 begin bmatrix 不
  • Excel 两列数据中相同的数据进行同行显示

    一 要求 假设您有两个列 分别是A列和B列 需要在C列中找出A列对应的B列的值 二 方案 方法1 寻常思路 凸显重复项 对A列单独进行筛选 按颜色进行排序 然后升序 对B列重复上述操作即可 方法2 两个公式 VLOOKUP 纵向查找函数 语
  • HDFS操作

    1 使用oiv命令查看hadoop 的镜像文件 hadoop s201 hadoop dfs name current hdfs oiv Usage bin hdfs oiv OPTIONS i INPUTFILE o OUTPUTFILE
  • Python处理缺失数据

    目录 1 缺失原因 2 缺失类型 3 处理方法 3 1 删除 3 1 1 统计每列缺失值的个数 3 1 2 直接删除含有缺失值的行 3 1 3 直接删除含有缺失值的列 3 1 4 只删除全是缺失值的行 3 1 5 保留至少有4个非缺失值的行
  • 51单片机(STC)串口无阻塞发送函数

    目录 一 简介 1 1 开发环境 1 2 功能描述 二 串口程序 2 1 串口配置 2 2 变量定义 2 3 中断函数 2 4 发送函数 一 简介 1 1 开发环境 KeilC51 单片机型号STC15F2K60S2 1 2 功能描述 使用
  • Hutool导出Excel,导多个Sheet页

    重要方法 指定要写出的 Sheet 页 bigWriter setSheet sheet getSheetName 工具类 public class HuExcelUtils 导出多个 Sheet 页 param response para
  • 零售业未来如何破局?抓住数智化经营的两把利刃!

    导语 数字化转型浪潮席卷了千行百业 有人从中看出了汹涌的挑战 也有人从中嗅出了美妙的商机 对于零售企业而言 当前数智经营进入了哪个阶段 未来的破局之道又在何方 我们邀请到了广东省 CIO 协会消费品与零售行业分会会长 腾讯云 TVP 行业大
  • Unity3D

    Cheer Up 游戏说明 除了音效 游戏地图上的元素有 草丛 玩家可以躲进去 敌人攻击不到 河流 双方都过不去 但是子弹可以穿过 铁墙 坦克和子弹都过不去 砖墙 一发子弹摧毁后坦克可以过去 空气墙 围在地图周围 防止出界 敌方大坦克 打两
  • 介绍几款Python科学计算发行版

    目前比较流行的Python科学计算发行版 主要有这么几个 Python x y GUI基于PyQt 曾经是功能最全也是最强大的 而且是Windows系统中科学免费Python发行版的不二选择 不过今时已不同往昔 PythonXY里面的许多包
  • 在Excel中使用SQL

    说明 Excel中许多函数虽然能代替SQL的功能 但是比起SQL 还是有一些逊色 特意做了这个教程 主要有 分组统计 Excel中用数据透视表 SQL中用Group By 去重 Excel中可以用条件标识功能 开始 gt 条件标识 SQL中
  • 无闪视频风格切换新思路

    近段时间 视频风格切换应用的热度逐渐上升 包括已经成熟应用的gen 还有Ebsynth等 但是这些视频的切换都有一个通病就是视频会出现闪烁 导致最终的切换效果不佳 最近 有开源项目CoDeF提供了一种新的思路来解决这种闪烁的问题 从已经的公
  • ubuntu下使用Eclipse搭建Hadoop开发环境

    在ubuntu下使用Eclipse搭建Hadoop开发环境 一 安装准备 1 JDK版本 jdk1 7 0 jdk 7 linux i586 tar gz 2 hadoop版本 hadoop 1 1 1 hadoop 1 1 1 tar g
  • Milvus2.0

    一 介绍 项目官网 Milvus Open Source Vector Database built for scalable similarity searchhttps milvus io cn 项目文档 关于 Milvus Milvu
  • 页面禁止鼠标右键点击

    把这段代码放到head里就OK了
  • ChatGPT+Midjourney可量产“宫崎骏”,AI将会让多少设计师失业?

    最近 大家都被横空出世的ChatGPT惊艳到了 瞬间在全世界爆红的ChatGPT 除了陪聊 它还能写论文 写小说 写代码 编剧本 几乎无所不能 ChatGPT让科技巨头谷歌发出了红色警报 一夜之间全世界的打工人们也都慌了 我们的很多工作似乎
  • 带环单链表+带环单链表

    带环单链表 带环单链表 判断相交 若共用一个环则相交 若不共用则不相交 求解相交点 判断是否带环 定义快慢指针 快指针一次走两步 慢指针一次走一步 若快指针走完 慢指针走到一半 奇数为中间的节点 偶数为中间的两个中的后一个节点 则无环 若有
  • Windows下非常好用的包管理器scoop介绍

    以前我写过文章介绍过Windows下的包管理器Chocolatey 而Chocolatey并不是唯一的选择 还有一个很流行的选择就是scoop 原来我用Chocolatey比较多一点 但是后来因为我发现Chocolatey安装的JDK等软件
  • 700亿参数Llama 2训练加速195%!数据成为其提升效果的关键要素

    Llama 2是Meta AI正式发布的最新一代开源大模型 达到了2万亿的token 精调Chat模型是在100万人类标注数据上训练 Llama 2在包括推理 编码 精通性和知识测试等许多外部基准测试中都优于其他开源语言模型 Llama 2