悟道·天鹰 Aquila + 天秤 FlagEval,打造大模型能力与评测标准双标杆

2023-11-17

4ce418881747e72fa0da4d9d1a69553b.png

为推动大模型在产业落地和技术创新,智源研究院发布“开源商用许可语言大模型系列+开放评测平台” 2 大重磅成果,打造“大模型进化流水线”,持续迭代、持续开源开放。

01

悟道·天鹰(Aquila)

开源商用许可语言大模型系列

悟道·天鹰(Aquila) 语言大模型是首个具备中英双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。

悟道·天鹰(Aquila)语言大模型在中英文高质量语料基础上从 0 开始训练,通过数据质量的控制、多种训练的优化方法,实现在更小的数据集、更短的训练时间,获得比其它开源模型更优的性能。系列模型包括 Aquila基础模型(7B、33B),AquilaChat对话模型(7B、33B)以及 AquilaCode-7B “文本-代码”生成模型,后续将持续更新迭代并开源更新版本。

开源地址:

https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

Aquila基础模型(7B、33B)在技术上继承了 GPT-3、LLaMA 等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer,升级了 BMTrain 并行训练方法,实现了比 Magtron+DeepSpeed ZeRO-2 将近8倍的训练效率

AquilaChat 对话模型(7B、33B)支持流畅的文本对话及多种语言类生成任务,通过定义可扩展的特殊指令规范,实现 AquilaChat对其它模型和工具的调用,且易于扩展。例如,调用智源开源的 AltDiffusion 多语言文图生成模型,实现了流畅的文图生成能力。配合智源 InstructFace 多步可控文生图模型,轻松实现对人脸图像的多步可控编辑。

  • AquilaChat 训练过程中,实现了模型能力与指令微调数据的循环迭代,包括数据集的高效筛选与优化,充分挖掘基础模型的潜力。

a63a84f36186c4f4cd6b960fde7a0abe.gif

图注:多轮对话

241ab9787a8427487e4241e6f226ff00.gif

图注:高考作文生成

  • AquilaChat 支持可扩展的特殊指令规范,令用户可在AquilaChat中轻松实现多任务、工具的嵌入,如文图生成,下图示例为在对话中调用智源开源的多语言文图生成模型 AltDiffusion。

a8fe03d713ec1d78abc89c2bae2d1584.gif

图注:文图生成

  • AquilaChat 具备强大的指令分解能力,配合智源InstructFace多步可控文生图模型,轻松实现对图片的多步可控编辑。

17827a49e6d5bb33bb03bd0102a204c7.gif

图注:多步可控人脸编辑

AquilaCode-7B “文本-代码”生成模型,基于 Aquila-7B 强大的基础模型能力,以小数据集、小参数量,实现高性能,是目前支持中英双语的、性能最好的开源代码模型,经过了高质量过滤、使用有合规开源许可的训练代码数据进行训练。

此外,AquilaCode-7B 分别在英伟达和国产芯片上完成了代码模型的训练,并通过对多种架构的代码+模型开源,推动芯片创新和百花齐放。

26ec5e0c8f7daf637e0bd05ca73d40fc.gif

图注:文本-代码生成

02

天秤(FlagEval)

大模型评测体系及开放平台

天秤(FlagEval)大模型评测体系及开放平台旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。目前已推出语言大模型评测、多国语言文图大模型评测及文图生成评测等工具,并对各种语言基础模型、跨模态基础模型实现评测。后续将全面覆盖基础模型、预训练算法、微调算法等三大评测对象,包括自然语言处理(NLP)、计算机视觉(CV)、语音(Audio)及多模态(Multimodal)等四大评测场景和丰富的下游任务。

0fd2a2d64de6d3d157984c9b74a50964.png

首期推出的 FlagEval 大语言模型评测体系,创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果,总计 600+ 评测维度,任务维度包括  22 个主观&客观评测数据集。除了知名的公开数据集 HellaSwag、MMLU、C-Eval等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学与闽江学院共建的语义关系判断、多义词理解、修辞手法判断评测数据集。更多维度的评测数据集也在陆续集成中。

FlagEval 评测榜单目前涵盖了前面谈到的22 个主观和客观评测集,84433 道题目,细粒度刻画大模型的认知能力。基于“悟道 · 天鹰”Aquila 基础模型(7B)打造的 AquilaChat 对话模型,在 FlagEval 大语言模型评测榜单上,目前暂时在“主观+客观”的评测上领先其他同参数量级别的开源对话模型。

在我们当前的最新评测结果中,AquilaChat 以大约相当于其他模型 50% 的训练数据量(SFT 数据+预训练数据分别统计)达到了最优性能。但由于当前的英文数据仅训练了相当于Alpaca的40%,所以在英文的客观评测上还暂时落后于基于 LLaMA 进行指令微调的Alpaca。随着后续训练的进行,我们相信很快可以超越。

悟道·天鹰(Aquila)模型还在迭代进步的过程中,天秤(FlagEval)评测能力也在不断的扩充中, 因而此评测结果只是暂时的,新的评测结果还会不断更新。此外,FlagEval的评测体系方法及相关研究还需要继续深入,当前对模型能力的覆盖程度仍有很大的进步空间,智源也期待与多方合作,共同打造全面、科学的评测方法体系。 

f695a1fd15212a12da94896fb634210e.jpeg

图注:在评测时,FlagEval 根据数据集的不同规模进行了自动化采样,总计采样 28041 条数据。

天秤(FlagEval)开放评测平台现已开放申请(flageval.baai.ac.cn),打造自动化评测与自适应评测机制,可辅助模型研发团队利用评测结果指导模型训练,同时支持英伟达、昇腾(鹏城云脑)、寒武纪、昆仑芯等多种芯片架构及 PyTorch、MindSpore 等多种深度学习框架。

作为“科技创新2030”旗舰项目重要课题,天秤(FlagEval)正与北京大学、北京航空航天大学、北京师范大学、北京邮电大学、闽江学院、南开大学、中国电子技术标准化研究院、中国科学院自动化研究所等合作单位共建(按首字母排序),定期发布权威评测榜单。

98a42bcda1c49b9ba78db86b1bd98a75.png

总的来说,智源此次发布的 2 大重磅成果仅仅是一个新的起点:

一方面,悟道 · 天鹰 Aquila 语言大模型将不断完善训练数据、优化训练方法、提升模型性能,在更优秀的基础模型基座上,培育枝繁叶茂的“模型树”,持续开源开放。

另一方面,天秤 FlagEval 大模型评测体系及开放平台将继续拓展“大模型认知能力”框架,集成丰富的数据集与评测指标,并探索与心理学、教育学、伦理学等社会学科的交叉研究,以期更加科学、全面地评价语言大模型。

「模型 + 评测」双轮驱动,加速大模型技术创新与产业落地。欢迎学界、产业界同仁提供建议。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

悟道·天鹰 Aquila + 天秤 FlagEval,打造大模型能力与评测标准双标杆 的相关文章

随机推荐

  • 【VPR】 Command-line - vpr的命令行选项(一)

    目录 一 基本用法 二 命令行详解 2 1 阶段选项 Stage Options 2 2 图形选项 Graphics Options 2 3 常规选项 General Options 2 4 文件名选项 Filename Options 2
  • RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() is F..

    今天在HPC上跑的方法疯狂报错 RuntimeError Attempting to deserialize object on a CUDA device but torch cuda is available is False If y
  • System.IO.IOException: Sharing violation on pat

    System IO IOException Sharing violation on path E wang downloadmanage Assets download IEM2 apk at System IO FileStream c
  • 浅谈机器学习-回归与分类的区别

    前言 机器学习的主要任务便是聚焦于两个问题 分类和回归 本文将浅谈下两者的区别 区别 回归会给出一个具体的结果 例如房价的数据 根据位置 周边 配套等等这些维度 给出一个房价的预测 分类相信大家都不会陌生 生活中会见到很多的应用 比如垃圾邮
  • Spring Boot 2 全局异常处理

    1 创建 MyRestControllerAdvice 类 并添加 RestControllerAdvice import com tm common dto Rjson import com tm common exception Bus
  • Landsat9卫星简介

    1 landsat 9 先来介绍下2021年9月27日发射的landsat 9 目前已经采集了第一批影像 10月31日 1 携带的传感器 二代陆地成像仪Operational Land Imager 2 OLI 2 二代热红外传感器 TIR
  • C++11中thread_local的使用

    C 11中的thread local是C 存储期的一种 属于线程存储期 存储期定义C 程序中变量 函数的范围 可见性 和生命周期 C 程序中可用的存储期包括auto register static extern mutable和thread
  • 区块链的跨链技术介绍完整版

    如果说共识机制是区块链的灵魂核心 那么对于区块链特别是联盟链及私链来看 跨链技术就是实现价值网络的关键 它是把联盟链从分散单独的孤岛中拯救出来的良药 是区块链向外拓展和连接的桥梁 自比特币七年前诞生以来 数以百计的竞争币被开发出来 有着各种
  • 深入了解Aviator表达式引擎:高性能的轻量级计算引擎

    在软件开发过程中 我们经常需要对数学和逻辑表达式进行求值和计算 传统的方式可能会导致性能瓶颈和复杂的代码逻辑 在这篇博客中 我们将介绍Aviator表达式引擎 一个轻量级且高性能的计算引擎 用于解析和执行数学和逻辑表达式 什么是Aviato
  • 递归算法深入浅出三:递归求Fibonacci斐波那契数列

    递归算法概述及常见算法列表 传送门 http blog csdn net nthack5730 article details 65537530 斐波那契数列 斐波纳契数列 又称黄金分割数列 指的是这样一个数列 1 1 2 3 5 8 13
  • 如何获取Hive库表字段分区信息

    如何获取Hive库表字段分区信息 使用Hive关联的Mysql读取Hive的库表字段分区信息 也可以使用Hive的sys数据库查询相关的信息 但是会比较慢 所以直接使用Mysql去读 Hive在Mysql保存的信息如下图所示 获取Hive的
  • C语言-函数栈帧(每次调用函数,开辟函数的大概流程)

    思路 emm 有点懵 这一块 只知道个大概 如果后期我深挖的话 我再回头来补充 上图 括号的位置 便是每次创建 调用函数的时候 所产生的函数栈帧 也可以理解为每次调用函数 在电脑里开辟的一块空间 这空间实际就是一个栈 ebp栈底指针 esp
  • Ubuntu14.04 安装搜狗输入法

    Ubuntu14 04 安装搜狗输入法 一 安装fcitx 1 点击System Settings 2 选择Software Updates 3 点击Other Software 4 添加软件源 ppa fcitx team nightly
  • wpf 读取网络图片

    wpf读取网络图片 private void ViewImage string fileUri BitmapImage bitImage new BitmapImage bitImage BeginInit bitImage UriSour
  • 域名解析的过程

    互联网的域名解析不是靠一个DNS服务器完成的 而是分到多个DNS服务器上的 那么怎么分 net com edu 根 分别对应自己的服务器 根这个服务器虽然不负责具体的层级域名的解析 但是他知道 net com edu等是由哪些服务器解析的
  • 使用Visual Studio Team Explorer管理项目源代码

    最近参与了WPMind站长张欣发起的一个WP7开源项目 其中用到了Visual Studio Team Explorer进行源代码管理 以下是使用Visual Studio Team Explorer管理Codeplex上源代码的一些说明
  • 使用nginx部署项目

    开发工具 VScode 项目上线 部署项目 1 确保自己的代码是最新的 1 提交代码 git add git commit m 备注 git push git merge 分支名 git pull 2 确认是最新代码 2 VScode 1
  • python中遇见module ‘random‘ has no attribute ‘seed‘原因

    是因为我设置 py文件名为random与这个模块好像冲突 具体啥原因我也解释不清楚 修改文件名就可以了 import random random seed 10 print random random print random random
  • React生命周期

    React生命周期 4个阶段 1 挂载卸载过程 初始化 2 更新过程 3 销毁阶段 4 错误处理阶段 挂载卸载过程 构建并插入真实DOM 1 1 constructor 1 2 componentWillMount 1 3 render 1
  • 悟道·天鹰 Aquila + 天秤 FlagEval,打造大模型能力与评测标准双标杆

    为推动大模型在产业落地和技术创新 智源研究院发布 开源商用许可语言大模型系列 开放评测平台 2 大重磅成果 打造 大模型进化流水线 持续迭代 持续开源开放 01 悟道 天鹰 Aquila 开源商用许可语言大模型系列 悟道 天鹰 Aquila