悟道·天鹰 Aquila + 天秤 FlagEval，打造大模型能力与评测标准双标杆

2023-11-17

为推动大模型在产业落地和技术创新，智源研究院发布“开源商用许可语言大模型系列+开放评测平台” 2 大重磅成果，打造“大模型进化流水线”，持续迭代、持续开源开放。

悟道·天鹰（Aquila）

开源商用许可语言大模型系列

悟道·天鹰（Aquila）语言大模型是首个具备中英双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。

悟道·天鹰（Aquila）语言大模型在中英文高质量语料基础上从 0 开始训练，通过数据质量的控制、多种训练的优化方法，实现在更小的数据集、更短的训练时间，获得比其它开源模型更优的性能。系列模型包括 Aquila基础模型（7B、33B），AquilaChat对话模型（7B、33B）以及 AquilaCode-7B “文本-代码”生成模型，后续将持续更新迭代并开源更新版本。

开源地址：

https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

Aquila基础模型（7B、33B）在技术上继承了 GPT-3、LLaMA 等的架构设计优点，替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer，升级了 BMTrain 并行训练方法，实现了比 Magtron+DeepSpeed ZeRO-2 将近８倍的训练效率。

AquilaChat 对话模型（7B、33B）支持流畅的文本对话及多种语言类生成任务，通过定义可扩展的特殊指令规范，实现 AquilaChat对其它模型和工具的调用，且易于扩展。例如，调用智源开源的 AltDiffusion 多语言文图生成模型，实现了流畅的文图生成能力。配合智源 InstructFace 多步可控文生图模型，轻松实现对人脸图像的多步可控编辑。

AquilaChat 训练过程中，实现了模型能力与指令微调数据的循环迭代，包括数据集的高效筛选与优化，充分挖掘基础模型的潜力。

图注：多轮对话

图注：高考作文生成

AquilaChat 支持可扩展的特殊指令规范，令用户可在AquilaChat中轻松实现多任务、工具的嵌入，如文图生成，下图示例为在对话中调用智源开源的多语言文图生成模型 AltDiffusion。

图注：文图生成

AquilaChat 具备强大的指令分解能力，配合智源InstructFace多步可控文生图模型，轻松实现对图片的多步可控编辑。

图注：多步可控人脸编辑

AquilaCode-7B “文本-代码”生成模型，基于 Aquila-7B 强大的基础模型能力，以小数据集、小参数量，实现高性能，是目前支持中英双语的、性能最好的开源代码模型，经过了高质量过滤、使用有合规开源许可的训练代码数据进行训练。

此外，AquilaCode-7B 分别在英伟达和国产芯片上完成了代码模型的训练，并通过对多种架构的代码+模型开源，推动芯片创新和百花齐放。

图注：文本-代码生成

天秤（FlagEval）

大模型评测体系及开放平台

天秤（FlagEval）大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用AI方法实现对主观评测的辅助，大幅提升评测的效率和客观性。目前已推出语言大模型评测、多国语言文图大模型评测及文图生成评测等工具，并对各种语言基础模型、跨模态基础模型实现评测。后续将全面覆盖基础模型、预训练算法、微调算法等三大评测对象，包括自然语言处理（NLP）、计算机视觉（CV）、语音（Audio）及多模态（Multimodal）等四大评测场景和丰富的下游任务。

首期推出的 FlagEval 大语言模型评测体系，创新构建了“能力-任务-指标”三维评测框架，细粒度刻画基础模型的认知能力边界，可视化呈现评测结果，总计 600+ 评测维度，任务维度包括 22 个主观&客观评测数据集。除了知名的公开数据集 HellaSwag、MMLU、C-Eval等，FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ，北京大学与闽江学院共建的语义关系判断、多义词理解、修辞手法判断评测数据集。更多维度的评测数据集也在陆续集成中。

FlagEval 评测榜单目前涵盖了前面谈到的22 个主观和客观评测集，84433 道题目，细粒度刻画大模型的认知能力。基于“悟道 · 天鹰”Aquila 基础模型（7B）打造的 AquilaChat 对话模型，在 FlagEval 大语言模型评测榜单上，目前暂时在“主观+客观”的评测上领先其他同参数量级别的开源对话模型。

在我们当前的最新评测结果中，AquilaChat 以大约相当于其他模型 50% 的训练数据量（SFT 数据+预训练数据分别统计）达到了最优性能。但由于当前的英文数据仅训练了相当于Alpaca的40%，所以在英文的客观评测上还暂时落后于基于 LLaMA 进行指令微调的Alpaca。随着后续训练的进行，我们相信很快可以超越。

悟道·天鹰（Aquila）模型还在迭代进步的过程中，天秤（FlagEval）评测能力也在不断的扩充中，因而此评测结果只是暂时的，新的评测结果还会不断更新。此外，FlagEval的评测体系方法及相关研究还需要继续深入，当前对模型能力的覆盖程度仍有很大的进步空间，智源也期待与多方合作，共同打造全面、科学的评测方法体系。

图注：在评测时，FlagEval 根据数据集的不同规模进行了自动化采样，总计采样 28041 条数据。

天秤（FlagEval）开放评测平台现已开放申请（flageval.baai.ac.cn），打造自动化评测与自适应评测机制，可辅助模型研发团队利用评测结果指导模型训练，同时支持英伟达、昇腾（鹏城云脑）、寒武纪、昆仑芯等多种芯片架构及 PyTorch、MindSpore 等多种深度学习框架。

作为“科技创新2030”旗舰项目重要课题，天秤（FlagEval）正与北京大学、北京航空航天大学、北京师范大学、北京邮电大学、闽江学院、南开大学、中国电子技术标准化研究院、中国科学院自动化研究所等合作单位共建（按首字母排序），定期发布权威评测榜单。

总的来说，智源此次发布的 2 大重磅成果仅仅是一个新的起点：

一方面，悟道 · 天鹰 Aquila 语言大模型将不断完善训练数据、优化训练方法、提升模型性能，在更优秀的基础模型基座上，培育枝繁叶茂的“模型树”，持续开源开放。

另一方面，天秤 FlagEval 大模型评测体系及开放平台将继续拓展“大模型认知能力”框架，集成丰富的数据集与评测指标，并探索与心理学、教育学、伦理学等社会学科的交叉研究，以期更加科学、全面地评价语言大模型。

「模型 + 评测」双轮驱动，加速大模型技术创新与产业落地。欢迎学界、产业界同仁提供建议。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

深度学习

悟道·天鹰 Aquila + 天秤 FlagEval，打造大模型能力与评测标准双标杆的相关文章

【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
【信道估计】【MIMO】【FBMC】未来移动通信的滤波器组多载波调制方案（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
问CHAT很繁琐的问题会不会有答案呢？

问CHAT 什么已有的基于极值理论的极端温度重现期主要针对极端高温事件对极端低温事件研究较少 CHAT 回复为这主要可能是由于以下几个原因 1 气候变化与全球变暖当前全球变暖和气候变化的问题备受关注这导致科研者更加关注极端高温事件
Soul App：年轻人的社交状态，还有多少种可能？

查尔斯狄更斯在双城记的开篇写下这是最好的时代这是最坏的时代这是智慧的时代这是愚蠢的时代这是信仰的时期这是怀疑的时期人们面前有着各样事物人们面前一无所有既然万事万物都和狄更斯所说般好坏参半那又何必执着于过去苦恼于
基于java的ssh医院在线挂号系统设计与实现

基于java的ssh医院在线挂号系统设计与实现 I 引言 A 研究背景和动机基于Java的SSH医院在线挂号系统设计与实现的研究背景和动机随着信息技术的迅速发展和应用医院在线挂号系统已成为医院管理的重要组成部分传统的挂号方式存在许多
链上繁荣,合作不断,外媒热议波场 TRON 2023 年度成绩

近日权威外媒Theblock 美联社和Decrypt等就波场 TRON 2023大事件进行了年度盘点报道指出波场TRON网络在2023年取得了一系列的发展和合作提升了其在Web3领域的地位其中波场TRON网络账户数量增加了 54
打造完美人像，PixCake像素蛋糕助您一键修图

您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰是否曾经想要打造出完美的自拍照却不知道该如何下手现在我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
基于opencv的大米计数统计（详细处理流程＋代码）

在我每周的标准作业清单中有一项是编写计算机视觉算法来计算该图像中米粒的数量因此当我的一个好朋友M给我发了一张纸上的扁豆照片显然是受到上述转发的启发请我帮他数一下谷物的数量时它勾起了我怀旧的回忆因此我在我的旧硬盘上寻找很久以前
【毕业设计选题】复杂背景下的无人机(UVA)夜间目标检测系统 python 人工智能深度学习

前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生级别难度的对本科同学来说是充满挑战为帮助大家顺利通过和节省时间
如何快速申请GPT账号？

详情点击链接如何快速申请GPT账号一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
2023最新pytorch安装（超详细版）

前言一判断是否有Nvidia 英伟达显卡二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
CorelDRAW2024官方中文版重磅发布更新

35年专注于矢量设计始于1988年并不断推陈出新致力为全球设计工作者提供更高效的设计工具 CorelDRAW 滋养并见证了一代设计师的成长在最短的时间内交付作品 CorelDRAW的智能高效会让你一见钟情 CorelDRAW 全称 Co
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
深度学习(5)--Keras实战

一 Keras基础概念 Keras是深度学习中的一个神经网络框架是一个高级神经网络API 用Python编写可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计用户友好性模块化和可扩
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来

随机推荐

【VPR】 Command-line - vpr的命令行选项（一）

目录一基本用法二命令行详解 2 1 阶段选项 Stage Options 2 2 图形选项 Graphics Options 2 3 常规选项 General Options 2 4 文件名选项 Filename Options 2
RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() is F..

今天在HPC上跑的方法疯狂报错 RuntimeError Attempting to deserialize object on a CUDA device but torch cuda is available is False If y
System.IO.IOException: Sharing violation on pat

System IO IOException Sharing violation on path E wang downloadmanage Assets download IEM2 apk at System IO FileStream c
浅谈机器学习-回归与分类的区别

前言机器学习的主要任务便是聚焦于两个问题分类和回归本文将浅谈下两者的区别区别回归会给出一个具体的结果例如房价的数据根据位置周边配套等等这些维度给出一个房价的预测分类相信大家都不会陌生生活中会见到很多的应用比如垃圾邮
Spring Boot 2 全局异常处理

1 创建 MyRestControllerAdvice 类并添加 RestControllerAdvice import com tm common dto Rjson import com tm common exception Bus
Landsat9卫星简介

1 landsat 9 先来介绍下2021年9月27日发射的landsat 9 目前已经采集了第一批影像 10月31日 1 携带的传感器二代陆地成像仪Operational Land Imager 2 OLI 2 二代热红外传感器 TIR
C++11中thread_local的使用

C 11中的thread local是C 存储期的一种属于线程存储期存储期定义C 程序中变量函数的范围可见性和生命周期 C 程序中可用的存储期包括auto register static extern mutable和thread
区块链的跨链技术介绍完整版

如果说共识机制是区块链的灵魂核心那么对于区块链特别是联盟链及私链来看跨链技术就是实现价值网络的关键它是把联盟链从分散单独的孤岛中拯救出来的良药是区块链向外拓展和连接的桥梁自比特币七年前诞生以来数以百计的竞争币被开发出来有着各种
深入了解Aviator表达式引擎：高性能的轻量级计算引擎

在软件开发过程中我们经常需要对数学和逻辑表达式进行求值和计算传统的方式可能会导致性能瓶颈和复杂的代码逻辑在这篇博客中我们将介绍Aviator表达式引擎一个轻量级且高性能的计算引擎用于解析和执行数学和逻辑表达式什么是Aviato
递归算法深入浅出三：递归求Fibonacci斐波那契数列

递归算法概述及常见算法列表传送门 http blog csdn net nthack5730 article details 65537530 斐波那契数列斐波纳契数列又称黄金分割数列指的是这样一个数列 1 1 2 3 5 8 13
如何获取Hive库表字段分区信息

如何获取Hive库表字段分区信息使用Hive关联的Mysql读取Hive的库表字段分区信息也可以使用Hive的sys数据库查询相关的信息但是会比较慢所以直接使用Mysql去读 Hive在Mysql保存的信息如下图所示获取Hive的
C语言-函数栈帧（每次调用函数，开辟函数的大概流程）

思路 emm 有点懵这一块只知道个大概如果后期我深挖的话我再回头来补充上图括号的位置便是每次创建调用函数的时候所产生的函数栈帧也可以理解为每次调用函数在电脑里开辟的一块空间这空间实际就是一个栈 ebp栈底指针 esp
Ubuntu14.04 安装搜狗输入法

Ubuntu14 04 安装搜狗输入法一安装fcitx 1 点击System Settings 2 选择Software Updates 3 点击Other Software 4 添加软件源 ppa fcitx team nightly
wpf 读取网络图片

wpf读取网络图片 private void ViewImage string fileUri BitmapImage bitImage new BitmapImage bitImage BeginInit bitImage UriSour
域名解析的过程

互联网的域名解析不是靠一个DNS服务器完成的而是分到多个DNS服务器上的那么怎么分 net com edu 根分别对应自己的服务器根这个服务器虽然不负责具体的层级域名的解析但是他知道 net com edu等是由哪些服务器解析的
使用Visual Studio Team Explorer管理项目源代码

最近参与了WPMind站长张欣发起的一个WP7开源项目其中用到了Visual Studio Team Explorer进行源代码管理以下是使用Visual Studio Team Explorer管理Codeplex上源代码的一些说明
使用nginx部署项目

开发工具 VScode 项目上线部署项目 1 确保自己的代码是最新的 1 提交代码 git add git commit m 备注 git push git merge 分支名 git pull 2 确认是最新代码 2 VScode 1
python中遇见module ‘random‘ has no attribute ‘seed‘原因

是因为我设置 py文件名为random与这个模块好像冲突具体啥原因我也解释不清楚修改文件名就可以了 import random random seed 10 print random random print random random
React生命周期

React生命周期 4个阶段 1 挂载卸载过程初始化 2 更新过程 3 销毁阶段 4 错误处理阶段挂载卸载过程构建并插入真实DOM 1 1 constructor 1 2 componentWillMount 1 3 render 1
悟道·天鹰 Aquila + 天秤 FlagEval，打造大模型能力与评测标准双标杆

为推动大模型在产业落地和技术创新智源研究院发布开源商用许可语言大模型系列开放评测平台 2 大重磅成果打造大模型进化流水线持续迭代持续开源开放 01 悟道天鹰 Aquila 开源商用许可语言大模型系列悟道天鹰 Aquila

悟道·天鹰 Aquila + 天秤 FlagEval，打造大模型能力与评测标准双标杆

悟道·天鹰 Aquila + 天秤 FlagEval，打造大模型能力与评测标准双标杆 的相关文章

随机推荐

热门标签

悟道·天鹰 Aquila + 天秤 FlagEval，打造大模型能力与评测标准双标杆的相关文章