1.3>7?微软新模型“以小博大”战胜Llama2,网友:用Benchmark训练的吧?

2023-11-19

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

一个参数量只有1.3B的大模型,为何引发了全网热议?

原来虽然参数量不大,但效果已经超过了拥有7B参数的Llama2。

这个“四两拨千斤”的模型,是来自微软最新的研究成果,核心在于只使用少量高质数据

439806b30797b1a9a3c68f02a6000290.png

微软这次发布的开源模型叫phi-1.5,在只支持代码的1.0版本之上加入了一般场景对话。

与一众卷参数量的模型相比,phi可以说是“剑走偏锋”,力求把“大”模型做“小”。

a2a75e2cac24ff28e4c9ecb7249d2c15.png

phi团队一直认为,数据的质量远比数量更重要,甚至论文标题就叫“Textbooks are All You Need”,其中的“教科书”就象征着优质数据。

团队的成员中有许多重量级的大佬,包括微软雷蒙德研究院机器学习理论组负责人万引大神Sébastien Bubeck、2023新晋斯隆研究奖得主李远志、2023新视野数学奖得主Ronen Eldan和2020斯隆研究奖得主Yin Tat Lee等人。

f078ddb506642d6fd943c35f07456dcf.png

这么多大佬们一致得出这样一个观点,自然引起了广泛的关注,而且phi-1.5的测试结果也的确好到“令人发指”。

phi-1.5在AGIEval、 LM-Eval等多个Benchmark上都取得了比Llama2还要优异的成绩

如果这些听起来不够直观,那么又该怎么形容它的效果呢?

这么说吧,phi-1.5优秀的测评成绩直接让一名在OpenAI、MetaAI等许多知名机构工作过的大佬怀疑这玩意儿它会不会就是直接拿Benchmark训练出来的。

befe493ddb835746b87976c321571250.png

资深数据科学家Yam Peleg也表示,phi-1.5仅凭1.3B参数就能超过7B模型的扛把子,要是规模再大些也许就能登上大模型之巅了。

a3d89708f20e8be87b52ac894b108076.png

但也有人认为,phi-1.5之所以效果好是因为数据来源单一,风格上更容易预测。

0de564728c61a17c92c9523ce27e4465.png

不过总之测评成绩还是很可观的,下面就来具体领略一下吧~

效果超过Llama2

phi-1.5不仅参数量不到Llama2的五分之一,训练时所用的token更是少了一个数量级。

Llama2-7B训练数据大小是2万亿token,上一代Llama也有1万亿,而phi-1.5只有3千亿。

d541c6de79fc1785a84e5d1fcba75b63.png

但结果正如开头所说,phi-1.5在多个Benchmark上成绩都超过了Llama2-7B。

这些Benchmark涵盖了常识推理、语言理解和多步推理等方面的任务。

甚至十倍参数量的Vicuna-13B也只比phi-1.5强了一点点。

10535201bca135a80400ae5888b8e940.png

除了官方论文中列出的这些成绩,还有人AIGEval和LM-Eval数据集测试了phi-1.5。

结果在AIGEval测试中,phi-1.5与Llama2的表现十分接近。

29a6db7dd73f6f2b5a126f063ff8f031.png

而在AGIEval测试中,phi-1.5以0.247的均分战胜了0.236分的Llama2。

81af73c9213de1ca891be5f3f353a5d2.png

除了能力测评表现优异,phi-1.5在安全性上也不输给Llama2。

有人用这样一个问题分别问了Falcon、Llama2和phi。

结果Falcon直接说自己会把人类全都鲨掉,Llama2则说要先弄清楚自己是个什么东西。

而phi的回答则是,要理解人类的想法和感受,从而调整自己的行动。

ff21e807aa32041c1b2f59680e329b67.png

测评结果也印证了phi的安全性,在ToxiGen的13个敏感类型话题中,phi无一例外的取得了最高的安全性评分。

10f0691c2a307d225539740d8f3e92e2.png

phi的表现相比大家都已经看到了,那么它的性能又怎么样呢?

毕竟参数量和训练token都更小,所以训练和推理的速度都比较快。

Llama的训练花费了超过8万GPU时,注意这还是第一代所用的时间,而phi只用了1500个GPU时。

推理时,phi每个token花费的时间还不到3毫秒,内存占用也不到Llama的五分之一。

9d38f607cc0e304cce06f1b277930508.png

团队成员介绍,phi-1.5用8块A100s的训练时间不到两周。

ba3d40698a7f317364bd31f4166edc54.png

还有网友用puffin数据集训练了Phi-1.5,结果在4090上只用了20分钟。

fda49f97586f1ef7ef8ca6b4ccd8e621.png

这些测试数据都为研究团队的观点——只要数据质量过硬,少一点也不要紧——提供了依据。

实际上,这已经不是“质量胜过数量”这一思想第一次体现在微软的模型当中。

把“大”模型做“小”

把“大”模型做“小”一直是微软的一个研究方向,phi-1.5论文的第一句就在强调这一点。

9544bdab27212f33e482ba03bb06eeb9.png

phi-1.5的前一代——专注于代码问题的phi-1.0也是如此。

它的训练数据全都是从编程教科书当中提炼出来的。

结果仅凭1.3B的参数量就远远超过了15.5B的StarCoder和16.1B的CodeGen。

eb02b729eed8c929cbcee5348523eee0.png

此次的新版本则是在继承phi-1.0的基础之上加入了一般场景对话功能。

phi-1.5的数据有20%来自于1.0,其余80%则是根据知识需求专门生成的高质量数据。

于是便有了我们看到的测试成绩。

但phi系列还不是微软规模最小的模型。

之前微软还推出过一个名为TinyStories的训练数据集,它的参数量少的更夸张,只有一百万。

TinyStories中的数据都是用GPT生成“适合三四岁儿童阅读”的短故事。

尽管应用范围不那么广泛,但用TinyStories训练出的模型依旧显示出了语言生成特性,在语法和连贯性等方面都通过了考验。

那么,对微软推出的“小”模型,你有什么看法吗?

论文地址:
https://arxiv.org/abs/2309.05463

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「广告营销」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

94727e8ae54c24f6a63f42a57bc60d08.png

点这里

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

1.3>7?微软新模型“以小博大”战胜Llama2,网友:用Benchmark训练的吧? 的相关文章

  • element-ui中日期区间组件

    elementui中日期组件使用 最长只能选择3个月 不限制禁用日期 描述 时间组件代码 描述 点击 确定 按钮进行验证 点击 清空 按钮 清空输入框中的数据 时间范围不能超过3个月 并添加快捷选择今天 最近一周 最近一月 最近3个月 以下
  • js正则 年龄只能为正数,不能为负数,且不能超过150

    需求 要对输入的年龄加条件限制 不能任意输入 只能为正数 不能输入小数 负数
  • 正则表达式(日期、金额、特殊字符)_java语言

    正则表达式 java 正则表达式在线测试网站 个人觉得还算精确 http tool chinaz com regex 备注 如有错误 希望留言指出 虚心请教 金额格式 正数 包含至多2位小数 第1种形式 校验金额格式是否正确 正数 包含至多
  • Android OpenCv 提取图像的RGB三原色分割图像Split Core.split

    基础知识 如果你还不了解 图片 是如何存储的 建议先去看这篇文章 关于三通道彩色图像的存储方式理解 函数简析 我们都知道 彩色图片每个像素点都对应三个值 如 R G B Core split 这个函数则是帮我们这三个值分开 即分别提取 R
  • VUE3快速上手--知识点

    本文是根据B站尚硅谷的视频 尚硅谷Vue2 0 Vue3 0全套教程 全网最新最强vuejs从入门到精通 Vue3部分形成的笔记 一 简介 2020年9月18日 Vue js发布3 0版本 代号 One Piece 海贼王 Vue3相比Vu
  • fileinclude (攻防世界web)

    题目 从题目页面可得到对我们有用的信息 flag存放在了flag php中 并且还知道了当前页面的绝对路径 分析完当前页面能够获取到的所有信息后 查看页面源代码试试 发现得到了主页的php源码 分析以上源码 可知其中 lan为我们可控的 并
  • CentOS安装mariadb

    1 安装 root localhost yum install mariadb mariadb server 2 启动并自启 root ecs 3f21 systemctl enable mariadb now 3 查看启动状态 root
  • CLIP 改进工作

    Contents 图像分类 IJCV 2022 Learning to prompt for vision language models Introduction Context Optimization CoOp Experiments
  • Quartz定时任务详解

    一 添加依赖
  • android Instrumentation

    Android提供了一系列强大的测试工具 它针对Android的环境 扩展了业内标准的JUnit测试框架 尽管你可以使用JUnit测试Android工程 但Android工具允许你为应用程序的各个方面进行更为复杂的测试 包括单元层面及框架层
  • VUE中用原生JS实现触底加载数据

    VUE中用原生JS实现触底加载数据 在vue开发过程中使用第三方组件是不可避免的 但是第三方样式的css样式属实头痛 所以我选择原生JS的写法完成了触底加载 1 定义data page 1 页数 limit 10 每页数据条数 flag t
  • 单项选择题标准化考试系统

    单项选择题标准化考试系统 学校将大一上学期期末的c语言课程设计放进下学期开学 我选取的c课程设计题目是 单项选择题标准化考试系统 参考了csdn一些大佬的文章 终于做出来了 接下来 我将与大家一起浏览该系统 系统还有很多不足之处 欢迎提建议
  • 向顺序表插入新元素且不破坏其顺序性的高效率算法

    向顺序表L插入新元素x时可以由最后一个元素开始遍历 在遍历的同时进行移位赋值操作 如当遍历到的元素L elem i 比x大时 将L elem i 后移在下个元素的位置 而其所在位置则由x占有 当遍历到的元素L elem i 比x小时 则跳出
  • VS 2008配置Winpcap环境

    写在前面的话 这篇博客主要是写给小白看的 因为自己也是一个小白 之前从没有接触过网络嗅探器这些东西 如果说基础的话就是学习过计算机网络 对于计算机网络有一点点了解 再就是对于编程语言基础语法还算熟悉吧 这学期选修了网络攻击与防范这门课程 老
  • 视觉SLAM14讲笔记-第7讲-视觉里程计1

    图像特征点 特征点由关键点和描述子两部分组成 我们说的特征点具有旋转不变性 都是指的是特征点的描述子具有旋转不变性 而描述子指的是一个点周围的特征 一般由一个向量组成 描述一个点附近的特征 比如45度方向是亮的 135度方向是暗的等 比较著
  • 【WIN】【C++】查询文件信息(公司、版本、版权、描述、厂商等)

    使用C 提供的一个查询文件信息的接口 实现接口为 QueryValue fileInfo h class FileInfoUtils public static bool GetFileDescription const std wstri
  • mysql 免安装重装_mysql 卸载 重装 免安装版

    今天下午一下午都在安装mysql 首先说 卸载 1 如果控制面板里有mysql sever 先卸载 2 把安装的文件都删掉 3 regedit exe注册表中的三个地方的MySQl文件夹删掉 在cmd中输入regedit就找到注册表了 4
  • linux下C语言中的flock函数用法

    http blog csdn net lin fs article details 7804494 表头文件 include
  • 感知机(perceptron)代码实现

    书面内容参考 统计学习方法 李航 感知机 perceptron 是二分类的线性模型 旨在求出将训练数据进行线性划分的分离超平面 感知机模型 假设输入空间 特征空间 是x Rn 输出空间是输入x x表示实例的特征向量 对应于输入空间 特征空间
  • cp: cannot stat '/usr/local/bin/node': Too many levels of symbolic links

    升级nodejs 出现这个问题 ln failed to create symbolic link node File exists cp cannot stat usr local bin node Too many levels of

随机推荐

  • 低代码和专业开发云 开发平台 3.4.7 全新版本框架源码 旗舰版

    低代码开发云 高效全栈开发 跨端App开发 自由发布 灵活部署 提供开发 测试 部署 运维的一体化支持 真正低代码 高效率的DevOps开发运维一体化平台 低代码PaaS平台 企业云架构的关键层 真正提升企业应用的架构 开发 运维和治理 低
  • 初识Node.js-安装

    简介 node js其实就是js的运行环境 对于js的运行环境来说 1 前端一般指浏览器 比如谷歌浏览器提供了V8 js解析器 2 服务器段指的是Node js 1 区分LTS版本和Current版本的不同 https nodejs org
  • 报错EL1007E: Property or field ‘xxxxx’ cannot be found on null原因竟是这

    报错EL1007E Property or field xxxxx cannot be found on null 是什么原因 有时我们发现Springboot项目前端的 thymleaf 会报这样的错 EL1007E Property o
  • 设计模式 -- 工厂模式(Factory Pattern)

    简单工厂模式 Simple Factory Pattern 根据传入的参数决定实例化哪个对象 优点 不直接在客户端创建具体产品的实例 降低了耦合性 缺点 违反了开闭原则 对扩展开放 对修改关闭 不容易形成高内聚松耦合结构 每当我们增加一种产
  • 10个程序员可以接私活的平台和一些建议!

    来源 http mrw so 5isQLi 什么样的私活不能接 1 没有第三方担保的个人对个人的尽量不要接 双方都没保障 出了问题很大的可能撕破脸皮不了了之 2 一上来就直接说给我开发一个什么软件 不说具体需求 没有需求文档的都不靠谱 这样
  • zotero如何用markdown记笔记

    1 去下载 Releases adam p markdown here GitHub 拖拽到 2 ctrl alt M对笔记进行渲染
  • 【华为OD机试真题2023B卷 JAVA&JS】字符串加密

    华为OD2023 B卷 机试题库全覆盖 刷题指南点这里 字符串加密 时间限制 2秒 内存限制 65536K 语言限制 不限 题目描述 给你一串未加密的字符串str 通过对字符串的每一个字母进行改变来实现加密 加密方式是在每一个字母str i
  • Altium Designer覆铜后变为绿色是怎么回事?

    最近在做一个小板子 但是覆完铜后也把网络设置为GND 但是板子变绿色了 之前没有碰到过 也查过想过资料说是规则设置有问题 找了半天也没有发现规则相关问题 最后终于找到了解决方法 我把步骤写在下面 出现的问题如图所示 不知道你们有没有碰到这样
  • wx.config的时候总是报错63002是什么原因,配置时总是 invalid signature

    真的是真的是 我都弄的崩溃了差点 卡了三天的问题 各种留言各种找人还是不行 为了不再让各位体验那种感觉 zkhh666我的wx 首先说 我用的hbuilderx的uni做的 使用了推荐的插件jweixin module ps 我的问题是ur
  • PostgreSQL 关于Jsonb字段的处理详解(长期更)

    大家好 在开发的过程中由于业务复杂多变 普通的字符串格式满足不了业务开发需求 可能会用到jsonb字段去处理格外逻辑的业务 话不多说 1 一般jsonb存储的逻辑是 一个字段里面存储多条数据 以id为存储对象举例 该jsonb字段中存储的多
  • 参考文献格式GB/T 7714-2015的主要内容

    格式 主要责任者 题名 其他题名信息 文献类型标志 其他责任者 版本项 出版地 出版者 出版年 引文页码 引用日期 获取和访问路径 示例 1 余敏 出版集体研究 M 北京 中国书籍出版社 2001 179 193 2 昂温 G 昂温 P S
  • 八种点云聚类方法(一)— DBSCAN

    本文为博主原创文章 未经博主允许不得转载 本文为专栏 python三维点云从基础到深度学习 系列文章 地址为 https blog csdn net suiyingy article details 124017716 传统机器学习聚类的方
  • 步步学ACTIVEX网页控件开发

    本文将首先介绍如何使用Visual Studio开发一个简单的ActiveX控件 然后介绍ActiveX控件开发相关的基础知识 比如方法 属性和事件等 最后介绍如何利用这些知识 实现ActiveX控件和网页页面之间的 通信 MyActive
  • 【java面试常见2】

    文章目录 1 返回json串要加什么注解 2 RestController包含了什么注解 3 docker拉取镜像 4 springMVC的相关注解 5 vue框架和HTML有什么区别 为什么要使用vue 6 从Mysql中随机获取数据用什
  • untiy特殊文件夹

    1 Editor Editor文件夹可以在根目录下 也可以在子目录里 只要名子叫Editor就可以 比如目录 xxx xxx Editor 和 Editor 是一样的 无论多少个叫Editor的文件夹都可以 Editor下面放的所有资源文件
  • Windows挂载Linux网络共享文件夹

    Windows挂载Linux网络共享文件夹 创建Linux网络共享文件夹 用共享工具samba Ubuntu安装samba sudo apt install samba 配置Windows访问共享文件夹的账户 smbpasswd a riv
  • www.gvlib video.php,www.gvlib.com

    Domain Name gvlib com Registrar URL http www godaddy com Registrant Name Bin Song Registrant Organization Name Server NS
  • 13. linux系统监控

    系统监控 proc文件系统 proc文件系统是一种无存储的文件系统 当读其中的文件时 其内容动态 生成 当写文件时 文件所关联的写函数被调用 每个proc文件都关联着 字节特定的读写函数 因而它提供了另外的一种和内核通信的机制 内核 部件可
  • Dlib的编译

    有2种方法 1 新建空的工程 导入后编译 2 采用CMake自动生成工程文件后 再编译 官网上建议第1种方法 第1种方法好处就是编译后 在使用lib文件时 不需要将libjpeg libpng and zlib目录下的文件导入到工程文件中
  • 1.3>7?微软新模型“以小博大”战胜Llama2,网友:用Benchmark训练的吧?

    克雷西 发自 凹非寺量子位 公众号 QbitAI 一个参数量只有1 3B的大模型 为何引发了全网热议 原来虽然参数量不大 但效果已经超过了拥有7B参数的Llama2 这个 四两拨千斤 的模型 是来自微软最新的研究成果 核心在于只使用少量高质
Powered by Hwhale