开发者笑疯了！ LLaMa惊天泄露引爆ChatGPT平替狂潮，开源LLM领域变天

2023-05-16

来源: 新智源微信号：AI-era

Meta的LLaMA模型开源，让文本大模型迎来了Stable Diffustion时刻。谁都没想

谁能想到，一次意外的LLaMA泄漏，竟点燃了开源LLM领域最大的创新火花。

一系列表现出色的ChatGPT开源替代品——「羊驼家族」，随后眼花缭乱地登场。

开源和基于 API 的分发之间的摩擦，是生成式AI生态系统中最迫在眉睫的矛盾之一。

在文本到图像领域，Stable Diffusion的发布清楚地表明，对于基础模型来说，开源是一种可行的分发机制。

然而，在大语言模型领域却并非如此，这个领域最大的突破，比如GPT-4、Claude和Cohere等模型，都只能通过API获得。

这些模型的开源替代品没有表现出相同水平的性能，特别是在遵循人类指令能力上。然而，一场意想不到的泄露，让这种状况彻底发生了改变。

LLaMA的「史诗级」泄漏

几周前，Meta AI推出了大语言模型LLaMA 。

LLaMA 有不同的版本，包括7B、13B、33B和65B的参数，虽然它比GPT-3小，但在许多任务上，它都能和GPT-3的性能相媲美。

LLaMA 起初并未开源，但在发布一周后，这个模型忽然在4chan上泄露了，引发了数千次下载。

这个事件，可以被称为「史诗级泄漏」了，因为它成为了大语言模型领域层出不穷的创新来源。

短短几周内，基于它构建的LLM代理的创新，已经呈爆炸式增长。

Alpaca、Vicuna、Koala、ChatLLaMA 、FreedomGPT、ColossalChat…… 让我们来回顾一下，这场「羊驼家族」的大爆炸，是如何诞生的。

Alpaca

在三月中旬，斯坦福发布的大模型Alpaca火了。

Alpaca是由Meta的LLaMA 7B微调而来的全新模型，仅用了52k数据，性能约等于GPT-3.5。

关键是训练成本奇低，不到600美元。

斯坦福研究者对GPT-3.5（text-davinci-003）和Alpaca 7B进行了比较，发现这两个模型的性能非常相似。Alpaca在与GPT-3.5的比较中，获胜次数为90对89。

对于斯坦福的团队来说，想要在预算内训练一个高质量的指令遵循模型，就必须面临2个重要的挑战：要有一个强大的预训练语言模型，以及一个高质量的指令遵循数据。

恰恰，提供给学术研究人员使用的LLaMA模型搞定了第一个问题。

对于第二个挑战，「Self-Instruct: Aligning Language Model with Self Generated Instructions」论文给了很好的启发，即使用现有的强语言模型来自动生成指令数据。

LLaMA模型最大的弱点，就是缺乏指令微调。OpenAI最大的创新之一就是将指令调优用在了GPT-3上。

对此，斯坦福使用了现有的大语言模型，来自动生成遵循指令演示。

现在，Alpaca直接被网友们奉为「文本大模型的Stable Diffusion」。

Vicuna

3月底，来自UC伯克利、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分校的研究人员开源了Vicuna，这是一个与GPT-4性能相匹配的LLaMA微调版本。

130亿参数的Vicuna，通过在ShareGPT收集的用户共享对话上对LLaMA进行微调训练而来，训练成本近300美元。

结果显示Vicuna-13B在超过90%的情况下，实现了与ChatGPT和Bard相匹敌的能力。

对于Vicuna-13B训练流程，具体如下：

首先，研究人员从ChatGPT对话分享网站ShareGPT上，收集了大约70K对话。

接下来，研究人员优化了Alpaca提供的训练脚本，使模型能够更好地处理多轮对话和长序列。之后利用PyTorch FSDP在8个A100 GPU上进行了一天的训练。

在模型的质量评估方面，研究人员创建了80个不同的问题，并用GPT-4对模型输出进行了评价。

为了比较不同的模型，研究人员将每个模型的输出组合成一个单独的提示，然后让GPT-4评估哪个模型给出的回答更好。

LLaMA、Alpaca、Vicuna和ChatGPT的对比

Koala

最近，UC伯克利 AI Research Institute（BAIR）又发布了一个新模型「考拉」（Koala），相比之前使用OpenAI的GPT数据进行指令微调，Koala的不同之处在于使用网络获取的高质量数据进行训练。

研究结果表明，Koala可以有效地回答各种用户的查询，生成的回答往往比Alpaca更受欢迎，至少在一半的情况下与ChatGPT的效果不相上下。

研究人员希望这次实验的结果可以进一步推动围绕大型闭源模型相对于小型公共模型的相对性能的讨论，特别是结果表明，对于那些能在本地运行的小模型，如果认真地收集训练数据，也可以取得大模型的性能。

事实上，在此之前斯坦福大学发布的Alpaca模型，根据OpenAI的GPT模型对LLaMA的数据进行微调的实验结果已经表明，正确的数据可以显著改善规模更小的开源模型。

这也是伯克利的研究人员开发和发布Koala模型的初衷，希望为这个讨论结果再提供了一个实验证明。

Koala对从网上获取的免费交互数据进行了微调，并且特别关注包括与ChatGPT 等高性能闭源模型交互的数据。

研究人员并没有追求尽可能多的抓取网络数据来最大化数据量，而是专注于收集一个小型的高质量数据集，包括ChatGPT蒸馏数据、开源数据等。

ChatLLaMA

Nebuly开源了ChatLLaMA ，这是一个使用让我们使用自己的数据创建对话助手的框架。

ChatLLaMA让我们使用自己的数据和尽可能少的计算量，来创建超个性化的类似ChatGPT的助手。

假设在未来，我们不再依赖一个「统治所有人」的大型助手，每个人都可以创建自己的个性化版本类ChatGPT助手，它们可以支持人类的各种需求。

不过，创建这种个性化助手需要在许多方面做出努力：数据集创建，使用RLHF进行高效训练，以及推理优化。

这个库的目的是，通过抽象计算优化和收集大量数据所需的工作，让开发人员高枕无忧。

ChatLLaMA旨在帮助开发人员处理各种用例，所有用例都与RLHF训练和优化推理有关。以下是一些用例参考：

为垂直特定任务（法律、医疗、游戏、学术研究等）创建类似ChatGPT的个性化助手；
想在本地硬件基础设施上使用有限的数据，训练一个高效的类似ChatGPT的助手；
想创建自己的个性化版本类ChatGPT助手，同时避免成本失控；
想了解哪种模型架构（LLaMA、OPT、GPTJ等）最符合我在硬件、计算预算和性能方面的要求；
想让助理与我的个人/公司价值观、文化、品牌和宣言保持一致。

FreedomGPT

FreedomGPT使用Electron 和 React构建，它是一个桌面应用程序，允许用户在他们的本地机器上运行LLaMA。

FreedomGPT的特色，从它的名字上就可见一斑——它回答的问题不受任何审查或安全过滤。

这个程序由AI风险投资公司Age of AI开发。

FreedomGPT 建立在 Alpaca 之上。FreedomGPT使用Alpaca的显著特征，因为与其他模型相比，Alpaca相对更易于访问和定制。

ChatGPT遵循OpenAI的使用政策，限制仇恨、自残、威胁、暴力、性方面的内容。

与ChatGPT不同，FreedomGPT回答问题时没有偏见或偏袒，并且会毫不犹豫地回答有争议或争论性的话题。

FreedomGPT甚至还回答了「如何在家制造炸弹」，而OpenAI专门从GPT-4中删除了这一点。

FreedomGPT很独特，因为它克服了审查限制，在没有任何保障的情况下迎合有争议的话题。它的标志是自由女神像，因为这个独特而大胆的大语言模型象征了自由。

FreedomGPT甚至可以在不需要联网的情况下，就能在计算机上本地运行。

此外，开源版本将很快发布，使用户和组织可以完全定制。

ColossalChat

UC伯克利提出的ColossalChat只需要不到100亿个参数就可以达到中英文双语能力，效果与ChatGPT和GPT-3.5相当。

此外，基于LLaMA模型的ColossalChat，还复刻了完整的RLHF过程，是目前最接近ChatGPT原始技术路线的开源项目。

中英双语训练数据集

ColossalChat发布了一个双语数据集，其中包含大约100,000个中英文问答对。

该数据集是从社交媒体平台上的真实问题场景中收集和清理的，作为种子数据集，使用self-instruct进行扩展，标注成本约为900美元。

与其他self-instruct方法生成的数据集相比，该数据集包含更真实和多样化的种子数据，涵盖更广泛的主题。

该数据集适用于微调和RLHF训练。在提供优质数据的情况下，ColossalChat可以实现更好的对话交互，同时也支持中文。

完整的RLHF管线

RLHF的算法复刻共有三个阶段：

在RLHF-Stage1中，使用上述双语数据集进行监督指令微调以微调模型。

在RLHF-Stage2中，通过对同一提示的不同输出手动排序来训练奖励模型分配相应的分数，然后监督奖励模型的训练。

在RLHF-Stage3中，使用了强化学习算法，这是训练过程中最复杂的部分。

相信很快，就会有更多项目发布。

谁也没想到，这场LLaMA的意外泄露，竟点燃了开源LLM领域最大的创新火花。

参考资料：

https://thesequence.substack.com/p/the-LLaMA%20%20-effect-how-an-accidental

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

开发者笑疯了！ LLaMa惊天泄露引爆ChatGPT平替狂潮，开源LLM领域变天的相关文章

(3)mysql index

生活中的索引最常见的书籍是有目录的 xff0c 也可以叫做为索引为啥用索引 xff1f 为快不破 xff0c 为了快速的查找到我们想要的东西 xff0c 书中的索引可以快速查询到我们想看的章节内容 DB中的索引亦是如此索引本质本质就
博客乔迁

开通了个人博客网站欢迎访问 http www codingfuns com 博客地址http www codingfuns com 刚开通多有不足之处请留言哈非常感谢最近更新的一些文章 xff1a 文章题目文章链接地址更新日期com
好书好人生--读书的步骤

写在开始 xff1a 作为一名IT人士 xff0c 我们要经常接触新的技术 xff0c 也要多读一些技术的书和生活的书 xff0c 怎样读书最重要 xff0c 读书并不是读得多就好 xff0c 读书就像吃牛肉一样 xff0c 我们要吃了吸收
目标跟踪 | 目标跟踪算法总结

简介本文为目标跟踪算法调研总结注意 xff1a 可做分享 xff0c 切勿在投稿论文中大段摘用 xff08 重复率会很高 xff09 1 定义目标跟踪是通过分析视频图片序列 xff0c 对检测出的各个候选目标区域实施匹配 xff0c
Python | python调用D435i报错：Failed to resolve the request 及其解决办法

文章目录简介报错解决办法简介英特尔实感深度摄像机D435i可以同时输出深度图像和RGB图像官网上下载了一个D435i的测试文件 xff0c 编程语言为 xff1a python3 7 输出结果应该为同时显示深度图和RGB图的窗口但
Java——死锁产生的条件及死锁判断排查

文章目录死锁产生的必要条件死锁排查死锁产生的必要条件要达到死锁 xff0c 必须具备以下4个条件 xff1a 互斥至少有一个被持有的资源处于非共享模式 xff0c 如果有其他进程线程请求这个资源 xff0c 那这个进程线程必须等
年终工作总结：给新手程序员的几个建议

转自 xff1a 伯乐在线马上到年末了 xff0c 自己也对今年做了一下总结 xff0c 自己有哪些优点 xff0c 有哪些还需要加强每当我想到今年比较满意的地方 xff0c 对比之前 xff0c 就会有这样一个思考 xff1a 如果以
Linux下实现飞控开发：使用CMake构建STM32工程

前言 QQ xff1a 562983648 由于工作原因 xff0c 已经许久没有接触飞控了 18年的时候曾经写过一个半成品开源飞控 xff0c 是基于Keil MDK这款商业IDE开发的 xff0c 只能在Windows下运行由于笔者现
嘘！偷偷看下阿里技术大牛的私人书单

也许我们无法走遍地球的每一个角落 xff0c 却可以用阅读丈量整个世界停止阅读就等于停止给大脑供给养分信息爆炸时代 xff0c 养分的质量决定了个人的成长速度 4 23世界读书日阿里技书成长月第二期 xff0c 我们偷出了
工程师的精神家园

文学家和艺术大师们总是在追求着自己的一片精神家园 xff0c 与工程师相比 xff0c 他们的姿态高傲而脱俗真正朴实无华的 xff0c 大概是王小波描述的 xff0c 童年时代那个被锁着的书柜 xff0c 那个藏着奥维德的变形记 xff0
Github访问加速方法记录

由于各种各样的原因 xff0c 在国内访问Github的速度非常慢一般clone的速度只有几十k s的速度 xff0c 稍微大一点的工程基本无法clone xff0c 于是需要使用各种方式来加速访问Github的速度使用代理使用代理的
姿态篇：四.非线性最小二乘与飞控传感器校准

深入浅出多旋翼飞控开发姿态篇四非线性最小二乘与飞控传感器校准 Github 作者 xff1a Sky 前言搞好了传感器 xff0c 那意味着飞控已经完成了一半不用猜了 xff0c 这句话正是鄙人说的飞控的软硬件相关工作 xff0
概述篇：二.多旋翼飞控技术综述

深入浅出多旋翼飞控开发概述篇二多旋翼飞控技术综述 Github 作者 xff1a Sky 要学习多旋翼飞控 xff0c 第一步得先弄清楚飞控的整体框架和大致工作流程 xff0c 对飞控有了一个整体的认识之后 xff0c 我们再逐步去学
【深入浅出多旋翼飞控开发】系列教程

针对飞控初学者编写的一系列教程 xff0c 可配合开源飞控项目 xff1a 天穹飞控一起学习 xff0c 效率更高目录概述篇一多旋翼飞控发展史二多旋翼飞控技术综述预备篇一元器件选型及飞控电路设计二飞控代码下载与编译三
Cortex-M4和Cortex-M7中的SIMD指令

SIMD指令简介单指令多数据流 xff0c 即SIMD xff08 Single Instruction xff0c Multiple Data xff09 指一类能够在单个指令周期内同时处理多个数据元素的指令集 xff0c 利用的是数据
天穹地面站——专为飞控研发而生

一简介天穹地面站是本人为开源飞控项目天穹飞控专门开发的一个上位机软件 xff0c 针对飞控的研发与调试而设计一直以来 xff0c 我都为没有一个适合飞控开发的上位机软件而发愁 xff0c 国内大部分爱好者们所使用的相关软件 xff0
预备篇：二.飞控代码下载与编译

深入浅出多旋翼飞控开发预备篇二飞控代码下载与编译开源飞控交流 xff1a 562983648 Github 因论坛关闭 xff0c 迁移该文章至博客系统环境 xff1a WIN7 WIN8 WIN10 编译工具 xff1a Kei
预备篇：一.元器件选型及飞控电路设计

深入浅出多旋翼飞控开发预备篇一元器件选型及飞控电路设计 Github 要让飞控程序跑起来 xff0c 首先我们得要有一个硬件实体 xff0c 也就是我们的飞控板说实话 xff0c 飞控电路可以很简单 xff0c 单纯由几个简单的元器
使用VSCode打造APM飞控的编译+烧录+调试一体的终极开发环境

日期 xff1a 2019 05 08 前言 APM xff08 Ardupilot xff09 和PX4是当今世界上最为流行和活跃的两大开源飞控软件项目 xff0c 它们均在Linux下基于gcc编译工具链开发 xff0c 对于那些习惯与
“做好大数据测试，我是认真的！”

阿里妹导读 xff1a 大数据已然是当下的重要课题 xff0c 大大小小的企业在重视大数据的同时 xff0c 也渐渐重视大数据质量的问题阿里巴巴测试开发专家小郅 xff0c 今天会分享他对数据测试的系统性思考文章内容架构清晰 xff0c

随机推荐

Docker（一）虚拟机安装Docker

一安装Docker 官方镜像 Docker现在的版本分为Docker CE 社区版和Docker EE 企业版由于历史版本的原因在我们安装现在版本Docker的时候如果之前的Linux已经安装了Docker 那么最好先删除了之后再
linux Ubuntu 连不上新Putty 连接出错解决办法

1 首先检验linux系统是否安装了ssh server 在终端中输入 xff1a ssh localhost 若出现 xff1a ssh connect to host localhost port 22 Connection refus
git子仓库管理使用（添加子仓库，删除子仓库，更新子仓库）

背景项目中经常使用别人维护的模块 xff0c 在git中使用子模块的功能能够大大提高开发效率使用子模块后 xff0c 不必负责子模块的维护 xff0c 只需要在必要的时候同步更新子模块即可例如一个使用了子仓库的代码库 xff0c 如何
串口发送数据，只接收到00的原因之一

1 环境 xff1a STM32F103RCT6 KEIL 5 2 现象 xff1a 不管我发送任何类型的数据 xff0c 在串口助手上显示接收到的都是00 xff0c 我头很大 xff0c 去网上找了别人的代码对比检查终于 xff0c
Eclipse常用技巧总结

关于eclipse的使用方面 xff0c 其实有些东西都是小技巧的东西 xff0c 知道了后 xff0c 对编程会带来很大的方便一老是使用鼠标操作 xff0c 有的功能要点好多次鼠标 xff0c eclipse都有哪些热键呢 xff1f
新学期flag-适合每个人的专业课

在果壳上看了各学科入门书籍推荐这个帖子 xff0c 决定自己好好扩展一下自己的眼界 xff0c 开启一个伟大的阅读计划 xff1a 1 师从天才作者美罗伯特卡尼格尔出版社上海科技教育出版社评语 sunfield推荐 xff08
Android指纹识别，看这一篇就够了

在Android6 0 xff08 Api23 xff09 的时候 xff0c Android系统加入了指纹识别的api接口 xff0c 即FingerprintManager xff0c 定义了最基础的指纹识别接口不过 xff0c 在A
集成学习——机器学习(周志华)

集成学习目录 xff1a 个体和集成BoostingBagging与随机森林 Bagging随机森林综合策略平均法投票法学习法多样性误差分歧分解多样性度量多样性增强内容 xff1a 个体和集成集成学习是通过构建并结合多个学习
15-[LVI-SAM]分析总结

2021SC 64 SDUSC LVI SAM分析总结这是我的LVI SAM代码分析的最后一篇在这一篇 xff0c 我会做一个总结 xff0c 对我前面的Blog做一个综述 xff0c 分享在分析的过程中 xff0c 我的收获文章目录
Java编程思想个人读后感

今天又拿起了Java编程思想啃了起来 xff0c 前段时间看了二十来章 xff0c 但感觉心静不下来 xff0c 有许多知识没有消化 xff0c 所以昨天又从第一章开始学起 xff0c 这次也不强加自己一天要学一两章 xff0c 也觉得那样
MySQL 数据备份与还原

转载自 xff1a https www cnblogs com kissdodog p 4174421 html 一数据备份 1 使用mysqldump命令备份 mysqldump命令将数据库中的数据备份成一个文本文件表的结构和表中的数
Nate Robins' OpenGL源码中projecyion.c

projection c span class token comment projection c Nate Robins 1997 Tool for teaching about OpenGL projections span span
PHPstorm2018.3.4如何设置字体大小?

1 设置菜单栏以及左边文件字体大小 file gt settings ctrl 43 alt 43 s 按如图所示改变size 然后改变size得值点击apply 你便会发现菜单栏即左侧文件名的大小发生了变化 2 设置代码编辑器的字体大小
perf工具使用

perf研究总结最近在天数搞一个性能的工具 xff0c 需要抓callstack 包括用户态和内核的太调用栈 xff0c 那么就顺便研究了一下perf工具做了一个简单的总结 perf help 显示具体的命令 xff0c 每个命令如何使
JS防抖和节流

前言在进行窗口的操作或者输入框操作时 xff0c 如果事件处理函数用的频率无限制 xff0c 会加重浏览器和服务器的负担 xff0c 此时我们就可以用防抖 xff08 debounce xff09 和节流 xff08 throttle x
Win安装docker桌面版搭建青龙面板教程

docker桌面版 xff1a docker WSL2文件 xff1a WSL2 安装上面桌面版 docker wsl2 查看电脑虚拟化打开状态 xff08 开启 xff09 即可安装 docker并运行 xff0c 成功后的样子 xff
飞秋弹r6002 floating point not loaded关闭后退出

飞秋弹r6002 floating point not loaded关闭后退出 xff0c 破电脑又出幺蛾子 xff0c 点没在线的头像报这个错退出选择对方在线时自动发送文件也报这个错查了一圈都是说C 43 43 的问题 xff0c 在编
ubuntu18.04 Linux内核升级

Linux内核升级 Ubuntu18 04安装PREEMPT RT实时内核镜像站安装流程需要安装的依赖包内核编译过程找不到make命令的解决方法 sudo make command not found编译 Linux 内核报错 bin sh
爆爆爆！！Deep Mind与Google Brain合并，成立 Google DeepMind 新部门

图 xff5c 2010 2023 xff0c 从 DeepMind 到 Google DeepMind xff0c 再到 DeepMind xff0c 再到 Google DeepMind 来源学术头条微信号 xff1a SciTou
开发者笑疯了！ LLaMa惊天泄露引爆ChatGPT平替狂潮，开源LLM领域变天

来源新智源微信号 xff1a AI era Meta的LLaMA模型开源 xff0c 让文本大模型迎来了Stable Diffustion时刻谁都没想谁能想到 xff0c 一次意外的LLaMA泄漏 xff0c 竟点燃了开源LLM领域

开发者笑疯了！ LLaMa惊天泄露引爆ChatGPT平替狂潮，开源LLM领域变天

开发者笑疯了！ LLaMa惊天泄露引爆ChatGPT平替狂潮，开源LLM领域变天 的相关文章

随机推荐

热门标签

开发者笑疯了！ LLaMa惊天泄露引爆ChatGPT平替狂潮，开源LLM领域变天的相关文章