开源LLM领域变天!LLaMa惊天泄露引爆ChatGPT平替狂潮

2023-05-16

670e20bb82e0aaefe69628abe3def6ff.gif

©作者 | Aeneas 好困

来源 | 新智元

Meta的LLaMA模型开源,让文本大模型迎来了Stable Diffustion时刻。谁都没想到,LLaMA的一场「史诗级」泄漏,产生了一系列表现惊艳的ChatGPT「平替」。

谁能想到,一次意外的LLaMA泄漏,竟点燃了开源LLM领域最大的创新火花。

一系列表现出色的ChatGPT开源替代品——「羊驼家族」,随后眼花缭乱地登场。

7b098708cee307a6d480268a842c430e.png

开源和基于 API 的分发之间的摩擦,是生成式AI生态系统中最迫在眉睫的矛盾之一。

在文本到图像领域,Stable Diffusion的发布清楚地表明,对于基础模型来说,开源是一种可行的分发机制。

然而,在大语言模型领域却并非如此,这个领域最大的突破,比如GPT-4、Claude和Cohere等模型,都只能通过API获得。

这些模型的开源替代品没有表现出相同水平的性能,特别是在遵循人类指令能力上。然而,一场意想不到的泄露,让这种状况彻底发生了改变。

bad387df567de5e7cb5a496d3b575814.png

LLaMA的「史诗级」泄漏

几周前,Meta AI推出了大语言模型LLaMA 。

1d6a2d562f37d51c1b9ef6f05a3ed541.png

LLaMA 有不同的版本,包括7B、13B、33B和65B的参数,虽然它比GPT-3小,但在许多任务上,它都能和GPT-3的性能相媲美。

LLaMA 起初并未开源,但在发布一周后,这个模型忽然在4chan上泄露了,引发了数千次下载。

74dfbe7556404ee90dcfe230d2d69ace.png

这个事件,可以被称为「史诗级泄漏」了,因为它成为了大语言模型领域层出不穷的创新来源。

短短几周内,基于它构建的LLM代理的创新,已经呈爆炸式增长。

Alpaca、Vicuna、Koala、ChatLLaMA 、FreedomGPT、ColossalChat…… 让我们来回顾一下,这场「羊驼家族」的大爆炸,是如何诞生的。

0c380c0c8602eb0470908d9edeb556f4.png

Alpaca

在三月中旬,斯坦福发布的大模型Alpaca火了。 

8c42a35af9b460a7b63ebb5ef68d3b99.png

Alpaca是由Meta的LLaMA 7B微调而来的全新模型,仅用了52k数据,性能约等于GPT-3.5。

关键是训练成本奇低,不到600美元。

斯坦福研究者对GPT-3.5(text-davinci-003)和Alpaca 7B进行了比较,发现这两个模型的性能非常相似。Alpaca在与GPT-3.5的比较中,获胜次数为90对89。

52c8b7071ce63417f412f4b1994580fb.png

对于斯坦福的团队来说,想要在预算内训练一个高质量的指令遵循模型,就必须面临2个重要的挑战:要有一个强大的预训练语言模型,以及一个高质量的指令遵循数据。

恰恰,提供给学术研究人员使用的LLaMA模型搞定了第一个问题。

对于第二个挑战,「Self-Instruct: Aligning Language Model with Self Generated Instructions」论文给了很好的启发,即使用现有的强语言模型来自动生成指令数据。

LLaMA模型最大的弱点,就是缺乏指令微调。OpenAI最大的创新之一就是将指令调优用在了GPT-3上。

对此,斯坦福使用了现有的大语言模型,来自动生成遵循指令演示。

现在,Alpaca直接被网友们奉为「文本大模型的Stable Diffusion」。

d4409041f5177ab624cc8aededb24c44.png

8efb232fbfd9855c85d558b43b15395d.png


Vicuna

3月底,来自UC伯克利、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分校的研究人员开源了Vicuna,这是一个与GPT-4性能相匹配的LLaMA微调版本。

86be5cbd9fad4e1ebe8ccf225a237b97.png

130亿参数的Vicuna,通过在ShareGPT收集的用户共享对话上对LLaMA进行微调训练而来,训练成本近300美元。

结果显示Vicuna-13B在超过90%的情况下,实现了与ChatGPT和Bard相匹敌的能力。

103a83820d4115bd41fe57dabe1b41c8.png

67e772136d335ef2f2fb9e23cd0596f1.png

对于Vicuna-13B训练流程,具体如下:

首先,研究人员从ChatGPT对话分享网站ShareGPT上,收集了大约70K对话。

接下来,研究人员优化了Alpaca提供的训练脚本,使模型能够更好地处理多轮对话和长序列。之后利用PyTorch FSDP在8个A100 GPU上进行了一天的训练。

在模型的质量评估方面,研究人员创建了80个不同的问题,并用GPT-4对模型输出进行了评价。

为了比较不同的模型,研究人员将每个模型的输出组合成一个单独的提示,然后让GPT-4评估哪个模型给出的回答更好。

fa447181a41fe8db93638551a5b7eaa0.png

LLaMA、Alpaca、Vicuna和ChatGPT的对比

b8ba3d1189bff3d1d031da7edeb5cd53.png

Koala

最近,UC伯克利 AI Research Institute(BAIR)又发布了一个新模型「考拉」(Koala),相比之前使用OpenAI的GPT数据进行指令微调,Koala的不同之处在于使用网络获取的高质量数据进行训练。

outside_default.png

研究结果表明,Koala可以有效地回答各种用户的查询,生成的回答往往比Alpaca更受欢迎,至少在一半的情况下与ChatGPT的效果不相上下。

研究人员希望这次实验的结果可以进一步推动围绕大型闭源模型相对于小型公共模型的相对性能的讨论,特别是结果表明,对于那些能在本地运行的小模型,如果认真地收集训练数据,也可以取得大模型的性能。

outside_default.png

事实上,在此之前斯坦福大学发布的Alpaca模型,根据OpenAI的GPT模型对LLaMA的数据进行微调的实验结果已经表明,正确的数据可以显著改善规模更小的开源模型。

这也是伯克利的研究人员开发和发布Koala模型的初衷,希望为这个讨论结果再提供了一个实验证明。

Koala对从网上获取的免费交互数据进行了微调,并且特别关注包括与ChatGPT 等高性能闭源模型交互的数据。

研究人员并没有追求尽可能多的抓取网络数据来最大化数据量,而是专注于收集一个小型的高质量数据集,包括ChatGPT蒸馏数据、开源数据等。

outside_default.png

ChatLLaMA

Nebuly开源了ChatLLaMA ,这是一个使用让我们使用自己的数据创建对话助手的框架。

outside_default.png

ChatLLaMA让我们使用自己的数据和尽可能少的计算量,来创建超个性化的类似ChatGPT的助手。

假设在未来,我们不再依赖一个「统治所有人」的大型助手,每个人都可以创建自己的个性化版本类ChatGPT助手,它们可以支持人类的各种需求。

outside_default.png

不过,创建这种个性化助手需要在许多方面做出努力:数据集创建,使用RLHF进行高效训练,以及推理优化。

这个库的目的是,通过抽象计算优化和收集大量数据所需的工作,让开发人员高枕无忧。

outside_default.png

ChatLLaMA旨在帮助开发人员处理各种用例,所有用例都与RLHF训练和优化推理有关。以下是一些用例参考:

  • 为垂直特定任务(法律、医疗、游戏、学术研究等)创建类似ChatGPT的个性化助手;

  • 想在本地硬件基础设施上使用有限的数据,训练一个高效的类似ChatGPT的助手;

  • 想创建自己的个性化版本类ChatGPT助手,同时避免成本失控;

  • 想了解哪种模型架构(LLaMA、OPT、GPTJ等)最符合我在硬件、计算预算和性能方面的要求;

  • 想让助理与我的个人/公司价值观、文化、品牌和宣言保持一致。

outside_default.png

FreedomGPT

FreedomGPT使用Electron 和 React构建,它是一个桌面应用程序,允许用户在他们的本地机器上运行LLaMA。

outside_default.png

FreedomGPT的特色,从它的名字上就可见一斑——它回答的问题不受任何审查或安全过滤。

这个程序由AI风险投资公司Age of AI开发。

FreedomGPT 建立在 Alpaca 之上。FreedomGPT使用Alpaca的显著特征,因为与其他模型相比,Alpaca相对更易于访问和定制。

ChatGPT遵循OpenAI的使用政策,限制仇恨、自残、威胁、暴力、性方面的内容。

与ChatGPT不同,FreedomGPT回答问题时没有偏见或偏袒,并且会毫不犹豫地回答有争议或争论性的话题。

outside_default.png

FreedomGPT甚至还回答了「如何在家制造炸弹」,而OpenAI专门从GPT-4中删除了这一点。

FreedomGPT很独特,因为它克服了审查限制,在没有任何保障的情况下迎合有争议的话题。它的标志是自由女神像,因为这个独特而大胆的大语言模型象征了自由。

outside_default.png

FreedomGPT甚至可以在不需要联网的情况下,就能在计算机上本地运行。

此外,开源版本将很快发布,使用户和组织可以完全定制。

outside_default.png

ColossalChat

UC伯克利提出的ColossalChat只需要不到100亿个参数就可以达到中英文双语能力,效果与ChatGPT和GPT-3.5相当。

此外,基于LLaMA模型的ColossalChat,还复刻了完整的RLHF过程,是目前最接近ChatGPT原始技术路线的开源项目。

outside_default.png

outside_default.png

中英双语训练数据集

ColossalChat发布了一个双语数据集,其中包含大约100,000个中英文问答对。

该数据集是从社交媒体平台上的真实问题场景中收集和清理的,作为种子数据集,使用self-instruct进行扩展,标注成本约为900美元。

与其他self-instruct方法生成的数据集相比,该数据集包含更真实和多样化的种子数据,涵盖更广泛的主题。

该数据集适用于微调和RLHF训练。在提供优质数据的情况下,ColossalChat可以实现更好的对话交互,同时也支持中文。

outside_default.png

 完整的RLHF管线

RLHF的算法复刻共有三个阶段:

在RLHF-Stage1中,使用上述双语数据集进行监督指令微调以微调模型。

在RLHF-Stage2中,通过对同一提示的不同输出手动排序来训练奖励模型分配相应的分数,然后监督奖励模型的训练。

在RLHF-Stage3中,使用了强化学习算法,这是训练过程中最复杂的部分。

outside_default.png

相信很快,就会有更多项目发布。

谁也没想到,这场LLaMA的意外泄露,竟点燃了开源LLM领域最大的创新火花。

参考资料:

https://thesequence.substack.com/p/the-LLaMA%20%20-effect-how-an-accidental

更多阅读

outside_default.png

outside_default.png

outside_default.png

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

outside_default.png

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

开源LLM领域变天!LLaMa惊天泄露引爆ChatGPT平替狂潮 的相关文章

  • 我觉得你可以早点找工作面试,一方面可以倒逼自己学习,另一方面可以清楚别人考察的是什么。

    我觉得你可以早点找工作面试 xff0c 一方面可以倒逼自己学习 xff0c 另一方面可以清楚别人考察的是什么 就像复试面试 xff0c 你会发现你折腾了这么久的无人机 xff0c 花费了这么大精力的无人机 xff0c 居然根本一个问题都没有
  • 路由器开发

    路由器我看了下还是有几本专门的书讲了讲的 xff0c meybe可以像无人机一样弄透彻些 我记得华清的课里面也有谈到过路由器 xff0c 记不清好像是再驱动还是系统移植的课程里面 路由器openwrt我发现可以集成到无人机项目里面 可以看我
  • C 语言实现 FTP 服务器

    这个有专门的课程讲解我看到 xff0c 百度也能搜到不少相关的 我觉得你可以去把这个弄懂
  • 找找网络编程,多线程编程的面试题

    我看到嵌入式软件招聘里面不少要求网络编程 xff0c 多线程编程的 xff0c 我想去找找这方面的题库 xff0c 好更好地准备 这样好针对性地准备一下 xff0c 不然真的不太好准备 1
  • 关于推流软件

    他们好像就叫OBS xff0c 是开源的 xff0c 可以自己改 https www cnblogs com csuftzzk p OBS Plugins Development html linux上推流似乎是可以用ffmpeg http
  • 复旦大学邱锡鹏教授团队:Transformer最新综述

    PaperWeekly 原创 作者 王馨月 学校 四川大学本科生 研究方向 自然语言处理 Transformer 在自然语言处理 计算机视觉 音频处理等许多人工智能领域都取得了巨大的成功 xff0c 也吸引了学术界和行业研究人员的大量兴趣
  • 通过子网掩码判断两个IP地址是否在同一子网中

    IP地址分为两部分 xff0c 网络部分和主机部分 xff0c 子网掩码就是用来给你指明哪些是网络部分 xff0c 哪些是主机部分 xff0c 如果网络部分相同 xff0c 那主机就在同一网络里 一个IPv4地址 xff0c 由32位二进制
  • 拉流软件

    当初OZO电脑端用的VLC 手机端用的insta360player 媒体播放器三大底层架构 MPC MPLAYER VLC 下面截图自 FFmpeg从入门到精通 播放VR视频当时好像用的暴风影音 1
  • 当自己选导师,当自己招聘,能感受到很多东西。

    当自己选导师的时候很多东西就能体会到了 xff0c 这跟面试一样 xff0c 你从面试官的角度 xff0c 很多就合情合理了 老师选学生肯定也是愿意选做过自己领域相关项目的学生嘛 xff0c 你千万不要这么想 xff0c 就是一味表现自己很
  • 直立车模控制中三种滤波算法简单分析

    摘自 xff1a https mp weixin qq com s WbCh0NFAnsf9y2blQenf7g 让我想起余义的一篇文章也是说到平衡车有三种滤波 xff0c 我想和卓晴说的是一样的吧 直立车模控制中三种滤波算法简单分析 原创
  • 直立车模控制中三种滤波算法简单分析(清华卓晴)

    摘自 xff1a https mp weixin qq com s WbCh0NFAnsf9y2blQenf7g 让我想起余义的一篇文章也是说到平衡车有三种滤波 xff0c 我想和卓晴说的是一样的吧 https blog csdn net
  • 就去工作,然后报个培训班学,这样感觉其实挺好的

    我感觉啊 xff0c 就去工作 xff0c 然后报个培训班学 xff0c 这样感觉其实挺好的 xff0c 再弄个非全的硕士学位 也可以达到你想要的算法层面 他们去北邮的不很多也是自学 反正到哪里都是自学 xff0c 去软微也是自学 xff0
  • SIFT(单目3D重建和全景视频拼接都用到了!)

    我发现无论是单目SLAM里面 xff0c 还是全景视频拼接里面 xff0c 都用到了SIFT xff01 xff01 xff01 xff01 xff01 xff01 这是我今晚发现的 xff01 xff01 xff01 xff01 xff0
  • 集成学习

    中科院人工智能学院面试的时候有问到 xff0c 集成学习有哪些方法 xff0c 各自的优缺点 是因为我在简历上写了KPI异常检测最后需要通过无监督学习或者集成学习来解决 说实话我对集成学习的概念没那么清晰了 xff0c 我只记得裴丹用的随机
  • float a=1.0f 这里的1.0f中的 f 代表什么?有什么意思?

    最近看正点原子飞控源码会发现 xff0c 经常出现这种0 f xff0c 我以前玩单片机似乎没碰到过
  • 基于机器学习的KPI自动化异常检测(裴丹)

    可以看到确实就是用的随机森林
  • 原来全景拼接用的关键点检测,这样很多就说得通了

    原来全景拼接用的关键点检测 xff0c 这样很多就说得通了 xff0c 特别是手机自动多张合成一张全景照片时 xff0c 有的效果真的是不错的 xff0c 是的 xff0c 真的拼接得不错 xff0c 应该不是一个死的模板死套死拼的 xff
  • 从Bayesian Deep Learning到Adversarial Robustness新范式

    作者 王灏 毛成志 单位 Rutgers University Columbia University 研究方向 贝叶斯深度学习 对抗鲁棒性 拖延症赶在 2021 结束前来介绍一下我们 ICCV 2021 上基于 Bayesian Deep
  • 随机森林

    现在看我当时中科院人工智能学院面试时随机森林大部分说错了 我现在可以大体说出随机森林怎么弄的了 xff0c 当然前提要理解决策树 xff0c 建议去看周志华西瓜书里写的 xff0c 非常详细 xff0c 很不错 想想为什么要用随机森林 xf
  • 你工作过他们一般会对你工作时的实际的项目感兴趣

    你工作过他们一般会对你工作时的实际的项目感兴趣 xff0c 实际投入运营的项目感兴趣 xff0c 学校里的小打小闹的那种课本上的项目可能就没多少兴趣 xff0c 所以你工作时的项目务必要重视起来 xff0c 好好准备 面试国科大时他们就直接

随机推荐

  • 决策树

    我发现你连决策树都还没有完全弄明白 这有一篇写得不错的 xff0c 可以理解决策树的构建是个递归的过程 那决策树到底是二叉树还是三叉树 xff1f 具体放在哪个叶节点下怎么定的 xff1f 这个就是递归过程返回的条件 xff0c 那三个条件
  • boosting

    https blog csdn net qq547276542 article details 78304454 utm medium 61 distribute pc relevant t0 none task blog OPENSEAR
  • 我觉得一些非常有效的时间序列分析方法,对于KPI异常检测

    其实我当时觉得差分就挺好的了 xff0c 只是觉得方法过于简单 xff0c 总想弄点高级的方法 确实阈值和差分已经很不错了 xff0c 是很基础但也是很不错的方法 xff0c 裴丹的14个检测器最开始的两个就是阈值和差分 其实我真的觉得这两
  • VAE变分自编码器

    你在简历上写上基于VAE得KPI异常检测 xff0c 然后去面试 xff0c 会倒逼着你把VAE弄会弄清楚弄透彻 实际就是让你去跟别人讲
  • 说实话光一个KPI异常检测问题就让我接触了非常多的机器学习算法了。

    说实话光一个异常检测问题就让我接触了非常多的机器学习算法了 xff0c 我感觉由一个问题深入感觉还是不错的 你再去系统地学机器学习也会轻松很多 有一个落地场景感觉也是不错的 你但在那学机器学习算法 xff0c 但是没有合适的应用场景 xff
  • 王道给的职业发展,我感觉不错。

  • 去成为一个开源项目/社区的主要贡献者

    你要是真正想从事一方面 xff0c 不要在那抱怨没有机会 xff0c 你真正对那一方向感兴趣 xff0c 你就去自己做 xff0c 甚至成为那方面的开源项目的积极贡献者 xff0c 你都不需要怎么证明自己 xff0c 你再去找这方面的工作
  • SIGAI机器学习算法地图

    摘自 xff1a https blog csdn net SIGAI CSDN article details 80991031
  • KDD 2022 | 图“预训练、提示、微调”范式下的图神经网络泛化框架

    作者 社媒派SMP 来源 社媒派SMP 本文是SIGKDD 2022入选论文 GPPT Graph Pre training and Prompt Tuning to Generalize Graph Neural Networks 的解读
  • 独立森林

    独立森林是周志华提出的 xff0c 是一种无监督的异常检测算法
  • VR直播白皮书

    由华为和联通出的这个VR直播白皮书我感觉很不错 xff0c 我网盘里有 xff0c 搜白皮书可以搜到 xff0c 比较系统讲解了基于5G的VR直播系统 让我想起当初诺基亚的 业内首个基于5G的端到端VR直播解决方案 在这本白皮书里面应该可以
  • AIOps白皮书推荐的异常检测解决方案

    这和腾讯的Metris是一个思路 xff08 我发现上面AIOps白皮书的图就是腾讯织云异常检测框架的图 xff01 包括AIOps白皮书上的框图没有ABtest模块 xff0c 而腾讯织云的框图有ABtest模块 xff0c 而且AIOp
  • 智能问答

    我当初看到NOKIA专家组开会讨论这个 xff0c 预算20万 想做一个这个 xff0c 现在在AIOps白皮书里面看到了 xff0c 看来也是属于AIOps的一部分 也怪不得他们要做这个
  • 发现一本讲人工智能在电信行业应用的书《人工智能技术商业应用场景实战》

    发现一本讲人工智能在电信行业应用的书 人工智能技术商业应用场景实战 这挺符合我之前的工作背景 xff0c 而且也讲到了智能运维 xff0c 而且其中一个作者参与了AIOps白皮书的编写 看来这本书 xff0c 再让你像一个你以前工作背景的项
  • 使用GnuRadio + OpenLTE + SDR 搭建4G LTE 基站(上)

    摘自 xff1a https www freebuf com articles wireless 108417 html 使用GnuRadio 43 OpenLTE 43 SDR 搭建4G LTE 基站 xff08 上 xff09 漏洞盒子
  • GSM BTS Hacking: 利用BladeRF和开源BTS 5搭建基站

    GSM BTS Hacking 利用BladeRF和开源BTS 5搭建基站 引文 如果你已经购买了Nuand xff08 官方 xff09 BladeRF x40 xff0c 那么就可以在上面运行OpenBTS并可以输入一些指令来完成一些任
  • 深度学习方法的分类

    最近写PPT要写个深度学习所有方法的一个梳理 xff0c 发现很少有书系统讲深度学习到底囊括哪些方法 xff0c 大多都是讲下CNN RNN就完了 xff0c 包括 深度学习 这本书也没有明确讲深度学习具体包含哪些方法 机器学习有哪些方法很
  • 使用Minifly打造基于视觉感知的跟踪无人机

    摘自 xff1a https www cnblogs com kryo p 11278565 html 使用Minifly打造基于视觉感知的跟踪无人机 前言 xff1a 本文介绍一种可行的解决方案来实现基于视觉感知的跟踪无人机 由于本人能力
  • 关于GAAS

    官网 https www gaas dev https gitee com gaasdev GAAS github地址 https github com generalized intelligence GAAS 教程目录 xff08 这个
  • 开源LLM领域变天!LLaMa惊天泄露引爆ChatGPT平替狂潮

    作者 Aeneas 好困 来源 新智元 Meta的LLaMA模型开源 xff0c 让文本大模型迎来了Stable Diffustion时刻 谁都没想到 xff0c LLaMA的一场 史诗级 泄漏 xff0c 产生了一系列表现惊艳的ChatG