ChatGPT开源系列

2023-11-10

进化树

从GPT-4 可以看出未来 LLM 的哪些趋势？未来的研发方向和优化策略是什么？

模型

nebullvm-chatllama（待定）

进化树

基础模型

GPT-4 之后

从GPT-4 可以看出未来 LLM 的哪些趋势？未来的研发方向和优化策略是什么？

1）闭源趋势

网友戏称 OpenAI 已沦为 Closed AI。毕竟从 GPT1 到 GPT-4，模型各类细节越来越闭源和黑盒，大模型战场的竞争因素决定了 GPT-4 类的第一梯度模型可能会越来越封闭，成为技术门槛。

2）「Self Instruct」模式

其核心是：中小模型+大模型生产指令数据的「LLaMA 7B + text-davinci-003」模式。中小参数的模型在成本上，是更靠近实际落地的方式。要知道 llama.cpp 可以在 Pixel 6 手机上运行。通过该模式精调过的 Alpaca，效果接近普通 GPT3.5。

3）模型结合

更多模态、更多形态结合 ChatGPT 类模型包括 Kosmos-1 和具身智能 PaLM-E，同时从听、说、看、触等全方位结合，形成类似真正智能体的概念。

4）模型加速和降低成本

这会是持续关注的方向，包括从训练、推理等多层面考量。

5）能力预测

这是很重要的方向。即用小模型来预测广泛大模型的能力，极大减少试错成本，提升训练效率。

6）开源评测框架

这对于 LLM 的评测具有重大意义，可以快速发现改进方向。

模型

Stanford Alpaca

基于LLaMA.

Alpaca是由Meta的LLaMA 7B微调而来的全新模型，仅用了52k数据，性能约等于GPT-3.5。关键是训练成本奇低，不到600美元。在8个80GB A100上训练了3个小时，不到100美元；生成数据（开放）使用OpenAI的API，500美元。

可以借鉴的点

self-instruct

数据集示例
微调代码已放出，微调后的模型没有开源

推理代码参考官方
中文能力不太行已有自己的微调版本

推理代码可以参考 llama本身

llama.cpp

基于LLaMA.

在苹果M1/M2芯片上跑LLaMA，130亿参数模型仅需4GB内存，LeCun转赞

优势：c++编译

后续可以再尝试lora版本有说效果更好且模型效果更小

训练参考

lora原理

验证阶段已完成

中文数据微调，验证方法可行性。

- 具体做法：

- - 生成中文种子任务，让ChatGPT生成数据。用了10w的数据去微调

nebullvm-chatllama（待定）

基于LLaMA.

在做一个框架的事情要集成各个模型进来

主要参考数据准备阶段
三阶段提供微调方法

微调脚本

3.推理模块还在开发中

可以借鉴的点

训练成本

数据集制作方法

OpenChatKit

基于GPT系列

一个参数量达 20B 的开源模型，该模型基于 EleutherAI 的 GPT-NeoX-20B，在 4300 万条指令上进行了微调；
一个参数量达 60 亿的审核模型（moderation model），可以帮模型过滤不当内容；
一个可扩展的检索系统，可以帮模型检索维基百科等资源库，从而给出最新信息。

可以借鉴的点：

有训练模块
有推理模块
数据准备阶段。数据格式类似OpenAI

在社区中看到训练资源

ChatGLM

基于GLM （清华）

清华开源千亿基座的对话模型开启内测，对应单卡版本开源

无官方微调模块，但有其他开源替代方案
有推理模块
低成本部署
数据样本参考开源的方式

可以借鉴的点

量化，低成本部署，单卡部署

租服务器

应用

qa结合embedding。azure

阿里opensearch 内容社区实现

QA系统

分类任务

有那么多的embedding为什么gpt那么优秀

其他任务

最难的是工程化（技术方案产品落地的的能力），怎么能更好的把各种技术栈堆叠在一起（可能一个功能背后是多个功能/技术栈的结合），且能够无缝连接（把技术点用产品的交互来实现，让用户用最少的理解/使用成本，完成复杂度较高的任务），最后实现一个很好的效果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)