做大模型也有1年多了,聊聊这段时间的感悟!

2024-01-21

自ChatGPT问世以来,做大模型也有1年多了,今天给大家分享这一年后的感悟。

过去一年应该是AI圈最万千瞩目的一年了,大家对大模型、OpenAI、ChatGPT、AI Native、Agent这些词投入了太多的关注,以至于有一年的时间好像经历原本应该两三年才有的科技进步的感觉。

近距离看到了老王和光年从风风火火到突发意外,也亲自参与了所谓的“百模大战”,还经历了被人误解的“llama套壳”风波,真的是无比魔幻的一年。

回望这一年,太多和大家雷同的观点在这里就不赘述了,记录几个听上去有点反共识的点吧(其实很多也慢慢达成共识了)。

喜欢记得点赞支持一下,欢迎文末加入技术讨论

OpenAI 没有想象中那么稳

年初去了趟us,拜访了不少OpenAI、Google、Microsoft做大模型相关的researcher和engineer。从us回来的时候,虽然那时国内的大模型赛道因为老王的朋友圈变得异常热闹,但当时内心真实的感觉是国内和OpenAI的差距是巨大的。

那时GPT4还没有发布,但硅谷那边几乎所有人都知道GPT4早已经训练完了,将会在几周内发布,而且是chatgpt的重大升级;火爆一时的chatgpt是OpenAI 21年的模型,22年中GPT4就已经训练完成了。而国内则是在研究怎么能在一年内追上chatgpt,再加上之前疫情的影响,国内的researcher和国外的交流是比较匮乏的,有种“信息茧房”的感觉。大模型最重要的三要素:算力、数据、人,国内都不是很ready。

不过,当时也看到了OpenAI内部对于AGI和商业化的追求是有明显的差异化的,因为在microsoft的时候有不少research team和product team合作的痛苦经验,深知两个方向所优化的目标是高度不align的。在二月份做了个预测,OpenAI内部关于AGI和商业化的矛盾会在两年内爆发。

年底又去了趟us,回来的时候反而比年初有信心了很多。虽然chatgpt摇摇领先,过去一年,国内虽然说大模型领域一片喧嚣,但不得不说大家的进步是显而易见的,也都训练了很多能力非常不错的基础模型。

可以说,国内头部的大模型都已经和chatgpt3.5 comparable了。年初远远低估了国内的云厂商和大公司决策的效率,也低估了大家在大模型领域的投入。所有大模型公司也都找到了追赶期最关键的因素:提高数据数量和数据质量。客观来说,国内在最近一年的进步是比us要大的。

另一方面,OpenAI也没有看起来那么稳。前半年,GPT4快速发布未来模型能力会快速提升;chatgpt用户数据增长很快;plugin好像要重构所有应用。但现在大家都在讨论“scaling law”还能不能持续下去,GPT5可能带来的能力提升是什么;chatgpt用户量增长几乎平了,productivity类的产品会不会有增长天花板,从推理成本来看chatgpt是否真的能盈利;plugin好像已经证明是个彻底的失败了,好在OpenAI 11月6日的开发者大会紧急推出了GPTS,并放了一些新的feature,但能不能大获成功也是个question;如果OpenAI不能持续保持模型的领先力,会不会被to B传统企业和做产品更强的公司给替代掉。

没有“百模大战”

“百模大战”这个词在过去一年被反复提及,但大家似乎混淆了所谓“模型”的概念。大模型应该分为两类,一类是从头开始训练的基础模型,比如:Yi、QWen、Baichuan、ChatGLM、DeepSeek等等;另一类是continue pretraining和sft类别的模型。

这两类最大的差别就是花费的资源和训练用的数据。前一类现在大家基本上都是2T左右token起,也有3、4T token的数量级的,这类工作即使训练7B的模型也需要几百万的代价,训练30几B的模型更是数千万的成本。先不管大家模型最终效果如何,至少是花了真金白银做出来的,而且这个是一次训练的成本,还有大量的试错和实验,真实花费代价在几倍以上。后一类variance就比较大了,有用几百B数据做continue pretraining的,也有用几百条数据做sft的,花费则是从几十万到几十块不等。

这种情况下,把花费相差5、6个数量级的模型放在一起比较本来就是有失公允的。但如果仔细看“百模大战”里的模型类别,可以发现大多数都是后一类,前一类可能也就十几个,不到二十个。而真正关键的是前一类的基础模型,也是大家真金白银炼出来的模型。

开源和闭源的差距比想象中要大

Recall一下几个核心观点:

  • 大模型开源的只是权重和模型结构,模型结构大家都相差不大,而更重要的数据和训练方法都没有开源

  • 普通开发者很难在大模型预训练过程中参与,更多是在预训练完成后基于模型做posttraining的工作

  • LLaMA对国内大模型的生态没有太大影响(仅针对预训练)

关于这些观点和别人产生讨论最多的是LLaMA到底多国内大模型的繁荣有没有帮助。大家都知道LLaMA数据和训练方法都没有开源,只有权重对基础模型训练是一点用处都没有的,大家更想知道模型是怎么训练的,所以唯一有帮助的只有模型架构了。正好我们不幸经历了一场被人误解的“LLaMA套壳”风波(当然,先对改了张量名但没有修正回去等不规范的开源行为道歉),可以展开讲一讲“借鉴架构”的事情。

首先看一下什么是所谓的LLaMA的架构,或者说这是不是一个可以固化的概念。下面是LLaMA paper中关于architecture的全部篇幅,在双栏paper中只占1/4页。
在这里插入图片描述

架构说了模型是基于transformer架构,做了三个常用的改进,分别是pre-norm,SwiGlue和RoPE。再回顾看看在ChatGPT发布前,或者说LLaMA发布前大家是怎么训练大模型的,无论是GPTNeoX,BloomZ还是Galectica,基本都是一样的架构,和LLaMA架构基本没有区别。

所以,只要是之前训练大模型的人,大家都知道训练大模型的架构应该是什么样子的。大家不知道的是用高质量的数据原来能训练出一个还不错的模型,因为之前的数据质量问题,用同样架构并没有训练出效果出众的模型。但当LLaMA出来之前大家开始做大模型的时候,但凡稍微有点大模型背景的研究人员早就已经把数据提高到了第一优先级。所以,“借鉴架构”的概念是很难成立的,因为LLaMA本身就不能被称为一种架构,或者说LLaMA出来之前大模型架构已经收敛了。LLaMA更多是给了大家信心和敢于投入的勇气,从这点来说还是有很大帮助的。

中国的 researcher 比想象中要强

经常听到一个观点,世界上做大模型最强的100个人,有95个以上在美国。所以只要从OpenAI挖几个人或者从Google挖几个人,就能做出世界领先的大模型了。

但过去一年有幸接触了几乎所有国内做大模型的团队,也看到了很多原来在其他研究领域做出过突出成就的研究员在大模型赛道上突飞猛进,还有一些有潜力的学生/new graduate在被信任的环境下做出了比那些有经验的“大厂工程师”数倍的成果。所以做大模型还是需要相信最优秀的那批人和相信年轻人。之前大家认为国内的researcher不适合做大模型,只是因为国内没有给大家创造一个可以用几千卡联合训练模型的环境。

但当去年有了这种条件以后,国内的前沿工作者的迭代速度是明显超过国外的,这也是某种意义上国内去年模型能力快速提高地核心原因。毕竟,训练大模型只需要少数非常精英的人,给每人大几千张卡去做实验,剩下的就是做好support就有可能成功。人越多,反而效率越低。这个对管理者的人才识别能力和对人才的信任就是很大的考验。如果现在要问我世界上做大模型最强的100个人,我觉得有一半以上是在中国。

最后,quote 老王的一句话,在AGI的路上,所有参与者都是朋友。很期待中国今年能做出GPT4 comparable的基础模型。

欢迎大家加入交流群,交个朋友,一起学习,一起进步。我们的口号是“生命不止,学习不停”。

技术交流&资料

技术要学会分享、交流,不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。

成立了大模型技术交流群,本文完整代码、相关资料、技术交流&答疑,均可加我们的交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、微信搜索公众号:机器学习社区,后台回复:加群
方式②、添加微信号:mlc2060,备注:来自CSDN + 技术交流

通俗易懂讲解大模型系列

  • 用通俗易懂的方式讲解:大模型算法工程师最全面试题汇总

  • 用通俗易懂的方式讲解:我的大模型岗位面试总结:共24家,9个offer

  • 用通俗易懂的方式讲解:大模型 RAG 在 LangChain 中的应用实战

  • 用通俗易懂的方式讲解:一文讲清大模型 RAG 技术全流程

  • 用通俗易懂的方式讲解:如何提升大模型 Agent 的能力?

  • 用通俗易懂的方式讲解:ChatGPT 开放的多模态的DALL-E 3功能,好玩到停不下来!

  • 用通俗易懂的方式讲解:基于扩散模型(Diffusion),文生图 AnyText 的效果太棒了

  • 用通俗易懂的方式讲解:在 CPU 服务器上部署 ChatGLM3-6B 模型

  • 用通俗易懂的方式讲解:使用 LangChain 和大模型生成海报文案

  • 用通俗易懂的方式讲解:ChatGLM3-6B 部署指南

  • 用通俗易懂的方式讲解:使用 LangChain 封装自定义的 LLM,太棒了

  • 用通俗易懂的方式讲解:基于 Langchain 和 ChatChat 部署本地知识库问答系统

  • 用通俗易懂的方式讲解:在 Ubuntu 22 上安装 CUDA、Nvidia 显卡驱动、PyTorch等大模型基础环境

  • 用通俗易懂的方式讲解:Llama2 部署讲解及试用方式

  • 用通俗易懂的方式讲解:基于 LangChain 和 ChatGLM2 打造自有知识库问答系统

  • 用通俗易懂的方式讲解:一份保姆级的 Stable Diffusion 部署教程,开启你的炼丹之路

  • 用通俗易懂的方式讲解:对 embedding 模型进行微调,我的大模型召回效果提升了太多了

  • 用通俗易懂的方式讲解:LlamaIndex 官方发布高清大图,纵览高级 RAG技术

  • 用通俗易懂的方式讲解:使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

做大模型也有1年多了,聊聊这段时间的感悟! 的相关文章

随机推荐

  • 二区SSCI,国人发文第三,影响因子涨至4分,无需版面费!-科学指南针

    1 期刊介绍及速览 American Journal of Agricultural Economics 美国农业经济学杂志 以下简称 AJAE 是Wiley出版社旗下的刊物 于 1919年 创刊 为世界各地农业和粮食经济学 自然资源和环境
  • 远距离相位激光测距传感PHR系列性能及通信接口说明

    远距离相位激光测距传感PHR系列包含PHR 120100 测距120米 PHR 200100 测距200米 广泛适用于隧道检测 堆垛机定位 行车定位 工业窑车定位 智能物流 高位拣货车定位 AGV避障 轮渡减震胎定位 窑车测距 炼钢厂钢包车
  • 基于卡尔曼的混合预编码技术用于多用户毫米波大规模MIMO系统研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
  • 分子模拟 || VMD统计并绘制氢键-科学指南针

    1 修改hbonds插件源代码输出原子编号 E Program Files x86 VMD plugins noarch tcl hbonds1 2 hbonds tcld的hbonds插件源代码 在1062行后添加一行set newhbo
  • 华为OD机试真题-分披萨-2023年OD统一考试(C卷)

    题目描述 吃货 和 馋嘴 两人到披萨店点了一份铁盘 圆形 披萨 并嘱咐店员将披萨按放射状切成大小相同的偶数扇形小块 但是粗心服务员将披萨切成了每块大小都完全不同奇数块 且肉眼能分辨出大小 由于两人都想吃到最多的披萨 他们商量了一个他们认为公
  • 华为OD统一考试 Python【数字转化】

    描述 我们想要一种特殊的整数编码方式 让数字小的时候 编码占的空间也小 编码的方法如下 我们每7位组成一部分来编码 在每个字节里 用前7位来存数字 如果后面还有数据 最高的那一位就是1 否则就是0 数据要按小端序保存 也就是说 小的数据部分
  • XRD精修结果都包括些什么?-科学指南针

    X射线粉末衍射精修在诸多文章中都有出现 特别是一些无机材料体系 拿到一个可精修的数据 精修完成之后能给出什么结果呢 一般说来 能给出以下几个结果 Rietveld全谱拟合数据 一般需要自己作图 精修输出文件 包括拟合R因子 Rexp Rwp
  • 强烈推荐收藏!LlamaIndex 官方发布高清大图,纵览高级 RAG技术

    近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术 帮助应对复杂的生产场
  • 两个不同类型的知识库管理工具:Docusaurus和HelpLook怎么选?

    在今天的信息化世界 知识库管理工具的重要性日益突出 它们不仅有助于公司高效地组织和分享信息 还能优化工作流程 提升生产力 而在众多知识库管理工具中 Docusaurus和HelpLook是两种比较有特色的工具 但是不同的工具有各自的特点和功
  • 如何快速申请GPT账号?

    详情点击链接 如何快速申请GPT账号 一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图 图像识别 文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
  • 核磁共振谱图的一维、二维(氢谱、碳谱)解析-科学指南针

    核磁共振 谱图分析 在学习核磁共振谱图之前 我们应该先了解化学位移 Hz 它的本意是指 质子周围基团的性质不同 使它的共振频率不同 但由于核共振频率的化学位移只有百万分之一 采用绝对表示法非常不便 因而采用相对表示法 为此选择一个参比物 T
  • 手把手教你用 Stable Diffusion 写好提示词

    Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度 文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好 前面文章写了一篇文章 一份保姆级的 Stable Diffusion
  • 论文写作“the”的用法?-科学指南针

    1 感觉满篇好多 the 先说一点儿统计数据 和我所做东西紧密相关的7篇快报 总字数14000 the 1000次 平均每14个字出现一次 英语中频率排名第一的 the 语料库的统计是每16个字出现一次 考虑到学术写作的指代重复性高 情有可
  • 气质联用解析-科学指南针

    GC MS全称气相色谱法 质谱法联用 Gas chromatograohy mass spectrometry 简称气质联用 是将气相色谱仪器 GC 与质谱仪 MS 通过适当接口 interface 相结合 借助强大的计算机技术 进行联用分
  • 未知材料分析中使用的现代分析方法汇总-科学指南针

    1 X射线衍射分析 XRD X射线衍射分析是利用晶体形成的X射线衍射 对物质进行内部原子在空间分布状况的结构分析方法 本法的特点在于可以获得元素存在的化合物状态 原子间相互结合的方式 从而可进行价态分析 可用于对环境固体污染物的物相鉴定 如
  • 机器学习算法实战案例:BiLSTM实现多变量多步光伏预测

    文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
  • 软件测试中的白盒测试,这些技巧你知道吗?

    对于很多刚开始学习软件测试的小伙伴来说 如果能尽早将黑盒 白盒测试弄明白 掌握两种测试的结论和基本原理 将对自己后期的学习有较好的帮助 今天 我们就来聊聊黑盒 白盒测试的相关话题 1 黑盒测试的方法和小结 最常见黑盒测试方法包括 边界值 等
  • 两篇毕业论文致谢同一个女朋友?哈哈哈哈!

    论文查重率 绝对是每个毕业党心头的一抹淡淡的忧桑 想一下 你很用心的准备了几个月的时间 选题 实验 架构 论述 字数 排版等等 拿着一份修改了几十遍的文稿 小心翼翼地递交系统查重审核 屏幕却瞬间 蹦出了一个爆炸的百分比 那种心情怎么形容呢
  • 新手也能看懂的【前端自动化测试入门】!

    前言 最近在网上搜索前端自动化测试相关的文档 但是发现网上的文章都是偏使用 没有把一些基础概念说清楚 导致后续一口气遇到一些 karma Jasmine jest Mocha Chai BDD 等词汇的时候很容易一头雾水 这次一方面整理一下
  • 做大模型也有1年多了,聊聊这段时间的感悟!

    自ChatGPT问世以来 做大模型也有1年多了 今天给大家分享这一年后的感悟 过去一年应该是AI圈最万千瞩目的一年了 大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注 以至于有一年的时间好像经