出门问问把AIGC看得很透彻

2023-11-11

640?wx_fmt=jpeg&wxfrom=13&tp=wxpic

 (图片来源:Pixabay)

640?wx_fmt=jpeg&wxfrom=13&wx_lazy=1&wx_co=1&tp=wxpic

李志飞将AIGC看得很透,他可能是行业里“最不着急”的人。

640?wx_fmt=jpeg&wxfrom=13&wx_lazy=1&wx_co=1&tp=wxpic

 

@数科星球原创

作者丨苑晶

编辑丨大兔

 

“几乎每一个行业,从业者都是国外的2倍,利润又是同行的1/5,让中国的创业难度提升了10倍”。李志飞的这句话适用于广大行业,也可看成AIGC行业所面临的现状。

在2023年,AIGC行业开局即炸裂。“被离职”、泛互联网从业者及创业者扎根其中,保守估计已逾百万之众。热闹中裹挟着焦虑,熙熙攘攘的人群中到处可听见“chat、chat”。

第二季度,国内企业动作频出,百度、360、阿里、商汤相继发布自研大模型,创业圈也热情不减,王慧文、李开复、贾扬清、王小川相继下场宣布入局大模型,当大家的关注点都聚焦在5000万美元能买多少张卡,可以支持几次训练的时候,李志飞和出门问问却走出了另外一条路。自研大模型+AIGC产品矩阵,底层技术和应用落地并行是这家公司的特色,他可能是这个行业“最不着急”的人。

01

什么是大模型

在李志飞看来,大模型本质上是序列模型。

以GPT为代表的大模型起源于文本,⽂本是简单线性序列,从这个角度看,大模型本质上是一个序列模型。

他认为,序列本身是很通用的,语言是一种序列,天气温度、股票价格也是序列。任何一个序列都有所谓的Prefix(前缀)、中缀(Infix)和 Suffix(后缀),这些元素构成短语后就能形成具有递归能力的层次式表示,就像语言的语法树一样。大模型现在已经学会快速表达序列,这一能力是以前的AI在机器翻译、语音识别等序列任务里都不具备的。而且语言序列只是一种非常简单的序列,因为它是线性的。

这似乎并不难理解,在数科星球(ID:digital-planet)多方印证下,找到了序列模型的一些解释:(GPT、BERT等)之所以被称为序列模型,是因为它们是在序列数据上进行预训练的。在自然语言处理领域,大模型的输入通常是一句话或一篇文章,这些输入可以被看作是一个序列。因此,在训练这些模型时,它们通常会以序列方式处理输入,并使用一系列技术来建立记忆和理解上下文之间的关系,以提供更好的预测能力。

在数科星球(ID:digital-planet)的研究中发现,如今,序列模型在业界已被广泛采用。例如,Google的BERT模型可以通过在大量文本数据上进行预训练,理解单词和短语之间的关系,从而实现对复杂自然语言处理任务的卓越表现。同样,OpenAI的GPT-3模型是基于序列到序列的转换模型,以多种方式训练,使用Transformer架构来学习计算机生成的文本与真实的人类生成的文本之间的关系。

值得注意的是,大模型较之以往AI产品的好处是显而易见的。以往,问题在通过AI生成结果之前,需要定义语义模板,而这通常是指一种用于描述和表示语言语义信息的结构化模板。这些模板描述了一些常见的语言结构和句式,在生成文本时可以根据这些模板来指引生成过程。但缺点是,当问题发生变化,AI的程序也需变化,这让模型本身变得“不那么通用”。

“而大模型训练过程中并不会预设问题,只在最后Fine Tuning阶段给模型一些范例数据(而非按照格式去标注数据),然后就可以直接提问模型并得出答案。”这意味着,大模型产品不需要特意标注数据和重新训练系统,在通用性角度上,是一种极大的进步。

02

参数不是越多越好

随着ChatGPT在全球越来越火爆,大模型的基本原理已逐渐被世人熟知。在一个个大模型推向市场的同时,数科星球(ID:digital-planet)看到,大模型的参数量变成了人们关注的焦点。对此,人工智能科班出身的李志飞认为,大模型不只是”大“。

他提到,参数量超千亿的语言模型并非近年才发展起来,早在2007年,Google Translate的语言模型就已在2万亿文本token里进行学习,并达到3000亿参数。但那时的大模型都是基于文本里的n-grams构建,只是对互联网文本的表层建模,至多只能往前看六个词,主要用于在翻译过程中判断哪些句子更加符合目标语言习惯,并不具备泛化任务的能力。

所以大模型不只是「大」,更多是需要对互联网文本深度地建模。

在数科星球(ID:digital-planet)对话相关业内人士后,也得出了相似结论:即大模型并不是参数越多越好——大模型确实需要参数到达一定的量级才会出现“涌现“能力,增加参数量也的确可以提升模型表现,但也会带来以下一些潜在问题:

训练时间和计算资源:参数越多,训练模型所需的时间和计算资源就越多。这可能导致开发周期变长,并需要更强大的硬件设备才能支持。

过拟合:较多参数的大模型可能面临过拟合问题。当一个模型具有太多参数时,它可能过于复杂,以至于对训练数据捕捉过多细节,而无法很好地泛化到新的、未见过的数据。

优化挑战:参数较多的模型在寻找最优解时具有更大的搜索空间,从而使优化过程更为复杂和困难。

易用性和部署:大模型可能导致较大的存储和内存需求,这可能影响模型的易用性和部署。在资源受限的设备上(如移动设备),部署大模型可能存在挑战。

因此,在设计和选择模型时,应该根据任务需求和资源限制来平衡模型的大小和复杂度。在实际应用中,往往需要找到模型大小和性能之间的最佳平衡点。有时候,使用更小的模型加上合适的正则化方法、数据增强等技术,也能达到不错的效果。

03

关键在于把如何大模型用起来

4月20日,出门问问在2023AIGC战略发布会上内测自研大模型“序列猴子”,展示了其在知识储备、多步推理等方面的能力,李志飞本人甚至做了一场“人机交互”的live demo。

此外,出门问问还推出了四款AIGC产品形成产品矩阵,分别为AI写作平台“奇妙文”、AI绘画平台“言之画”、AI配音平台“魔音工坊”、数字人视频与直播平台“奇妙元”,涵盖了剧本生成、解说讲稿、文本工具、创意想法、视频制作和制图配图等多个使用场景。

自2012年成立,出门问问这家公司在语音识别、TTS和NLP等领域均有尝试。2020年6月,GPT-3出现之后其强大的通用能力让人李志飞非常震撼,一个单一的模型便可以完成多种特定任务,甚至能够完成从来没有接触过的任务。惊艳于GPT-3的表现,出门问问开始探索中国GPT-3之路,并于2021年发布大模型「UCLAI」,但由于其商业化落地过于艰难,出门问问便停止了对大模型的投入。

随后的一年多时间里,出门问问开始布局生成式AI,做出了一系列AIGC产品,如「魔音工坊」和「奇妙元」。同时在美国,以Jasper为代表的AIGC产品迎来爆发式发展,成为GPT落地应用的最佳场景之一。

2022年10月,出门问问重启大模型业务。历经6个月,出门问问在发布会中连发4款AIGC产品,涵盖剧本生成、解说讲稿、文本工具、创意想法、视频制作和制图配图等多个使用场景形成覆盖创作者全流程的生成式产品矩阵。

厚积薄发之下,大模型技术以及AIGC落地场景和产品应用的积累彻底打通了出门问问的“任督二脉”,让产品-数据和用户之间形成了飞轮效应。

客观地说,出门问问的模式可以成为大模型和AIGC企业的成长样板,在可预期的未来,AIGC产品之间也将在进一步提升语义语境理解、垂直模型和个性化之间展开。在数科星球(ID:digital-planet)看来这场技术革命才刚刚开始,远没到终局之时。

不过面对OpenAI引发的这场技术浪潮,相比于年初的满腔热血,李志飞理性了很多。

“跟ChatGPT差距是16个月 ”是李志飞对国内大模型技术水平的判断,他认为,目前国内各家大模型的平均水平大概处于谷歌FLAN阶段(FLAN开启了大模型的指令学习Instruction Tuning范式),

做大模型不能太着急,它是个长期主义的事情。

如今,在琳琅满目的AIGC类产品推向市场的同时,数科星球(ID:digital-planet)认为,创业企业在构建技术底座的同时,还应该明确落地场景和商业模式。毕竟目前,国内外差距展现出来的只是技术问题,而中国拥有全球难以企及的应用优势。技术和商业并行,两条腿走路或许是最适合国内大模型企业的发展路线,就像李志飞所说,发展大模型的关键在于把如何大模型用起来。

结尾:在对话多家AIGC企业后,数科星球(ID:digital-planet)觉得,李志飞和出门问问可能是行业中“最不着急”的人。他本人对AIGC的态度是长期看好,但并不焦虑。

现在,AIGC的子弹飞翔两个多月,并搅得行业“天下大乱”。在未来,数科星球(ID:digital-planet)希望看到更多更扎实、更能沉得住气的企业加入AIGC大潮。有理由相信,倘若再给行业多些时间,那么将会有更多的企业给大众带来更多惊喜。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

出门问问把AIGC看得很透彻 的相关文章

随机推荐

  • Flink学习19:算子介绍keyBy

    1 keyBy简介 主要作用 把相同的数据 汇总到相同的分区中 数据本来是分布在不同的slot中 keyBy会把相同的数据拉到相同的slot中 2 keyBy的使用 在使用keyBy时候 需要向keyBy传递一个参数 告诉其按照哪个字段进行
  • 2022-01-12 网工基础(二十)GRE原理与配置 VRRP原理与配置

    一 GRE原理与配置 IPSec VPN 用于在两个端点之间提供安全的 IP 通信 但只能加密并传播单播数据无法加密和传输语音 视频 动态路由协议信息等组播数据流量 通用路由封装协议 GRE Generic Routing Encapsul
  • ​路由器是如何工作的?

    什么叫路由 路由器的英文是 Router 也就是 找路的工具 找什么路 寻找各个网络节点之间的路 换句话说 路由器就像是快递中转站 包裹会经过一个个的中转站 从遥远的地方寄到你家附近 数据包也是一样 路由器是连接两个网络的硬件设备 承担寻路
  • Linux部署东方通TongWeb

    Linux部署东方通TongWeb TongWeb 一 软件版本 二 东方通TongWeb7部署流程 2 1 安装JDK 2 1 1 下载文件 2 1 2 查看当前JDK版本 2 1 3 卸载JDK 2 3 1 卸载JDK 需root权限
  • mmsegmentation 训练自己的数据集

    一 MMSegmentation是什么 MMSegmentation 是一个基于 PyTorch 的语义分割开源工具箱 它是 OpenMMLab 项目的一部分 他与MMDetection类似 集成了各种语义分割算法 可以快速验证语义分割效果
  • 关于HTML5中表单提交的几种验证方法介绍

    转自 微点阅读 https www weidianyuedu com 一 自动验证 我们可以通过元素的属性设置 进行表单提交的验证 required属性 此属性可以应用在大多数输入元素上 除了隐藏元素 图片元素按钮上 提交时 如果元素为空
  • MVVM和MVC有什么区别?

    前言 模型 视图 视图模型 Model View ViewModel MVVM 本质上是MVC 模型 视图 控制器 的改进版 其最重要的特性是数据绑定 data binding 此外还包括依赖注入 路由配置 数据模板等一些特性 从MVC到M
  • Python+Neo4j构建时光网TOP100电影知识图谱

    Python Neo4j构建时光网TOP100电影知识图谱 环境 1 Neo4j 3 5 6 2019年6月25日 2 Java 1 8 0 181 3 Annaconda 3 一 准备工作 Neo4j安装 https blog csdn
  • 随机森林详解

    原文链接 机器学习之随机森林 RF 详解 文章目录 一 bagging算法 1 简介 2 bagging算法流程 二 随机森林 1 简介 2 CART分类树的生成 3 总结 常用集成学习包括Bagging Boosting Stacking
  • SpringCloud-Alibaba整合Nacos+Seata+Mybatis-Plus

    SpringCloud Alibaba整合Nacos Seata Mybatis Plus Seata Example 项目说明 准备工作 配置数据库 创建 undo log 表 创建 示例中 业务所需要的数据库表 启动 Seata Ser
  • 基于spring boot实现企业微信登录

    基于spring boot实现企业微信登录
  • JS关键字、保留字(日志)

    关键字 是指JS本身已经使用了的字 不能再用它们充当变量名 方法名 包括 break case catch continue default delete do else finally for function if in instanc
  • docker安装fastdfs集群

    在dockerhub上搜索fastdfs 我选择了使用最多的星星最多的镜像 season fastdfs 拉取镜像 docker pull season fastdfs 创建数据卷 docker volume create tracker
  • 恒指李阳12.9日预测及操作建议

    恒指早盘资讯 上周五美股集体收涨 道指收涨逾330点 标普500指数收涨0 91 科技股普涨 苹果涨近2 再创历史新高 港股ADR指数小幅下跌 按比例计算 收报26489点 跌9 13点或0 03 汇丰控股收报57 74元 较港收市升0 2
  • 避免同一个文件被include多次

    在C C 中 为了避免同一个文件被include多次 有两种方式 一种是 ifndef方式 一种是 pragma once方式 在头文件的最开始加入 ifndef ifndef的是方式是受C C 语言标准支持 ifndef方式依赖于宏名不能
  • TS 的类

    一 基础语法 class Person constructor 二 类的属性 1 属性的初始化 在 TS 中 我们如果在要 constructor 中定义一个属性 必须先在 constructor 之前对数据进行初始化 class Pers
  • css禁止滑动页面_弹出层完美禁止页面滚动

    Html Css Js 弹出层去除背景滚动 原生版 使用js构建的弹出层类 使用new的方式实例化 传入的参数为 el 触发元素 click触发弹出层 content 弹出层内容 time 0 显示持续时间 使用 passive 事件和ov
  • mysql一对多关联查询语句_mysql 一对多的时分 关联查询 筛选多方

    mysql 一对多的时候 关联查询 筛选多方 users 表和 auth token log表是一对多 现在是把user的信息找出来 关联上一些 auth token log表的数据 因为a表是多的一方 要多他的数据进行一些条件匹配 这个s
  • 数字化时代-7:从三大产业看赚钱的立足点

    摘要 通过观察不同产业的发展特点 发现社会发展的趋势 农业社会 工业社会 信息社会 虚拟社会演进 物质产品生产 精神产品的生产 把握大势 让猪遇到风飞起来 违背大势 飞机也会坠毁 何为产业 主要是指在经济社会中 能够生产某种类型产品的部门的
  • 出门问问把AIGC看得很透彻

    图片来源 Pixabay 李志飞将AIGC看得很透 他可能是行业里 最不着急 的人 数科星球原创 作者丨苑晶 编辑丨大兔 几乎每一个行业 从业者都是国外的2倍 利润又是同行的1 5 让中国的创业难度提升了10倍 李志飞的这句话适用于广大行业