数据决定AIGC的高度,什么又决定着数据的深度?

2023-11-19

有人曾言,数据决定人工智能发展的天花板。深以为然。

随着ChatGPT等AIGC应用所展现出的强大能力,人们意识到通用人工智能的奇点正在来临,越来越多的企业开始涌入这条赛道。在AIGC浪潮席卷全球之际,数据的重要性也愈发被业界所认同。

之所以会如此,有两个关键原因:其一,高质量数据是AIGC 应用的核心,决定着算法的性能、泛化能力和应用效果;其二,与数据相关的“存、管、用、传”逐渐成为AIGC发展的瓶颈,亟待高水平的基础设施来协助突破。

可以说,深度学习在过去十年的高速发展,让异构算力的作用与价值得到高度认可;未来十年,数据存储的变革将决定着高质量数据发展的深度。

AIGC市场发展趋势是什么

大模型所展现出的强大能力和较强的泛用性,已经让AIGC应用在办公、会议、对话、搜索、广告等内容生成领域初露锋芒。当前,AIGC和大模型的赛道热闹非凡,仅仅中国市场就有上百个大模型涌现,“百模大战”的盛况让市场热度持续升温。那么,未来的大模型和AIGC市场的发展趋势是什么?

毫无疑问,接下来,出于对交互体验升级和降本增效的巨大需求,AIGC和大模型广泛进入垂直行业已是不可阻挡的趋势。Gartner预测,到2032年,生成式人工智能市场规模将达到2000亿美元,在金融、教育、医疗、工业等领域有着广阔的应用前景。

中金公司研究部判断,未来的大模型市场类似云计算市场,就像一个冰激凌蛋筒,上面的冰激凌球代表金融、医疗、教育等多个关键行业的垂直大模型,与私有云的现状与曲同工;下面的筒身则代表着通用大模型,覆盖广泛的长尾市场,类似公有云市场那样的覆盖。

显然,越来越多行业用户看到了垂直行业大模型的巨大潜力。这些重点行业场景足够丰富、业务数据量巨大、降本增效需求强烈,加上这些行业的用户本身即是私有云的重度用户,看重数据的安全性和本地化部署,对于垂直大模型的需求极为强烈。

“当前,大模型和AIGC市场依然处于早期。但AIGC对于整个行业应用是变革性的,所有行业都必须去适应AIGC带来的变化。这无疑在未来五到十年将产生持续且巨大的数据存储需求。”浪潮信息首席架构师叶毓睿判断道。

AIGC数据存储挑战到底有哪些

今年4月,OpenAI CEO Sam Altman认为,增加大模型的参数数量不再是提升大模型能力的最有效手段,大规模、高质量数据和数据高效处理工程化才是关键。事实上,从OpenAI GPT-5开始,多模态被视为是大模型下一阶段的重要演进方向。

多模态大模型意味着除了文本数据之外,音视频数据也将加入其中,这会让AIGC的数据特征呈现出数据海量化、多元数据类型复杂、服务协议多样、性能要求苛刻和要求服务持续在线,进而带来一系列极为复杂的数据存储挑战。

浪潮分布式存储总经理姜乐果认为,当下AIGC应用背后需要对行业上下游对数据进行采集、标注、训练、推理、归档,带来了异构数据的融合、持续的低延迟与高带宽和EB级大容量存储需求等三大重要挑战。

首先是异构数据的融合。大模型训练数据呈现来源多、格式多的多源异构现状,对于面向单一数据类型设计的传统存储是极大挑战。这种传统模式的缺陷就是很难在一个数据平台上满足不同数据类型对于性能的不同需求,在大模型从采集、标注到训练、推理整个数据存储管道中,需要来回进行数据拷贝,数据处理效率低且无法满足AIGC应用的处理需求。

“传统存储需要以搬移数据的方式实现多协议访问,这是AIGC应用平台一大关键瓶颈。支持异构数据的多协议融合将是解决挑战的关键。”姜乐果直言道。

第二是持续的低延迟与高带宽。在大模型的训练过程中,需要频繁从数据集取Token。但是每个Token通常只有4个字节,这就造成了实时高并发的海量小IO,需要极低的延迟来保障性能;此外,大模型在存储模型Checkpoint时,需要高带宽来支撑数据的快速写入。

“大模型训练时候通常要调用上千块GPU块,某一块卡出现故障或者问题的情况比较正常。如果出现故障,模型需要重新拉起,利用备用节点来替代,备用节点CheckPoint需要存储的高带宽来实现数据快速写入,否则就很容易造成GPU算力资源的浪费。”浪潮信息AI架构师杨鑫介绍道。

第三是EB级大容量存储需求。大模型的越多数据投喂结果越精准的工作原理,决定着大模型训练存在深度学习网络层数多、连接多、参数和数据集种类复杂、数据量大的特征,随着模型参数和数据量的快速增长,对于存储的大容量和扩展需求也迫在眉睫。

“比如,浪潮信息自身的源1.0大模型,加入音视频数据之后,经过不断训练已经达到上百PB的数据规模。”姜乐果介绍道,“随着训练的不断深入,对于数据存储容量、性能的需求也会持续增长,需要存储具备极致容量和极致性能的能力。”

叶毓睿则表示,AIGC涉及包括采集、标注、训练、推理、归档等数据处理的过程较长,且不同阶段对于性能、延时、数据安全等要求不同。从产业变革的角度看,AIGC正在推动数据存储产业进行全方位的技术升级,未来专业的AIGC存储产品与解决方案需求将大幅增加。

浪潮存储,让AIGC有数

如果说数据存储是AIGC应用的地基,那么这个地基的深度与优劣将决定着AIGC应用的通用性和效率。一旦AIGC应用的效率持续提升和拓展,也意味着垂直行业的生产力有望迎来质的变化。

当前,市场中专门针对AIGC的存储解决方案并不多,尤其是经过验证过的存储解决方案很少。浪潮信息是市场中率先推出相应解决方案的厂商,利用一套AS13000融合存储支撑生成式AI的全阶段应用,一套存储提供端到端的数据流支持流程,满足面向文本、音频、图像、视频、代码以及多模态和全模态的大模型需求。

据悉,浪潮信息AS13000提供全闪、混闪、带库、光盘四种介质,支持文件、对象、大数据、视频、块协议,可满足大容量、多协议共享,百万以上IOPS,100GB以上带宽,冷数据的长期保存和归档。“浪潮信息的AIGC存储解决方案已经支撑过浪潮信息源1.0大模型以及其他AI公司的大模型训练。”姜乐果如是说。

从浪潮信息透露的信息来看,AS13000有效避免了传统存储方案台设备并存带来的各种复杂性、数据处理低效率以及数据孤岛,对于AIGC突破海量数据瓶颈和加速释放数据价值有着极大帮助。

姜乐果介绍,浪潮信息生成式AI存储解决方案拥有极致融合、极致性能、极致节能,和热温冷冰四级全生命周期存储管理四大特点。

第一是极致融合。一个集群内支持多个存储池,一个存储池内支持文本、图片、音频、视频等多种类型数据存储,一份数据又可以被前端不同业务场景以文件、对象、大数据以及视频的存储方式并行访问。完美契合了多模态大模型场景的数据存储需求,并且实现应用间数据实时共享以及存储空间的最优化。

第二则是极致性能。AIGC带来的是性能指数级的增长,大带宽、高IOPS在未来会成为业务需求的标配。对此,浪潮信息的解决思路是通过架构、硬件、关键技术、IO路径优化等多种手段实现存储性能的充分释放。

“比如,数控分离架构可以减少东西向数据量的转发;GDS、RMDA技术则可以缩短I/O路径,SPDK、缓存零拷贝技术则可以有效减少I/O路径上的数据拷贝;基于自研NVMe SSD开发的盘控协同技术,则减少I/O访问SSD盘的次数,进一步提升性能。”姜乐果补充道,“像全闪单节点带宽超过50GB/s,IOPS超过50万,双控全闪节点,带宽超过100GB/s,IOPS超过100万。”

以源1.0大模型为例,在AS13000并行存储支撑下,2128个GPU集群上跑了16天完成训练,算力效率达到45%,远超MT-NLG与GPT-3等国际知名模型。

第三则是极致节能。相关数据预测,到2025年,我国AI算力总量将超过1800EFlops,AI算力占总算力比重超过85%,这意味着与AI相关的数据存储也将大幅增加,随之而来不容忽视的挑战就是节能减排。为此,浪潮信息最新的G7硬件平台中,存储专用的液冷服务器涵盖性能型和容量型,且均采用模块化冷板组件设计模式,并且浪潮信息具有风液式,全液式等完善的端到端解决方案。

最后则是端到端的全生命周期管理。浪潮信息生成式AI存储解决方案采用闪存、磁盘、磁带、光盘四种介质提供热温冷冰四种存储资源,且实现了资源的互通和数据全生命周期的管理。此外,四种介质、四类存储节点提供热温冷冰自动流转,满足各类应用的灵活配置需求,用户们可以根据性能型、均衡型、容量型、高密容量型四种机型的按需灵活配置,进一步降低整体投入。

“目前市场上能够构建起完整端到端支撑平台的用户还是少数。大部分用户希望是有一揽子解决方案,来支撑起他们迅速构建起平台。浪潮信息自身拥有大模型的经验,可以通过生成式AI存储解决方案将好的经验和实践快速输出到市场中,更好地推动AIGC产业发展。”姜乐果总结道。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据决定AIGC的高度,什么又决定着数据的深度? 的相关文章

随机推荐

  • 行为型模式-状态模式

    package per mjn pattern state after 环境角色类 public class Context 定义对应状态对象的常量 public final static OpeningState OPENING STAT
  • querystring模块

    querystring decode querystring encode querystring escape str querystring parse str sep eq options querystring stringify
  • 作为程序员,你是如何在工作以后找到女朋友的?

    作为程序员 你必然经历这样的一个场景 一个温馨的夜晚 一个可爱懵懂的妹子找你求助 想让你到她家修电脑 如果没有 那么请照镜子检查BUG 一般情况下 场景内会发生三种可能 1 你是一个计算机大牛 从进屋检查到修完电脑再到离开 全程五分钟说拜拜
  • 计算机网络:IP数据报文分析

    IP 数据报前 40 字节 编号 1 45 00 05 dc 4a cb 20 00 40 01 4B 52 c0 a8 00 27 7c 7f cf 0f 08 00 45 2e 00 01 00 17 61 62 63 64 65 66
  • Java 密码学相关知识

    密码的发展 密码的起源 密码的起源非常早 早期的符号密码像宗教符号 岩壁画 至今无人破解的 费托斯圆盘 和无人读懂的 伏尼契手稿 古代隐写术 国内的 封蜡技术 隐形墨水 吞服信条 国外的 卡登格子隐藏法 意大利数学家卡登 两张带孔的卡片 文
  • 在mybatis-plus项目中自带要编写sql语句,@select注解的使用

    提示 在mybatisplus中编写sql语句有两种方法 我重点使用 select注释这种方法 还有一种是增加mapper xml文件配置 这里不做讲解 在mybatis plus项目中自带要编写sql语句 select注解的使用 前言 一
  • Servlet3.0基础

    一 要求 1 MyEclipse10 0或以上版本 2 发布到Tomcat7 0或以上版本 二 步骤 1 创建javaEE6 0应用 三 概述 注解代替web xml配置文件 异步处理 对上传的支持 四 注解代替配置文件 1 删除web x
  • 【java篇】线程安全问题(大总结)

    哎嘿 CSDN的大佬您来啦 这来都来了 浅浅的给个赞呗 系列文章目录 线程的创建与主要方法分析和其他基础知识点 可以参考以下文章 线程知识点总结 南斋孤鹤的博客 CSDN博客 线程知识 超全 线程知识点 及线程方面的一些理解性问题https
  • Haproxy+keepalived(高可用集群部署)

    Haproxy keepalived Haproxy定义 Haproxy应用 Haproxy支持的调度算法 Haproxy配置文件详解 haproxy keepalived优点 项目环境 主服务器配置 1 haproxy配置 2 keepa
  • js制作简单的轮播图

    实现原理 首先定义一个div 设置width和height 然后在这个div里面再定义一个div2 该div的宽度为父div的宽度的n倍 其中n表示图片的张数 在这个div2里面放置需要进行轮播的所有图片 设置每张图片的宽度为一个最外层父类
  • eclipse javaweb 项目报错 The type javax.servlet.http.HttpServletRequest cannot be resolved.

    问题 把一个项目 copy 到自己电脑上后 图片 javaweb 项目 各种红 报错 jsp 页面也报错 Description Resource Path Location Type The type javax servlet http
  • 多益网络校招 —— 二面hr面

    11月27号晚上技术面试 12月6号才收到hr面试通知 12月8号hr面 整轮hr面试只有15分钟 一开始是做自我介绍 然后问了以下问题 1 我父母对我的职业有什么看法 2 之前有没有拿到满意的offer 3 为什么学前端 4 未来职业规划
  • docker 安装wiki.js 和wekan

    wiki js https blog csdn net vegas lee article details 122356646 wekan http t zoukankan com caihemm p 14446937 html
  • 用python实现英文字母和相应序数转换

    用python实现英文字母和相应序数转换 第一步 字母转数字 英文字母转对应数字相对简单 可以在命令行输入一行需要转换的英文字母 然后对每一个字母在整个字母表中匹配 并返回相应的位数 然后累加这些位数即可 过程中 为了使结果更有可读性 输出
  • Linux USB摄像头使用

    Linux USB摄像头使用 一 使用V4l2工具调试摄像头 1 v4l2 ctl 常用操作 安装V4l2工具包 sudo apt install v4l utils 通过v4l2查看摄像头设备 sudo v4l2 ctl list dev
  • 在Java中产生随机数的两个方法

    一 利用random方法来生成随机数 在Java语言中生成随 机数相对来说比较简单 因为有一个现成的方法可以使用 在Math类中 Java语言提供了一个叫做random的方法 通过这个方法可以让系统产生随机 数 不过默认情况下 其产生的随机
  • C语言多级指针含义归纳

    前言 今天在实习二叉排序树的结点删除时 用到了三级指针 一下子有些困惑了 一番思考 才觉得对指针的理解更透彻了 条理地总结一下 从多个角度来分析 可以让思路更清晰 不同角度的含义单独来看不复杂 但是组合在一起就容易使我们陷入困惑 理解了各个
  • ctfshow_web175

    此文章是为了记录本人对知识理解 如有错误望敬请指出并谅解 打开场景可以看到在本题中 页面的拦截方式做了改变 检查结果是否有flag if preg match x00 x7f i json encode ret ret msg 查询成功 x
  • C语言写游戏——扫雷

    实现效果比较简陋 如图 写游戏需要不同的文件构成 首先看一下资源管理器清楚框架结构 在test c文件里编写整个游戏的运行逻辑 具体代码 define CRT SECURE NO WARNINGS 1 include game h 测试游戏
  • 数据决定AIGC的高度,什么又决定着数据的深度?

    有人曾言 数据决定人工智能发展的天花板 深以为然 随着ChatGPT等AIGC应用所展现出的强大能力 人们意识到通用人工智能的奇点正在来临 越来越多的企业开始涌入这条赛道 在AIGC浪潮席卷全球之际 数据的重要性也愈发被业界所认同 之所以会