百度智能云X英伟达直播实录超级AI计算机X-MAN技术

2023-11-11


GPU进入数据中心约有8~10年,这些年内 GPU显存的容量、GPU P2P带宽、GPU性能都在不断提升。据不完全统计, 每年GPU显存大约有一倍的变化, P2P带宽有1.5倍到2倍的变化,而且性能变化更多。

由于性能的变化,会引起GPU功耗的变化, GPU功耗变化从最早的40瓦一直到现在的400瓦、500瓦,以及到未来的700瓦等等,这种变化会引起算力提升。

由于业务模型的需求,算力的提升推动了硬件在整个性能方面的不断迭代。模型的变化大约在3~4个月会有一次迭代更新,每年大约有3~4次的迭代,而近几年硬件的变化速度明显低于模型的变化,这对整个硬件系统在设计过程中带来了极大挑战,主要表现在以下5方面:

1、算力挑战,主要表现在GPU的算力方面和整个系统的算力;

2、存储挑战,主要是GPU和存储之间通信的带宽和通信速度的挑战;

3、通信挑战,主要是GPU和GPU之间或者计算节点和计算机节之间的挑战;

4、散热挑战,GPU 功耗增加散热的挑战越来越明显;

5、供电挑战,最早是12V的供电,近几年逐渐发展到54V供电,目的是为了解决大功率密度GPU在供电过程中的高功耗问题。

X-MAN 4.0的设计恰好解决了上面提到的几个痛点。算力问题上,因为整个设计是一个硬件解耦的设计,采用了GPU资源池化的解决方案,同时是一个模块化的设计,兼容了OAI和OAM;由于 X-MAN 4.0设计有一个灵活的、拓扑的I/O,能够支持I/O扩展和多网卡的性能;在整体散热上,采用了风冷兼容液冷的设计,能够很好的发挥GPU的性能;供电上,采用了54V供电,相较于12V供电,系统更加稳定可靠,而且适合于大功率密度的GPU应用场景。

在整个硬件架构设计方面,采用了融合架构,即AI和HPC架构融合,整机柜和标准机架构融合,同时把存储靠近GPU,实现GPU和存储之间访问时延最短;

硬件解耦是GPU和计算节点完全分离,而且可以灵活支持不同的CPU,比如Intel 平台、ARM平台、AMD平台等;还有灵活分布的I/O,而且I/O可以扩展;GPU和网卡之间的配比关系可以实现1:1;在整个散热的过程中,有风冷和液冷共存;

另外,支持资源池化和模块化的设计。X-MAN 4.0在相同硬件配置下,它的MLperf结果在全球名列第二。

因为X-MAN 4.0具有I/O灵活的扩展性,所以对于超大规模集群来说,它有一个很好的组网能力。因为在整个集群的组网过程中,采用了200G的IB网络,实现了上行网络和下行网络的1:1的带宽。在整个的集群设计过程中,采用了Ethernet和IB共存的模式,实现了存储和GPU之间高带宽通信,实现了GPU和存储的池化。

除X-MAN 4.0之外,也看到了一些其他的产品,比如X-MAN 1.0、X-MAN 2.0、X-MAN 3.0,还有正在开发的X-MAN 5.0。对于每一代产品都有不同的产品形态和架构设计, X-MAN 1.0采用的是一个16卡的PCIe卡架构,这种架构设计当时是为了解决多机和单机处理不同任务时,可以给一个机器分配多个任务,或者把一个任务分配给多个机器,好处是可以充分利用GPU资源,从而实现 GPU资源的最大利用。

从X-MAN 1.0到X-MAN 2.0,实现了 GPU P2P带宽的提升,从PCIe 3.0提升到NVLink 2.0,而且在X-MAN 2.0时,具有灵活I/O雏形。

在X-MAN 2.0到X-MAN 3.0之后,整个网络实现了100G RDMA的通信,同时整个架构上的设计,可以支持单机内的大模型,从而在GPU和GPU之间通信采用了NVLink 3.0技术。

从X-MAN 3.0到X-MAN 4.0,整个架构发生了一些变化,即有了更丰富的I/O,能够支持更多的网卡,而且能够实现节点和节点之间的高速互联和灵活组网,支持100G网络和200G网络以及更高的一些网络。

X-MAN还能够结合4路CPU的计算节点,解决一些行业内应用的问题。

从整个架构上来看,

>> X-MAN是硬件的解耦,而且能够灵活匹配不同的硬件平台,比如Intel平台,AMD平台,ARM平台。

>> 另外,在整个设计过程中,采用资源池化的设计思路,即可以把一个机箱里的GPU看做一个资源池,按照业务需求去分配。

>> 同时,机内的网络能够支持Fabric任务架构,动态的对GPU资源进行分配。

在整个设计过程中,是模块化设计,可以把整个架构分为4个模块:网络交换模块, GPU模块,存储模块和供电模块,以及计算模块。整个网络模块从X-MAN1.0、X-MAN2.0、X-MAN3.0、X-MAN4.0发生了重大的变化,而且整个时延在不断减小,网络带宽在逐渐提升。

X-MAN架构还引领了 OAI和OAM标准,因为它有一个丰富的I/O,能够实现灵活扩展,而且适合于匹配不同的计算节点,或适合于组成不同的网络和集群。

同时 ,X-MAN在新技术方面,也在不断的探索和尝试,比如散热方面,从最早的风冷逐渐过渡到冷背技术,而冷背技术在X-MAN 2.0上已经大规模的应用,在数据中心已经应用了长达2~3年,而且非常的稳定。随着GPU功耗和性能的不断提升,在未来的某个时刻内,会发现冷背的散热技术已经满足不了GPU的需求,所以会采取浸没的散热方式彻底解决GPU散热问题,提高GPU的性能。

未来随着模型的发展,可以看到芯片的设计越来越大,而且需求的带宽和时延越来越低,这样可能会形成一个芯片在未来代表一个集群,这种设计的好处是时延低、带宽大。但对于系统设计来说,散热是一个挑战。另外,还需要有一些非常高速的带宽网络满足节点和节点之间的通信需求。

随着网络和网络带宽的不断提升,在整个集群方面,需要有更高的带宽网络来满足GPU和GPU之间通信的需求。同时,由于显存和内存的局限性,未来在显存和内存的扩展方面会有新技术的出现,这样会形成显存和内存的池化技术,来满足业务的需求,从而提升显存和内存的利用率。

随着技术的发展,未来整个系统架构的设计,模块化的融合设计。而对于应用场景来看,需要精准的匹配不同应用,来满足不同应用场景和业务需求。

随着芯片技术的不断发展和整个行业互联技术的发展,从底层的芯片到服务器节点内部,CPU和GPU之间互联技术的带宽比原来越来越高,大约有2~3倍的提升,而时延在不断的降低,节点之间和Rack之间的带宽也越来越高。所以,未来整个通信方面或互联技术方面,需要更高的Ethernet或IB网络支持整个节点和节点之间的通信,或Rack和Rack之间的通信。

随着技术发展,不仅仅有IB网络和以太网,还有其他的网络用于节点或集群之间的通信,可能有另外一种低时延、高利用率的网络出现,来满足像HPC或者AI集群的通讯需求。

产品传送门:https://cloud.baidu.com/solution/ai-heterogeneus-computing-platform.html?=acg-bilibili

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

百度智能云X英伟达直播实录超级AI计算机X-MAN技术 的相关文章

随机推荐

  • BUS creator & selector、Mux&Demux

    2 3 总线BUS creator selector Bus Creator 由几路输入信号合成为一条总线信号 Bus Selector 由总线信号中选取需要的一路或几路信号输出 Mux 信号合成 Demux 信号分解 区别 Bus的可选择
  • vue web在线聊天功能实现

    上一篇介绍了vue怎么实现无限滚动窗体 这一篇就具体怎么使用vue实现web在线聊天功能展开深入讨论 对尚且不清楚怎么实现无限滚动窗体的 可前往这里查看 vue和iview实现无限滚动的正确解法 先看看最终实现的效果 实现过程 无限滚动窗体
  • 【ChatGPT进阶】如何使用ChatGPT做知乎好物?

    如果你想通过知乎赚钱 知乎好物是一个不错的选择 门槛很低 而且是一个可以长期 躺赚 的项目 如果你会ChatGPT的话 可以去卷同行 知乎好物是什么 知乎好物是一种在知乎平台上创作内容或回答问题时 使用 好物推荐 功能在内容中插入商品卡片
  • AI绘画StableDiffusion美女实操教程:斗破苍穹-小医仙-天毒女(附高清图下载)

    小医仙 是天蚕土豆所著玄幻小说 斗破苍穹 1 及其衍生作品中的角色 身负厄难毒体 食毒修炼 万毒不侵 通体毒气 这种会无意识地杀死别人的体质让天性善良的小医仙成为人憎鬼厌的天毒女 在萧炎多次帮助下得以控制 出图效果展示 资源整合 今天我们就
  • springboot集成RabbitMQ-超级详细步骤

    本文对应的代码地址 https github com zhangshilin9527 rabbitmq study 前置工作 1 安装rabbitmq 2 登录 地址 http localhost 15672 账号密码 guest gues
  • mybatis学习(31):修改部分字段(有外键,先查询,再修改)

    目录结构 com geyao mybatis mapper BlogMapper类 package com geyao mybatis mapper import java util List import java util Map im
  • vue利用路由控制实现登录功能

    未使用服务器接口 登录信息保存在cookie中 可以实现登录功能 vue交流群203849104 vue使用cookie首先需要安装cookie npm install js cookie 然后在router下面的index js文件中引入
  • 线程池ThreadPoolExecutor源码解析

    参考视频 首先回顾一下创建线程等的三种方式 第一个是直接继承Thread类 重写run方法 这个其实内部也是继承了Runnable接口重写run方法 比如 public class MyThread extends Thread Overr
  • oracle查看数据文件大小,路径及修改大小

    查看数据文件占用大小使用大小 select b file id 文件ID号 b tablespace name 表空间名 b bytes 1024 1024 M 字节数 b bytes sum nvl a bytes 0 1024 1024
  • json11库的使用

    JSON JavaScript Object Notation 是一种轻量级的文本数据交换格式 易于让人阅读 同时也易于机器解析和生成 尽管JSON是Javascript的一个子集 但JSON是独立于语言的文本格式 并且采用了类似于C语言家
  • echarts图表的label太长解决办法

    如图 这个echarts图标的y轴label文字因为太长显示不全 这时我们可以选择使用formatter换行显示 具体代码如下 yAxis type category data 火灾 洪涝 急救 消防 公安 axisLabel format
  • Angular 下的 function

    angular lowercas 将指定的字符串转换为小写的 Usage 使用方法 angular lowercase string Arguments Param Type Details string string 字符串转换成小写 R
  • c语言二叉树链式存储,二叉树链式存储基本操作(C语言)

    1 二叉链的定义 LinkBinTree h文件 二叉树结点结构 typedef struct binnode int data struct binnode lchild struct binnode rchild BinNode 二叉树
  • Host is not allowed to connect to this MySQL server解决方法

    这个错误 其实就是我们安装的MySQL不允许远程登录 解决方法如下 1 在装有MySQL的机器上登录MySQL mysql u root p密码 执行use mysql select host from user where user ro
  • mongodb的MapReduce幂等性

    习惯用MapReduce来做mongodb的聚合 这一次遇到一点小问题 原数据如下 使用一个简单的MapReduce来验证一下数据 map function emit clientKey this clientKey dtime this
  • IDEA中SpringBoot启动错误无法加载主类

    1 项目里面 idea文件 删除 重启idea mvn claean install
  • MiniGUI 自定义控件教程7

    接着上次的教程继续 这次给大家介绍的是界面美观的进度条控件 它功能上和MiniGUI原有的进度条控件 CTRL PROGRESSBAR 是一样的 其实进度条也就是那些功能 哪还能整出别点什么花样哦 一 功能确定 1 要具有MiniGUI原有
  • ORACLE等待事件类型【Classes of Wait Events】

    每一个等待事件都属于某一类 下面给出了每一类等待事件的描述 Every wait event belongs to a class of wait event The following list describes each of the
  • 深入理解字节对齐

    C语言 字节对齐 基础知识了解 一 操作系统位数 CPU位数 指令集 1 操作系统 32 bit x86 和64 bit x64 1 位数 2 64 bit 2 处理器CPU位数 3 CPU指令集 4 寄存器 5 关系 6 计算机字长 机器
  • 百度智能云X英伟达直播实录超级AI计算机X-MAN技术

    GPU进入数据中心约有8 10年 这些年内 GPU显存的容量 GPU P2P带宽 GPU性能都在不断提升 据不完全统计 每年GPU显存大约有一倍的变化 P2P带宽有1 5倍到2倍的变化 而且性能变化更多 由于性能的变化 会引起GPU功耗的变