英伟达发布的系统级芯片orin

2023-05-16

本文为英伟达全面分析的第七篇文章,关注英伟达在今年会大规模交付的Orin系统级芯片。“Orin”是亚特兰蒂斯神话第一任统治者,海王Altan的儿子。Orin一经发布,便成为众多车企争抢装车的对象。

本文重点探讨Orin的硬件和软件架构,包括新一代的GPU、CPU、深度学习加速器,以及基于Orin的软件栈。

1. Orin概览

英伟达2019年推出了DRIVE AGX Orin平台,最高算力(INT8)达到2000TOPS,是一个既覆盖从L2到L5自动驾驶全场景,也包含可视化、数字仪表、车载信息娱乐及交互的高性能AI平台,且在硬软件上与上一代Xavier完全兼容,下图为基于单Orin和双Orin从L2到L5自动驾驶的系统方案。

DRIVE AGX Orin平台中,内置了Orin SoC芯片,下图为基于Jetson AGX Orin机器人计算平台,供参考。

2. Orin的系统架构

Orin SoC采用7纳米工艺,由Ampere架构的GPU,ARM Hercules CPU,第二代深度学习加速器DLA、第二代视觉加速器PVA、视频编解码器、宽动态范围的ISP组成,同时引入了车规级的安全岛Safety Island设计,下图为Orin SoC的系统架构。

Orin支持204GB/s的内存带宽和最高64GB的DRAM,高速I/O接口与上一代Xavier SoC的接口兼容,可实现275TOPS的INT8算力,是Xavier的7倍,功耗55W。

3. Orin的硬件架构

3.1 Ampere GPU

Orin采用了新一代的Ampere架构GPU,由2个GPC(Graphics Processing Clusters,图形处理簇)组成。

每个GPC又包含4个TPC(Texture Processing Clusters, 纹理处理簇),每个TPC由2个SM(Streaming Multiprocesor,流处理器)组成,下图为Orin的GPU架构。

每个SM有192KB的L1缓存和4MB的L2缓存,包含128个CUDA Core和4个Tensor Core。

因此Orin总计2048个CUDA Core和64个Tensor Core,INT8稀疏算力为170 TOPS(Tensor Core提供),INT8稠密算力为54TOPS,FP32算力为5.3TFLOP(由Cuda Core提供)。

与上一代Volta架构的GPU相比,Tensor Core引入了对稀疏性的支持, 稀疏性Sparsity是一种细粒度的计算结构,可以使吞吐量翻倍并减少内存使用量。

3.2 第三代张量核稀疏化技术

Ampere架构中第三代Tensor Core是亮点,首次引入了细粒度结构化稀疏性技术(Fine-grained structured sparsity ,稀疏性),也是支撑英伟达对外宣传“AI算力标杆”的关键控制点。

稀疏化技术主要分为两个部分:

一是对权重网络先进行密集训练(Dense trained weights),再将网络权重修剪(pruning)为2:4的稀疏矩阵,稀疏矩阵中每个4个元素中有2个非零值,最后再对非零权重进行微调(fine-tune),通过权重网络压缩,使得数据占用空间和带宽减少为原来的一半;

二是在Tensor Core中加入选择电路,称为稀疏的tensor core),根据权重的索引过滤掉0的位置,让weights不是0的部分和输入的Tensor对应的部分做内积,使矩阵乘法所需计算量大大减少,即通过跳零(skipping the zeros)将数学计算的吞吐量加倍。

3.3 第二代DLA

Orin上推出了第二代深度学习加速器DLA,相比于第一代,主要有两个变化:

第一是增加了本地缓冲,以提高效率并减少DRAM带宽;第二是引入了结构化稀疏功能(structured sparsity),增加了深度卷积处理器(depth wise convolution processor)和硬件调度器(hardware scheduler),下图为第二代DLA架构。

总体使得DLA的INT8稀疏算力为105TOPS,INT8稠密算力为11.4TOPS,而Xavier中的第一代DLA为5TOPS。

TensorRT可以在DLA上INT8或FP16运行各种网络,并支持卷积、反卷积、全连接、激活、池化、batch归一化(batch normalization)等各种层。

3.4 Arm A78 CPU

Orin系统架构中,CPU从之前自研的Carmel架构回到了到5纳米工艺的ARM Cortex-A78上,下图为CPU架构。

Orin多达12个CPU内核,每个内核包含了64KB的L1指令缓存和64KB的L1数据缓存,以及256KB的L2缓存。

每4个CPU内核组成一个CPU簇,共同使用一个2MB的L3缓存,支持的最大CPU频率达到了2.2GHz。

相比于上一代Xavier的8核Carmel CPU,Orin的12核A78 CPU性能提升1.9倍。

3.5 内存和通讯

Orin最高支持64GB的256位LPDDR5和64GB的eMMC。

DRAM支持3200MHz的最大时钟速度,每个引脚6400Gbps,支持204.8GB/s的内存带宽,是Xavier内存带宽 memory bandwidth 的1.4倍、存储storage的2倍。

下图显示了Orin各组件中,通过内存控制器结构(Fabric)和DRAM如何通讯和数据交互。

3.6 视频编解码器

Orin包含一个多标准视频编码器 (ENC)、一个多标准视频解码器 (DEC) 和JPEG处理块 (JPEG)。

ENC和DEC支持完整硬件加速的编解码标准,包括H.265、H.264 、AV1等;JPEG用于JPEG静止图像的解压缩计算、图像缩放、解码(YUV420、YUV422H/V、YUV444、YUV400)和色彩空间转换(RGB到YUV)等功能。

3.7 第二代视觉加速器PVA和VIC

Orin中对PVA进行了升级,包括双7路VLIW(超长指令字)矢量处理单元、双DMA和Cortex-R5,支持计算机视觉中过滤、变形、图像金字塔、特征检测和FFT等功能。

Orin还包含一个Gen 4.2视频成像合成器 (Video Imaging Compositor,VIC) 2D 引擎,支持镜头畸变校正和增强、时间降噪、视频清晰度增强、像素处理(色彩空间转换、缩放、混合和合成)等图像处理功能。

为了调用Orin SoC上的多个硬件组件(PVA、VIC、CPU、GPU、 ENC等),英伟达开发了视觉编程接口( Vision Programming Interface,VPI)。作为一个软件库,VPI附带了多种图像处理算法(如框过滤、卷积、图像重缩放和重映射)和计算机视觉算法(如哈里斯角检测、KLT 特征跟踪器、光流、背景减法等)。

3.8 I/O接口

Orin包含大量的高速 I/O,包括了22通道PCIe Gen4、以太网接口(千兆、10千兆)、显示端口、16通道MIPI CSI-2、USB3.2等。

Orin中带有电源管理集成电路 (Power Management Integrated Circuit,PMIC)、稳压器和电源树,支持15W、30W 、50W、60W功率模式。

4. Orin的软件栈

Orin的软件栈是基于软件开发工具包SDK(Software Development Kit)来提供支撑的。

主要是板级支持包 (BSP),包括了引导程序Bootloader、Linux内核、驱动程序Driver、工具链Tool chain和基于Ubuntu的参考文件系统,BSP也支持各种安全功能(安全启动、可信执行环境、磁盘和内存加密等)。

在BSP之上,有多个用于加速应用程序的用户级库,包括深度学习加速库(CUDA、CuDNN、Tensor RT),加速计算库(cuBLAS、cuFTT),计算机视觉和图像处理库(VPI),多媒体和相机库(libArgus 和 v4l2)。

TensorRT是用于深度学习推理的运行时库( Runtime library)和优化器( Optimizer ),可提供更低的延迟(Latency)和更高的吞吐量( Throughput ), 即通过模型量化、融合内核节点( Fusing nodes in a kernel)和选择最佳数据层和算法(Best data layers and algorithms )来优化GPU内存和带宽(Memory and bandwidth)的使用。

cuDNN( CUDA Deep Neural Network Library,深度神经网络库),是英伟达专门为深度神经网络所开发出来的GPU加速库,针对卷积、池化等常见操作做了非常多的底层优化,比一般的GPU程序要快很多,大多数主流深度学习框架都支持 cuDNN。

此外,Orin软件栈上也支持特殊场景的SDK,包括用于智能视频分析应用程序的DeepStream、用于机器人应用程序的Isaac和用于自然语言处理应用程序的Riva,以支撑更多生态应用发展。

下图是基于Jetson AGX Orin机器人计算平台供参考。

对于边缘部署场景,推出了预训练模型 (PTM) ,已经采用了数百万张图像进行了预训练,模型库中包括了人车检测、自然语言处理、姿势估计、车牌检测、人脸检测等模型,可以实现开箱即用;

此外配合TAO工具包( TAO toolkit ),使客户能够使用自己的数据集进行训练、微调和优化这些预训练模型,形成快速部署。

针对已经部署在边缘端的模型,借助云,通过容器和容器编排技术实现定期更新,包括具有Docker集成的 NVIDIA Container Runtime,以简化大规模 AI 模型的部署。

5. 地表最强,车企疯抢

目前Orin的订单火爆,已经有越来越多的车企和初创公司宣布搭载Orin平台。

上汽的R和智己,理想L9、蔚来ET7、小鹏新一代P7,威马M7、比亚迪、沃尔沃XC90,还有自动驾驶卡车公司智加科技,Robotaxi等众多明星企业Cruise、Zoox、滴滴、小马智行、AutoX、软件公司Momonta等等,都搭载Orin平台进行开发。

很多车企在拿到Orin样板都迫不及待地官宣,试图对外展示是Orin的首装,Orin的交付,可以看作是今年智能汽车里程碑事件。

6. 汽车人参考小结

燃油车向电动车和智能车过渡,高续航成为标配,拼续航为代表的电动化基本进入了下半场;到智能汽车,业界很自然共识是从“马力”到“算力”,因此从拼续航到了拼马力时代。

英伟达Orin卖点就是算力,踩得非常准,就是要用自身优势掀起算力的军备竞赛。

车企智能化还在竞争中,特别是在高端车型上,急需要有一个卖点和标签,而市面上可选的芯片只有英伟达一家,因此就出现了车企疯抢的状态。

汽车人参考认为,一方面英伟达算力是稀疏的,算力利用率、性价比需要更详细分析,车企对其算力的认知会越来越清晰;另外一方面,在主流车型上,芯片的算力也会逐步向电池续航一样开始收敛,最终会达到一个平衡,回归比性价比的真实状态。

百度安全验证 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

英伟达发布的系统级芯片orin 的相关文章

  • POSIX介绍

    POSIX表示可移植操作系统接口 xff08 Portable Operating System Interface of UNIX xff0c 缩写为 POSIX xff09 xff0c POSIX标准定义了操作系统应该为应用程序提供的接
  • Linux crond 命令使用实例

    每一分钟调用一次 ls l etc gt tmp to txt crontab e 进行编辑 1 ls l etc gt tmp to txt 1 代表每一分钟执行一次 1 第二个 代表一天中的某个小时 案例2 xff1a 写一个脚本 vi
  • DoIP诊断技术一点通

    DoIP的全称是Diagnostic Over Internet Protocol xff0c 即基于TCP IP协议的诊断协议 随着以太网技术在车载领域的应用范围逐步扩大 xff0c 越来越多的控制器支持通过以太网进行诊断通信 xff0c
  • 嵌入式必备基础一

    嵌入式必备知识 Oliver H的博客 CSDN博客 一 进程与线程 1 1 进程和线程的概念 1 1 1 什么是进程 线程 xff0c 各自有什么优点 概念 xff1a 进程是对运行时程序的封装 xff0c 是系统进行资源调度和分配的的基
  • 嵌入式基础二——C/C++

    二 C C 43 43 2 1 c和c 43 43 区别 概念相关面试题 2 1 1 new和malloc的区别 属性 xff1a new delete是C 43 43 关键字 xff0c 需要编译器支持 malloc free是库函数 x
  • ​Linux 黑话解释:什么是 POSIX?

    POSIX xff0c 你肯定在各种在线论坛和文章中 xff0c 听到过这个缩写 xff0c 或读到过关于它的信息 程序员和系统开发人员似乎最关心这个问题 它听起来很神秘 xff0c 虽然有很多关于这个主题的好资料 xff0c 但一些讨论区
  • 科研进阶篇——论文完结

    终于完成了人生的第一篇学术论文 xff0c 对这次的科研做个总结 xff0c 画上一个完美的问号 xff0c 让我们快乐的继续进阶 xff0c 投了会议 xff0c 中了的话应该会推荐到CCF C期刊 虽然还没出结果 xff0c 还是为自己
  • AP AUTOSAR 平台设计总体框架全解

    AP AUTOSAR 平台设计总体框架全解 01 简介 1 1内容 本规范描述技术范围和方法 AP的背景 逻辑和物理视图的架构 xff0c 是AUTOSAR自适应平台设计的总体框架 全文32000余字 xff0c 建议收藏阅读 02 技术范
  • 谈谈Bootloader自更新

    目录 01 Supplier Boot SB 43 Customer Boot CB 02 将Boot先放到RAM中运行 xff0c 然后更新Boot的Flash区域 03 两个CB 43 minBoot 04 小结 汽车控制器的BootL
  • E2E通信保护协议学习笔记

    E2E通信保护协议学习笔记 最近在做功能安全方面工作 xff0c 想了解E2E保护的问题 本文试着说明两个点 xff1a 功能安全需要考虑通信失效造成的影响 xff0c 因此E2E通信保护协议被提出 xff0c 以满足功能安全要求 xff1
  • TSN(时间敏感网络)介绍

    1 前言 TSN是时间敏感网络 xff08 Time Sensitive Network xff09 的英文缩写 xff0c 是IEEE 802 1 TSN工作组开发的一系列数据链路层协议规范的统称 xff0c 用于指导和开发低延迟 低抖动
  • 汽车OTA是个什么鬼?

    OTA xff1a Over the Air Technology 这描述的是手机吧 xff01 不过一开始的手机也是不可以直接OTA的 1997年之前所有汽车都是一个独立的机械个体 xff0c 一个方向盘 xff0c 一组踏板 xff0c
  • Hypervisor简介

    从头开始了解和使用Hypervisor xff08 第4部分 xff09 嘶吼 RoarTalk 回归最本质的信息安全 互联网安全新媒体 4hou com 根据 Hypervisor 的不同类型 xff0c 我们将虚拟化分为I 型和 II
  • 使用repo下载google源码,跟编译 ,遇到的错误解决

    最近一直想下载android的源码看看 xff0c 但是按照官方的文档下载 xff0c 遇到了问题 在执行的curl http commondatastorage googleapis com git repo downloads repo

随机推荐

  • S32V234 Linux yocto开发环境搭建

    一 主机环境 主机 xff1a Ubuntu 16 04 5 64bit S32V bsp infomation xff1a Bsp version auto yocto bsp 19 0 Linux Kernel version 4 13
  • NXP S32G2开发

    https blog csdn net bigzhizhi article details 123069235 导言 Linux BSP是一组源代码 xff0c 可用于为受支持的板卡创建U Boot引导加载程序 Linux内核映像 根文件系
  • 简单解决Please install the gcc make perl packages from your distribution问题 and VirtualBox安装增强功能失败

    在vbox安装ubantu增强功能 xff0c 出现下面这种情况 xff1a Please install the gcc make perl packages from your distribution 在这里插入图片描述 把需要的包都
  • 图形学就业方向&&春招部份纪实

    以下分几个模块分别介绍图形学 xff1a 1 图形学未来方向以及需要的技术 2 个人找工作情况 xff0c 具体介绍 图形学未来方向以及需要的技术 最近GAMES论坛搞了一个计算机图形学走进高校企业活动 xff0c 可以简称图形学招聘活动
  • SOME/IP 消息的布局

    1 SOME IP 消息的布局 前面两篇文章 SOME IP概述 分层结构及要实现的需求 SOME IP概述2 SOME IP的主要中间件功能 43 SOME IP报文PDU的封装 讲述了SOME IP的基本概念 需求及架构在以太网的4层模
  • 什么才是软件定义汽车?

    Software Defined Vehicle The Eclipse Foundation 导读 xff1a 移动出行时代 xff0c 汽车逐渐由机械驱动的硬件向软件驱动的电子产品过渡 xff0c 软件定义汽车趋势愈发明显 这一过程中汽
  • 一文看懂四大汽车总线:LIN、CAN、FlexRay、MOST

    前言 随着汽车工业的发展 xff0c 汽车各系统的控制逐步向自动化和智能化转变 xff0c 汽车电气系统变得日益复杂 传统的电气系统大多采用点对点的单一通信方式 xff0c 相互之间少有联系 xff0c 这样必然会形成庞大的布线系统 据统计
  • 浅谈ASIL: 汽车安全性等级

    目录 ASIL 表示汽车安全性等级 ASIL的确定 1 严重度 2 暴露度 3 可控度 ASIL 故障分析手段 ASIL 表示汽车安全性等级 这是 ISO 26262 标准针对道路车辆的功能安全性定义的风险分类系统 ASIL 根据伤害的可能
  • SOA中间件DDS(数据分发服务-Data Distribution Service)

    DDS协议 高可靠性 实时性 DDS Data Distribution Service for Real Time Systems xff0c 是一种面向实时系统的数据分发服务 xff0c 由OMG提供 xff0c 它的权威性可以证明该协
  • MQTT与DDS的比较

    MQTT VS DDS MQTT协议 三种服务质量 QoS xff1a 最多一次 Sender 发送的一条消息 xff0c Receiver 最多能收到一次 xff0c 也就是说 Sender 尽力向 Receiver 发送消息 xff0c
  • R-Car H3系列SOC芯片与R-Car M3 R8A77961JBP0BA区别

    RENESAS推出的 xff1a R Car H3 系列 SOC 芯片 R8A77951JA00BA xff03 YJ1 xff0c R Car M3 系列 SOC 芯片 R8A77960JA60BG xff03 YJ5 在内核上 xff1
  • PTP(IEEE1588),TSN时间同步方法

    本文首先简要介绍主流的时间同步方式GNSS xff0c NTP xff0c PTP 然后通过NTP和PTP对比 xff0c 解释PTP性能更优秀的原因 xff1b 并对算法公式进行了推导 0 Why need time synchroniz
  • AUTOSAR的四种功能安全机制

    虽然AUTOSAR不是一个完整的安全解决方案 xff0c 但它提供了一些安全机制用于支持安全关键系统的开发 本文用于介绍AUTOSAR支持的四种功能安全机制 xff1a 内存分区 xff08 Memory Partitioning xff0
  • libstdc++版本冲突的解决

    类似的问题出现在测试环境部署过程 xff0c 当编译完成该前端解析器后 xff0c 由于其依赖一些库文件 xff0c 包括系统库文件libstdc 43 43 so 6 及 libc so xff0c 这都是系统至关重要的库文件 但是不同系
  • 3D打印——CLIP技术之更快速更高表面质量

    论文 Gradient light video projection based stereolithography for continuous production of solid objects 阅读 论文共分为6个章节 xff1a
  • 汽车上DTC是什么意思?DTC是什么故障

    DTC的全称是 Diagnostic Trouble Code xff0c 意为诊断故障代码 如今 xff0c 汽车很多故障都是通过故障代码去诊断的 xff0c 例如汽车底盘检测 车身及附件检测 汽车污染物与噪声处理部件等相关检测等 目的旨
  • 人生算法——读书笔记

    跨越出生和运气 xff0c 实现富足和自由 用概率思维 做好决策 人生算法九段 广义而言大自然有两个重要的算法 xff0c 一个是进化 xff0c 一个是大脑 现实中我们虽然拼命思考 xff0c 但是极少思考自己的思考 围绕认知的飞轮 xf
  • Linux 上功能强大的网络工具 tcpdump 详解

    tcpdump 是用于捕获传入和传出流量的网络实用程序 这是您需要了解的有关在 Linux 上使用 tcpdump 的所有信息 Linux 配备了大量的网络实用程序可供选择 tcpdump 是一种功能强大的网络工具 xff0c 如果您需要对
  • 简析车载以太网TSN标准

    众所周知 xff0c 通用以太网是以非同步方式工作的 xff0c 网络中任何设备都可以随时发送数据 xff0c 因此在数据的传输时间上既不精准也不确定 xff1b 同时 xff0c 广播数据或视频等大规模数据的传输 xff0c 也会因网络负
  • 英伟达发布的系统级芯片orin

    本文为英伟达全面分析的第七篇文章 xff0c 关注英伟达在今年会大规模交付的Orin系统级芯片 Orin 是亚特兰蒂斯神话第一任统治者 xff0c 海王Altan的儿子 Orin一经发布 xff0c 便成为众多车企争抢装车的对象 本文重点探