转载：NVIDIA GPU结构

2023-11-18

http://blog.itpub.net/23057064/viewspace-629236/

目前市场上的NVIDIA显卡都是基于Tesla架构的，分为G80、G92、GT200三个系列。Tesla体系架构是一块具有可扩展处器数量的处理器阵列。每个GT200 GPU包含240个流处理器（streaming processor,SP），每8个流处理器又组成了一个流多处理器(streaming multiprocessor,SM)，因此共有30个流多处理器。GPU在工作时，工作负载由PCI-E总线从CPU传入GPU显存，按照体系架构的层次自顶向下分发。PCI-E 2.0规范中，每个通道上下行的数据传输速度达到了5.0Gbit/s，这样PCI-E2.0×16插槽能够为上下行数据各提供了5.0*16Gbit/s=10GB/s的带宽，故有效带宽为8GB/s,而PCI-E 3.0规范的上下行数据带宽各为20GB/s。但是由于PCI-E数据封包的影响，实际可用的带宽大约在5-6GB/s（PCI-E 2.0 ×16）。 Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE
在GT200架构中，每3个SM组成一个TPC（Thread Processing Cluster，线程处理器集群），而在G80架构中，是两个SM组成一个TPC，G80里面有8个TPC，因为G80有128(2*8*8)个流处理器，而GT200中TPC增加到了10(3*10*8)个，其中，每个TPC内部还有一个纹理流水线。
大多数时候，称呼streaming processor为流处理器，其实并不太正确，因为如果称streaming processor为流处理器的话，自然是隐式的与CPU相对，但是CPU有独立的一套输入输出机构，而streaming processor并没有，不能在GPU编程中使用printf就是一个例证。将SM与CPU的核相比更加合适。和现在的CPU的核一样，SM也拥有完整前端。
GT200和G80的每个SM包含8个流处理器。流处理器也有其他的名称，如线程处理器，“核”等，而最新的Fermi架构中，给了它一个新的名称:CUDA Core。 SP并不是独立的处理器核，它有独立的寄存器和程序计数器(PC)，但没有取指和调度单元来构成完整的前端（由SM提供）。因此，SP更加类似于当代的多线程CPU中的一条流水线。SM每发射一条指令，8个SP将各执行4遍。因此由32个线程组成的线程束（warp）是Tesla架构的最小执行单位。由于GPU中SP的频率略高于SM中其他单元的两倍，因此每两个SP周期SP才能对片内存储器进行一次访问，所以一个warp中的32个线程又可以分为两个half-warp，这也是为什么取数会成为运算的瓶颈原因。Warp的大小对操作延迟和访存延迟会产生影响，取Warp大小为32是NVIDIA综合权衡的结果。
SM最主要的执行资源是8个32bit ALU和MAD（multiply-add units，乘加器）。它们能够对符合IEEE标准的单精度浮点数（对应float型）和32-bit整数（对应int型，或者unsigned int型）进行运算。每次运算需要4个时钟周期（SP周期，并非核心周期）。因为使用了四级流水线，因此在每个时钟周期，ALU或MAD都能取出一个warp 的32个线程中的8个操作数，在随后的3个时钟周期内进行运算并写回结果。
每个SM中，还有一个共享存储器(Shared memory),共享存储器用于通用并行计算时的共享数据和块内线程通信，但是由于它采用的是片上存储器，其速度极快，因此也被用于优化程序性能。
每个SM 通过使用两个特殊函数(Special Function Unit,SFU)单元进行超越函数和属性插值函数（根据顶点属性来对像素进行插值）计算。SFU用来执行超越函数、插值以及其他特殊运算。SFU执行的指令大多数有16个时钟周期的延迟，而一些由多个指令构成的复杂运算，如平方根或者指数运算则需要32甚至更多的时钟周期。SFU中用于插值的部分拥有若干个32-bit浮点乘法单元，可以用来进行独立于浮点处理单元(Float Processing Unit,FPU)的乘法运算。SFU实际上有两个执行单元，每个执行单元为SM中8条流水线中的4条服务。向SFU发射的乘法指令也只需要4个时钟周期。
在GT200中，每个SM还有一个双精度单元，用于双精度计算，但是其计算能力不到单精度的1/8。
控制流指令（CMP,比较指令）是由分支单元执行的。GPU没有分支预测机制，因此在分支得到机会执行之前，它将被挂起，直到所有的分支路径都执行完成，这会极大的降低性能。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

NVIDIA

转载：NVIDIA GPU结构的相关文章

Ubuntu 11.10/12.04 上的 CUDA“无兼容设备”错误

一段时间以来我一直在尝试在我的笔记本电脑上设置 Ubuntu 环境来进行 CUDA 编程我目前双启动 Windows 8 和 Ubuntu 12 04 并想在 Ubuntu 上安装 CUDA 5 该笔记本电脑配有 GeForce GT
是否可以在设备函数中调用cufft库调用？

我在主机代码中使用 cuFFT 库调用它们工作正常但我想从内核调用 cuFFT 库早期版本的 CUDA 没有这种支持但是有了动态并行性这可能吗如果有任何关于如何实现这一目标的示例那就太好了尽管在 Kepler cc 3 5
在新线程中调用支持 CUDA 的库

我编写了一些代码并将其放入它自己的库中该库使用 CUDA 在 GPU 上进行一些处理我正在使用 Qt 构建 GUI 前端作为加载 GUI 的一部分我调用 CUresult res CUdevice dev CUcontext ctx
CUDA：如何在设备上填充动态大小的向量并将其内容返回到另一个设备函数？

我想知道哪种技术可以填充设备上的动态大小数组 int row 在下面的代码中然后返回其内容以供另一个设备函数使用为了将问题置于上下文中下面的代码尝试使用在 GPU 上运行的高斯勒让德求积来跨越勒让德多项式基组中的任意函数 incl
用于类型比较的 Boost 静态断言

以下问题给我编译器错误我不知道如何正确编写它 struct FalseType enum value false struct TrueType enum value true template
Cuda Bayer/CFA 去马赛克示例

我编写了一个 CUDA4 Bayer 去马赛克例程但它比在 16 核 GTS250 上运行的单线程 CPU 代码慢块大小是 16 16 图像暗淡是 16 的倍数但更改此值并不会改善它我做了什么明显愚蠢的事情吗 calling rou
同时使用 2 个 GPU 调用 cudaMalloc 时性能较差

我有一个应用程序可以在用户系统上的 GPU 之间分配处理负载基本上每个 GPU 都有一个 CPU 线程来启动一个GPU处理间隔当由主应用程序线程定期触发时考虑以下图像使用 NVIDIA 的 CUDA 分析器工具生成作为示例GPU
cuda 共享内存 - 结果不一致

我正在尝试并行缩减以对 CUDA 中的数组求和目前我传递一个数组来存储每个块中元素的总和这是我的代码 include
传递给 CUDA 的结构中的指针

我已经搞砸了一段时间了但似乎无法正确处理我正在尝试将包含数组的对象复制到 CUDA 设备内存中然后再复制回来但当我遇到它时我会跨过那座桥 struct MyData float data int dataLen void copyT
CUDA Thrust 和 sort_by_key

我正在寻找 CUDA 上的排序算法它可以对元素数组 A 双精度进行排序并返回该数组 A 的键 B 数组我知道sort by keyThrust 库中的函数但我希望元素数组 A 保持不变我能做些什么我的代码是 void sort
仅使用 CUDA 进行奇异值计算

我正在尝试使用新的cusolverDnSgesvdCUDA 7 0 用于计算奇异值的例程完整代码如下 include cuda runtime h include device launch parameters h include
如何确定完整的 CUDA 版本 + 颠覆版本？

Linux 上的 CUDA 发行版曾经有一个名为version txt例如 CUDA Version 10 2 89 这非常有用但是从 CUDA 11 1 开始该文件不再存在我如何在 Linux 上通过命令行确定并检查 path t
CUDA Visual Studio 2010 Express 构建错误

我正在尝试在 64 位 Windows 7 上使用 Visual Studio 2010 Express 在 Windows 上开始 CUDA 编程我花了一段时间来设置环境然后我刚刚编写了我的第一个程序 helloWorld cu 目前
Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
__syncthreads() 死锁

如果只有部分线程执行 syncthreads 会导致死锁吗我有一个这样的内核 global void Kernel int N int a if threadIdx x
加速Cuda程序

要更改哪一部分来加速此代码代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
TensorRT 多线程

我正在尝试使用 python API 来使用 TensorRt 我试图在多个线程中使用它其中 Cuda 上下文与所有线程一起使用在单个线程中一切正常我使用 docker 和 tensorrt 20 06 py3 图像 onnx 模型和
从 CUDA 设备写入输出文件

我是 CUDA 编程的新手正在将 C 代码重写为并行 CUDA 新代码有没有一种方法可以直接从设备写入输出数据文件而无需将数组从设备复制到主机我假设如果cuPrintf存在一定有地方可以写一个cuFprintf 抱歉如果答案已经
CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我

随机推荐

用Requests和正则表达式爬取猫眼电影(TOP100+最受期待榜）

目标站点分析目标站点猫眼榜单TOP100 如下图猫眼电影的翻页offset明显在URL中所以只要搞定第一页的内容加上一个循环加上offset就可以爬取前100 流程框架 1 抓取单页内容利用requests请求目标站点得到单个网
spring——IOC控制反转

IOC控制反转思想一 IOC简介二 spring创建对象的三种方式 1 无参构造 2 静态工厂 3 实例工厂三 Bean标签 1 bean标签的scope属性 singleton prototype多例 request session
import报错

错误 import im6 q16 unable to read X window image Resource temporarily unavailable error xwindow c XImportImage 4977 impor
MyDLNote - Detection : 2019 CVPR 使用解耦表示（Disentangled Representation）学习的罕见事件检测

CVPR 2019 Rare Event Detection using Disentangled Representation Learning Ryuhei Hamaguchi Ken Sakurada and Ryosuke Naka
Pandas函数set_option()学习笔记

pd set option 函数用法 import pandas as ps pd set option expand frame repr True True就是可以换行显示设置成False的时候不允许换行 pd set option
Shiro总结和常见面试题

Shiro总结和常见面试题一什么是shiro Shiro是一个强大易用的java安全框架提供了认证授权加密会话管理与web集成缓存等功能对于任何一个应用程序都可以提供全面的安全服务相比其他安全框架 shiro要简单的多
电力系统有哪些大扰动?

电力系统有哪些大扰动答电力系统大扰动主要指各种短路故障各种突然断线故障断路器无故障跳闸非同期并网包括发电机非同期并列大型发电机失磁大容量负荷突然启停等
游戏笔记本电脑可以进行 3D 建模和渲染吗？有哪些优势与缺点？

3D 建模和渲染是创建令人惊叹的数字艺术动画和游戏体验的最流行和最广泛使用的工具之一随着技术的进步对运行这些模型的强大计算机的需求呈指数级增长对于那些寻求强大机器来处理 3D 建模任务的人来说游戏笔记本电脑已成为一个可行的选择游
R语言系列教程-----一起来学shiny吧（1）

什么是shiny Shiny是一个R包可让您轻松地直接从 R 构建交互式 Web 应用程序应用程序本系列是个长教程带你由浅入深学习shiny 我们先使用系统自带的一个例子来介绍一下shiny 我们先导入shiny包 library
华为OD机试 - 矩形相交的面积（Java)

题目描述给出3组点坐标 x y w h 1000
MD5 JavaCript调用法

JS代码 code
2、Java入门教程【IDEA】

1 下载 IDEA社区版下载地址 IDEA管理JAVA程序的结构 project 项目工程 module 模块 package 包 class 类 2 创建工程创建 project 点击 create 后项目结构如下创建 pack
计蒜客T1113——整理药名

先看题干这道题并不难如果你对编程语言的基础有很好的掌握很容易理清整个逻辑实际上不涉及到算法的题目都是简单题笔者带领大家理一下这道题的考察点 1 输入多个不定长字符串 2 将字符串的首字母一律变为大写分本来就是大写和本来是小写两
【GAN】基础原理讲解及代码实践

首先什么是的模型结构设计模型的关键 GAN的算法原理这里输入噪声的随机性就可以带来生成图像的多样性 GAN公式讲解 D 表示判别器对真实图片的判别取对数函数后我们希望其值趋于也就是D 趋于也就是放大损失
【踩坑专栏】idea中的target缺失

target文件夹缺失但是在文件中能找到这个是idea禁止了我想起来之前我是因为在提交代码时有一些文件显示在commit里所以禁止了一些文件应该是那时候把target误禁了解决办法 1 Ctrl Alt S 找到target 删
OpenCV之摄像头捕捉图像

代码数据类型运行效果代码之前我找过directshow CameraDS VedioCaptureFromCam之类的东西发现都不可以用 directshow是因为版本太老了会出现 http www opencv org cn
Ajax简介和实例

目录什么是 AJAX AJAX实例 ajax get无参 ajax get有参对象和查询字符串的互转 ajax post ajax post 表单 AJAX 是一种在无需重新加载整个网页的情况下能够更新部分网页的技术什么是 AJAX
基于OpenHarmony开发的健康生活应用（ArkTS）

健康生活应用 ArkTS 介绍本篇Codelab介绍了如何实现一个简单的健康生活应用主要功能包括用户可以创建最多6个健康生活任务早起喝水吃苹果每日微笑刷牙早睡并设置任务目标是否开启提醒提醒时间每周任务频率用户可以
ChatGPT报错：Sorry, you have been blocked解决方法

今天打开ChatGPT 发现再一次报错了又一次出问题了无语原因分析 1 内容过滤某些平台或网站可能使用内容过滤系统该系统可能将AlI语言模型视为潜在的风险从而对其进行封锁或限制这是为了防止不当内容的传播或滥用 2 隐私和安全考
转载：NVIDIA GPU结构

http blog itpub net 23057064 viewspace 629236 目前市场上的NVIDIA显卡都是基于Tesla架构的分为G80 G92 GT200三个系列 Tesla体系架构是一块具有可扩展处器数量的处理器阵列

转载：NVIDIA GPU结构

转载：NVIDIA GPU结构 的相关文章

随机推荐

热门标签

转载：NVIDIA GPU结构的相关文章