CUDA 中什么样的变量会消耗寄存器？

2024-03-06

__global__ void add( int *c, const int* a, const int* b )
{
    int x = blockIdx.x;
    int y = blockIdx.y;
    int offset = x + y * gridDim.x;
    c[offset] = a[offset] + b[offset];
}

在上面的例子中，我猜x, y, offset保存在寄存器中，同时

nvcc-Xptxas-v gives 4 registers, 24+16 bytes smem
profiler显示4个寄存器

和头ptx file:

.reg .u16 %rh<4>;
.reg .u32 %r<9>;    
.reg .u64 %rd<10>;  
.loc    15  21  0   

$LDWbegin__Z3addPiPKiS1_:   
.loc    15  26  0

谁能解释一下寄存器的用法吗？在 Fermi 中，每个线程的最大寄存器数量为 63。在我的程序中，我想测试内核消耗太多寄存器的情况（因此变量可能必须自动存储在本地内存中，从而导致性能下降）。那么此时我可以将一个内核分成两个，以便每个线程都有足够的寄存器。假设SM资源足以满足并发内核的需要。

我不确定我是否正确。

PTX中的寄存器分配与内核最终的寄存器消耗完全无关。 PTX只是最终机器代码的中间表示并使用静态单一赋值形式 http://en.wikipedia.org/wiki/Static_single_assignment_form，这意味着 PTX 中的每个寄存器仅使用一次。一块有数百个寄存器的PTX可以编译成只有几个寄存器的内核。

寄存器分配是通过ptxas作为完全独立的编译过程（由驱动程序静态或实时编译，或两者兼而有之），它可以在输入 PTX 上执行大量代码重新排序和优化，以提高吞吐量并节省寄存器，这意味着几乎没有或原始C中的变量或PTX中的寄存器与汇编内核的最终寄存器计数之间没有关系。

nvcc确实提供了一些影响汇编器的寄存器分配行为的方法。你有__launch_bounds__向编译器提供启发式提示，这可以影响寄存器分配，并且编译器/汇编器采用-maxrregcount参数（可能会导致寄存器溢出到本地内存，从而降低性能）。易失性关键字用于对基于 nvopen64 的编译器的旧版本产生影响，并可能影响本地内存溢出行为。但您无法在原始 C 代码或 PTX 汇编语言代码中任意控制或引导寄存器分配。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

CUDA 中什么样的变量会消耗寄存器？的相关文章

Cuda 计算模式和“CUBLAS_STATUS_ALLOC_FAILED”

我的集群中有一台主机有 8 个Nvidia K80我想将其设置为每个设备最多可以运行 1 个进程以前如果我在主机上运行多个作业并且每个作业都使用大量内存它们都会尝试访问同一设备并失败我将所有设备设置为计算模式 3 E Proces
如何获取要执行的 PTX 文件

我知道如何生成 ptx文件来自 cu以及如何生成 cubin文件来自 ptx 但我不知道如何获得最终的可执行文件更具体地说我有一个sample cu文件编译为sample ptx 然后我使用 nvcc 来编译sample ptx to
CUDA全局内存事务的成本

根据 CUDA 5 0 编程指南如果我同时使用 L1 和 L2 缓存在 Fermi 或 Kepler 上则所有全局内存操作都使用 128 字节内存事务完成但是如果我仅使用 L2 则使用 32 字节内存事务第 F 4 2 章让我
无法从静态初始化代码启动 CUDA 内核

我有一个在其构造函数中调用内核的类如下所示标量场 h include
构建 Erlang 服务器场（用于业余爱好项目）最便宜的方法是什么？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案假设我们有一个本质上并行的问题需要用 Erlang 软件来解决我们有很多并行进程每个进程都执行顺序代码不是数字运算并且我们向它们投入的 C
CUDA错误：在python中使用并行时初始化错误

我的代码使用 CUDA 但运行速度仍然很慢因此我将其更改为使用 python 中的多处理 pool map 并行运行但我有CUDA ERROR initialization error 这是函数 def step M self ite
为什么GK110有192个核心和4个扭曲？

我想感受一下开普勒的架构但这对我来说没有意义如果一个 warp 有 32 个线程其中 4 个被调度执行则意味着 128 个核心正在使用 64 个核心处于空闲状态白皮书中提到了独立指令那么64核是为这些指令保留的吗如果是这样
cudaMemcpyToSymbol 与 cudaMemcpy [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我试图找出
使用 CUDA __device__ 函数时出现链接器错误 2005 和 1169（多重定义的符号）（默认情况下应内联）

这个问题与以下问题有很大关系 A 如何将CUDA代码分成多个文件 https stackoverflow com questions 2090974 how to separate cuda code into multiple files
cudaMallocManaged() 返回“不支持的操作”

在 CUDA 6 0 中尝试托管内存给了我operation not supported打电话时cudaMallocManaged include cuda runtime h include
CUDA素数生成

当数据大小增加超过 260k 时我的 CUDA 程序停止工作它不打印任何内容有人能告诉我为什么会发生这种情况吗这是我的第一个 CUDA 程序如果我想要更大的素数如何在 CUDA 上使用大于 long long int 的数据类型
Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
CUDA 常量内存是否应该被均匀地访问？

我的 CUDA 应用程序的恒定内存小于 8KB 既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化如果是如何确保所有线程同时访问同一地址既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化是的这缓存本身每
在 __device/global__ CUDA 内核中动态分配内存

根据CUDA 编程指南 http developer download nvidia com compute cuda 3 2 prod toolkit docs CUDA C Programming Guide pdf 第 122 页可
Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
从 CUDA 设备写入输出文件

我是 CUDA 编程的新手正在将 C 代码重写为并行 CUDA 新代码有没有一种方法可以直接从设备写入输出数据文件而无需将数组从设备复制到主机我假设如果cuPrintf存在一定有地方可以写一个cuFprintf 抱歉如果答案已经
CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int
如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题总而言之我有两个数组向量我需要对一个数组向量进行排序并将更改传播到另一个数组向量中这样如果我对 arrayOne 进行排序则对于排序中的每个交换 arrayTwo 也会发生同样的情况现在我知
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
内联 PTX 汇编代码强大吗？

我看到一些代码示例人们在 C 代码中使用内联 PTX 汇编代码 CUDA工具包中的文档提到PTX很强大为什么会这样呢如果我们在 C 代码中使用这样的代码我们会得到什么好处内联 PTX 使您可以访问未通过 CUDA 内在函数公开的指

随机推荐

在 HTML 画布上为 T 恤填充颜色并相应地更改文本颜色

我在画布上绘制了一件 T 恤当前正在尝试当用户在上面的菜单上选择一种颜色时填充它此外我希望 T 恤上的文字相应地更改例如如果选择黑色则 T 恤文字颜色应为白色这可能吗到目前为止的代码片段 T shirt color br
如何使用 python Imaging 创建新的彩色图像？

我想创建一个新图像背景颜色这个工作 img Image new RGB width height red 但我想定制颜色当我将红色更改为 228 150 150 时它不起作用你有想法这样做吗这对我有用请注意颜色元组不在引
如何从 numpy.ndarray 中随机选择一些非零元素？

我已经实现了一个矩阵分解模型比如 R U V 现在我要训练和测试这个模型为此给定一个稀疏矩阵 R 缺失值为零我想首先在训练中隐藏一些非零元素并在稍后使用这些非零元素作为测试集如何从 numpy ndarray 中随机选择一些非零
标头已发送...哪里？ [复制]

这个问题在这里已经有答案了有人知道如何在此脚本中发送标头吗我正在使用此脚本来验证表单因此它导致发送标头因此当我在实现此脚本后尝试引导用户时它会导致正常的警告无法修改标头信息标头已发送消息这是脚本
使用 jQuery 作为依赖项而不用 RequireJS 加载 jQuery？

考虑以下页面当未加载 RequireJS 时如何使用 jQuery 作为 RequireJS 模块的依赖项我知道jQuery 暴露了自己 https github com jquery jquery blob 861a45b8fffc
如何在CSS中对齐两列文本

我在排列一些文本时遇到一些麻烦我需要两列一列包含数字一列包含文本如下所示 1 条目一2 条目二3 条目三4 条目五5 条目六左栏是 Georgia 右栏是 Arial 字体大小略有不同我可以为每一行设置一个容器 div 并将数字
Angular 2 - 如何使用配置文件

在 ZF2 中工作时我们使用的配置文件可能因开发人员生产环境和登台环境而异它非常方便因此我想在 Angular 2 中复制它它在 ZF2 中的工作原理我们有一个配置文件夹其中的配置名为 settings local php 和
Django 视图内的 BeautifulSoup 导致 WSGI 超时

由于一个奇怪的原因当我实例化一个美丽汤Django 视图中的对象 WSGI 超时任何帮助都是值得赞赏的因为我把头撞在墙上几个小时却找不到这个问题的根源风景 def index request soup BeautifulSoup
注释默认“null”值

是否可以指定默认为 null 的注释我想要实现的是类似可选注释属性的东西例如 public interface Foo Config value public interface Config boolean ignoreUnknown
如何启用事件以便调用 Workbook_BeforeSave

My Workbook BeforeSave保存前未调用事件这是我的代码 Option Explicit Private Sub Workbook BeforeSave ByVal SaveAsUI As Boolean Cancel A
Django 在内联表单管理中获取实例

有一个内联表单类 class ItemColorSelectForm forms ModelForm def init self args kwargs super ItemColorSelectForm self init args kw
如何通过ajax（无jquery）发送multipart/form-data表单内容？

我试图在不重新加载页面的情况下发送一些表单并且我试图了解底层细节因此不使用任何 JavaScript 库 var http createRequestObject function createRequestObject var obj
XSD 1.1 替代测试 text() 的内容

这是我想做的
与 RabbitMQ 相比，Amazon SQS 的性能较慢

我想在我的 Web 应用程序中集成消息队列中间层我测试了 Rabbitmq 和 Amazon SQS 但发现 Amazon SQS 速度很慢我在 Amazon SQS 中每秒收到 80 个请求而在 Rabbitmq 中每秒收到 200
从 ILogger 访问当前 HttpContext

在 ASP NET Core 1 0 中我有一个自定义实现ILoggerProvider and ILogger接口我希望能够从以下位置访问 HttpContextLog method 看来我需要注入一个IHttpContextAcce
没有事前发生的安全发布？除了决赛之外还可以吗？

根据 JCP 16 2 2 安全发布这个happens before保证实际上是一个比安全出版更有力的可见性和订购承诺当 X 从 A 安全地发布到 B 时安全发布保证了 X 状态的可见性但不保证 A 可能接触过的其他变量的状态的可见
用于变量名称的 R 循环来运行线性回归模型

首先我对此很陌生所以我的方法想法可能是错误的我已使用 R 和 R studio 将 xlsx 数据集导入到数据框中我希望能够循环遍历列名以获取所有具有精确的变量10 以便运行简单的线性回归所以这是我的代码 indx lt gr
PHP - MD5、SHA、哈希安全

我是一个用 PHP 构建的新网站的开发人员我想知道什么是最好的用于散列的东西我已经研究过 md5 和 sha1 但还有更安全的吗如果这是一个菜鸟问题我很抱歉但我是 PHP 安全新手我正在努力让我的网站尽可能安全还有什么是盐
Restkit今天突然停止编译

我很长一段时间以来都在我的项目中使用RestKit 使用CocoaPods Podfile pod RestKit gt 0 26 0 今天由于未知的原因我的项目不再编译据我所知我没有更改任何项目设置或任何内容我在 RKObjec
CUDA 中什么样的变量会消耗寄存器？

global void add int c const int a const int b int x blockIdx x int y blockIdx y int offset x y gridDim x c offset a offs

CUDA 中什么样的变量会消耗寄存器？

CUDA 中什么样的变量会消耗寄存器？ 的相关文章

随机推荐

热门标签

CUDA 中什么样的变量会消耗寄存器？的相关文章