了解每个线程的 cuda 堆内存限制

2024-01-29

这个问题是关于cuda中堆大小限制的。访问了有关该主题的一些问题，包括这个：内核中的新运算符..奇怪的行为 https://stackoverflow.com/questions/13072624/new-operator-in-kernel-strange-behaviour/13073677#13073677我做了一些测试。给定一个内核如下：

#include <cuda.h>
#include <cuda_runtime.h>
#define CUDA_CHECK( err ) __cudaSafeCall( err, __FILE__, __LINE__ )
#define CUDA_CHECK_ERROR()    __cudaCheckError( __FILE__, __LINE__ )
inline void __cudaSafeCall( cudaError err, const char *file, const int line )
{
    if ( cudaSuccess != err )
    {
        fprintf( stderr, "cudaSafeCall() failed at %s:%i : %s\n",
                file, line, cudaGetErrorString( err ) );
        exit( -1 );
    }
    return;
}

inline void __cudaCheckError( const char *file, const int line )
{
    cudaError err = cudaGetLastError();
    if ( cudaSuccess != err )
    {
        fprintf( stderr, "cudaCheckError() failed at %s:%i : %s\n",
                file, line, cudaGetErrorString( err ) );
        exit( -1 );
    }
    return;
}
#include <stdio>
#define NP 900000
__device__ double *temp;
__device__ double *temp2;
__global__
void test(){
int i = blockDim.x*blockIdx.x + threadIdx.x;
if(i==0){
    temp = new double[NP];
    //temp2 = new double[NP];
}

if(i==0){
    for(int k=0;k<NP;k++){
        temp[i] = 1.;
        if(k%1000 == 0){
            printf("%d : %g\n", k, temp[i]);
        }
    }
}
if(i==0){
    delete(temp);
    //delete(temp2);
}
}
int main(){
    //cudaDeviceSetLimit(cudaLimitMallocHeapSize, 32*1024*1024);
    //for(int k=0;k<2;k++){
        test<<<ceil((float)NP/512), 512>>>();
        CUDA_CHECK_ERROR();
    //}
    return 0;
}

我想测试堆大小限制。

为一个线程动态分配一个数组（temp），其大小为大约超过 960,000*sizeof(double) （接近 8MB，这是堆大小的默认限制）给出错误：好的。 900,000 幅作品。（有人知道如何计算真实极限吗？）
提高堆大小限制允许分配更多内存：正常，好的。
回到 8MB 堆大小，为两个线程的每个线程分配一个数组（因此，将 if (i==0) 替换为 if(i==0 || i==1)，每个 900,000 * sizeof(double) 失败.但是每个 450,000*sizeof(double) 都可以.仍然可以.
我的问题来了：用一个线程分配两个数组（因此，线程 0 的 temp 和 temp2），每个 900,000 * sizeof(double) 也可以工作，但它不应该吗？事实上，当我尝试写入两个数组时，它失败了。但是任何人都知道为什么在使用两个数组和一个线程而不是两个数组和两个线程时分配时会出现这种不同的行为？

编辑：另一个测试，我发现对于像我一样学习堆用法的人来说很有趣： 5. 执行内核两次，单线程0分配一个大小为900,000 * sizeof(double)的数组，如果有删除，就可以工作。如果省略delete，第二次会失败，但第一次调用会执行。

编辑2：如何分配一次设备范围的变量，但可由所有线程写入（不是来自主机，在设备代码中使用动态分配）？

可能您没有测试返回的空指针new操作，这是一个C++ 中操作员报告失败的有效方法 http://www.cplusplus.com/reference/new/operator%20new%5b%5d/.

当我按如下方式修改代码时，我收到消息“第二个新失败”：

#include <stdio.h>

 #define NP 900000
__device__ double *temp;
__device__ double *temp2;
__global__
void test(){
int i = blockDim.x*blockIdx.x + threadIdx.x;
if(i==0){
    temp = new double[NP];
    if (temp == 0) {printf("first new failed\n"); return;}
    temp2 = new double[NP];
    if (temp2 == 0) {printf("second new failed\n"); return;}
}

if(i==0){
    for(int k=0;k<NP;k++){
        temp[i] = 1.;
        if(k%1000 == 0){
            printf("%d : %g\n", k, temp[i]);
        }
    }
}
if(i==0){
    delete(temp);
    delete(temp2);
}
}

int main() {

  test<<<1,1>>>();
  cudaDeviceSynchronize();
  return 0;
}

如果您提供完整的、可编译的代码供其他人使用，就像我一样，那就很方便了。

对于您的第一个编辑问题，如果删除第一个问题，第二个新问题将起作用并不奇怪。第一个分配几乎所有可用的 8MB。如果删除该分配，则第二个分配将会成功。参考文档 http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#dynamic-global-memory-allocation-and-operations，我们看到以这种方式动态分配的内存在 cuda 上下文的整个生命周期内都存在，或者直到执行相应的删除操作为止（即不仅仅是单个内核调用。内核完成并不一定会释放分配。）

对于你的第二个编辑问题，你已经在演示一种方法，使用你的__device__ double *temp;指针，一个线程可以通过该指针分配所有线程都可以访问的存储空间。但是，跨块会遇到问题，因为无法保证块之间的同步顺序或块之间的执行顺序，因此如果从块 0 中的线程 0 进行分配，则仅当块 0 在其他块之前执行时才有用。您可以想出一个复杂的方案来检查变量分配是否已经完成（也许通过测试 NULL 指针，也可能使用原子），但它会创建脆弱的代码。最好提前计划全局分配并从主机进行相应分配。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

heapmemory

了解每个线程的 cuda 堆内存限制的相关文章

同时使用 2 个 GPU 调用 cudaMalloc 时性能较差

我有一个应用程序可以在用户系统上的 GPU 之间分配处理负载基本上每个 GPU 都有一个 CPU 线程来启动一个GPU处理间隔当由主应用程序线程定期触发时考虑以下图像使用 NVIDIA 的 CUDA 分析器工具生成作为示例GPU
CUDA程序导致nvidia驱动程序崩溃

当我超过大约 500 次试验和 256 个完整块时我的 monte carlo pi 计算 CUDA 程序导致我的 nvidia 驱动程序崩溃这似乎发生在 monteCarlo 内核函数中任何帮助都会受到赞赏 include
多个进程可以共享一个 CUDA 上下文吗？

这个问题是 Jason R 的后续问题comment https stackoverflow com questions 29964392 multiple cuda contexts for one device any sense co
Java - 堆与直接内存访问

我最近遇到sun misc Unsafe类允许用户以类似于 C 的方式分配解除分配和一般访问内存我读过一些解决这个问题的博客例如堆内存和直接内存哪个更快 http mentablog soliveirajr com 2012 11
传递给 CUDA 的结构中的指针

我已经搞砸了一段时间了但似乎无法正确处理我正在尝试将包含数组的对象复制到 CUDA 设备内存中然后再复制回来但当我遇到它时我会跨过那座桥 struct MyData float data int dataLen void copyT
MPI+CUDA 与纯 MPI 相比有何优势？

加速应用程序的常用方法是使用 MPI 或更高级别的库例如在幕后使用 MPI 的 PETSc 并行化应用程序然而现在每个人似乎都对使用 CUDA 来并行化他们的应用程序或使用 MPI 和 CUDA 的混合来解决更雄心勃勃更大的问题感兴
运行时 API 应用程序中的 cuda 上下文创建和资源关联

我想了解如何在 cuda 运行时 API 应用程序中创建 cuda 上下文并与内核关联我知道这是由驱动程序 API 在幕后完成的但我想了解一下创作的时间线首先我知道 cudaRegisterFatBinary 是第一个 cuda a
无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx
纱线堆的使用量随着时间的推移而增长

我们在 AWS EMR 上运行 Spark Streaming 作业该作业将稳定运行 10 到 14 小时然后崩溃并且 stderr stdout 或 Cloudwatch 日志中没有明显错误在此崩溃之后任何重新启动作业的尝试都将
堆和栈数据访问性能对比

众所周知的常识是对于大多数算法来说在堆栈上分配和释放数据比在堆上分配和释放数据要快得多在C 中代码的区别就像 double foo n n vs double foo new int n n 但是当访问和计算位于堆或堆栈上的数据时
加速Cuda程序

要更改哪一部分来加速此代码代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
cuda中有模板化的数学函数吗？ [复制]

这个问题在这里已经有答案了我一直在寻找 cuda 中的模板化数学函数但似乎找不到在普通的 C 中如果我调用std sqrt它是模板化的并且将根据参数是浮点数还是双精度数执行不同的版本我想要这样的 CUDA 设备代码我的内核将真
cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
__device__ __constant__ 常量

有什么区别吗在 CUDA 程序中定义设备常量的最佳方法是什么在 C 主机设备程序中如果我想将常量定义在设备常量内存中我可以这样做 device constant float a 5 constant float a 5 问题 1
CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int
MISRA C++（规则 18-4-1）和动态内存分配 - 是否允许 std::string？

MISRA C 规则 18 4 1 说不得使用动态堆内存分配 See http dist sonarsource com reports coverage misra c 2008 html http dist sonarsource c
CUDA 中指令重放的其他原因

这是我从 nvprof CUDA 5 5 获得的输出 Invocations Metric Name Metric Description Min Max Avg Device Tesla K40c 0 Kernel MyKernel do
_CrtCheckMemory使用示例

我试图了解如何使用 CrtCheckMemory追踪我正在开发的 Windows 应用程序中的堆损坏我似乎无法让它返回false 这是我的测试代码 int test new int 1 for int i 0 i lt 100 i tes
具有 Cuda Thrust 的多个 GPU？

如何将 Thrust 与多个 GPU 一起使用这只是使用 cudaSetDevice deviceId 的问题吗然后运行相关的 Thrust 代码使用 CUDA 4 0 或更高版本 cudaSetDevice deviceId 接下来
在 Windows Vista 和 Windows 7 上使用 HEAP_NO_SERIALIZE 的堆内存函数速度减慢约 100 倍的原因

我正在尝试追踪 Windows Vista 和 Windows 7 中堆内存功能的巨大减慢我没有在任何服务器版本上进行测试这种情况在 Windows XP 上根本不会发生只会在 Microsoft 较新的操作系统上发生我最初在 Wi

随机推荐

Angular2 - 如何将字符串枚举与 *ngIf 一起使用

我该如何通过enum当我使用时到一个函数 ngIf在角度我有以下代码 export enum RoleType User User Admin Admin 组件功能 public hasAccess role RoleType check
负面清单索引？ [复制]

这个问题在这里已经有答案了我试图理解下面的代码 node list n for i in xrange 1 numnodes 1 tmp session newobject n append tmp link n 0 n 1 具体来说我
使用 Java 终止进程

我想知道如何杀死已经启动的进程我知道 Process API 但我不确定是否可以使用它来杀死已经运行的进程例如 firefox exe 等如果可以使用 Process API 您能指出我吗正确的方向如果没有还有哪些其他
通过查询字符串将对象列表传递给 MVC 控制器

我遇到了一种情况需要将对象列表传递给 MVC 控制器但我不确定如何在查询字符串中格式化它我想要这样做的原因是因为这不是一个 Web 应用程序它是一个通过查询字符串接受数据并将其路由到执行工作的控制器的 Web 服务因此给定一个名
SQL Server - 复杂的动态数据透视列

我有两个表 Controls 和 ControlChilds 父表结构 Create table Controls ProjectID Varchar 20 NOT NULL ControlID INT NOT NULL ControlCo
如何将 __init__ 参数传递给使用 qmlRegisterType 注册的类？

是否可以使用 qmlRegisterType 函数将 init 参数传递给注册到 QML 的 python 类如果是这样当在 QML 中实例化类时它们会被传递吗我已使用 qmlRegisterType 注册了该类但没有找到将另一个类
FormArray的使用和动态添加控件行

我在尝试使用 Angular 2 和 Forms 做某事时遇到了麻烦假设我有一个邀请列表其中有两个字段分别用于姓名和电子邮件以及一个用于添加更多行的按钮姓名电子邮件姓名电子邮件添加行我有点知道您可以使用 FormArra
如何获取
的渲染大小

我有一个FlowPanel 其高度是固定的实际上是其父级高度的百分比该高度是固定的在此面板中我添加了几个div元素使用 CSS 我将其高度设置为其父级的 100 我想要做的是使用 javascript 将其宽度设置为等于其高度我
使用最新的 Android L 支持 v4 进行 Android 活动转换

我正在为我的应用程序实现材料设计我发现可以在此处进行活动之间的转换 http android developers blogspot com es 2014 10 implementing material design in your
Jquery 错误：需要对象

这是我在 aspx 页面中的代码
android - 如何使文本视图滚动？

实际上我在文本视图中显示了一些数据但它的一半数据超出了屏幕所以我需要帮助来使文本视图滚动或任何其他可以向下滚动屏幕的东西任何帮助将不胜感激将 TextView 放入 XML 中的 ScrollView 中如下所示
Maven + Cucumber-jvm - 如何根据环境运行不同的功能子集

我正在努力实现这一目标我想配置一个 Maven 项目以便它根据所选配置文件运行不同的 Cucumber 功能子集 dev pro 例如我有几个功能文件来测试网络导航使用标签来指定环境 PRO pro Feature Nav Pro
如何使用 gdb“观察”C++ 动态数组？

考虑以下示例 int size 10 kk new int size for int i 0 i lt size i kk i i delete kk 如何为整个阵列添加监视我可以一一添加手表 kk 0 kk 1 但既然我知道数组的长度
kubectl exec 到多容器 pod 的容器中

我在登录多容器 Pod 的一个容器时遇到问题我从以下位置获取容器 IDkubectl describe pod
Symfony2：使用具有相同名称的自定义字段类型覆盖内置字段类型

As per 本文 http symfony com doc current cookbook form create custom field type html在 Symfony 文档上我创建了一个自定义字段类型将其设置为servi
视图框架在 viewWillAppear: 和 viewDidAppear: 之间变化

我在我的应用程序中发现了一个奇怪的行为其中连接IBOutlet在我的视图控制器中的调用之间有其连接的视图框架viewWillAppear and viewDidAppear 这是我的相关代码UIViewController子类 void
如何使用PHP连接sql server

我想使用PHP连接到sql server数据库我安装了 xampp 1 7 0 php 5 2 和 SQLSRV20 我已将扩展添加到php ini我收到此错误 Warning mssql connect function mssql c
如何在 vim 中使用 ctags 自动完成

我尝试在vim中开发android项目但是发现在ctags中查找一种方法有点无聊有没有办法使用ctags在vim中显示自动完成列表 thanks 这是我的 ctags 版本如下 Exuberant Ctags 5 8 Copyright
如何在 WireMock 中成功代理 HTTPS 端点？

我正在编写一个内部使用 WireMock 的 HTTP 记录播放代理并且在记录 HTTPS 目标时遇到问题 HTTP 站点工作正常以下是我为未加密站点设置 WireMock 代理的方法 java jar var proximate wi
了解每个线程的 cuda 堆内存限制

这个问题是关于cuda中堆大小限制的访问了有关该主题的一些问题包括这个内核中的新运算符奇怪的行为 https stackoverflow com questions 13072624 new operator in kernel s

了解每个线程的 cuda 堆内存限制

了解每个线程的 cuda 堆内存限制 的相关文章

随机推荐

热门标签

了解每个线程的 cuda 堆内存限制的相关文章