CUDA racecheck、共享内存数组和 cudaDeviceSynchronize()

2024-02-03

我最近发现了比赛检查的工具cuda内存检查，在 CUDA 5.0 中可用（cuda-memcheck --tool racecheck，参见英伟达文档 http://docs.nvidia.com/cuda/cuda-memcheck/index.html#using-racecheck）。该工具可以检测 CUDA 内核中共享内存的竞争条件。

在调试模式下，该工具没有检测到任何东西，这显然是正常的。但是，在发布模式下（-O3），根据问题的参数，我会收到错误。

下面是一个错误示例（第 22 行共享内存初始化，第 119 行赋值）：

========= ERROR: Potential WAW hazard detected at __shared__ 0x0 in block (35, 0, 0) :
=========     Write Thread (32, 0, 0) at 0x00000890 in ....h:119:void kernel_test3<float, unsigned int=4, unsigned int=32, unsigned int=64>(Data<float, unsigned int=4, unsigned int=32, unsigned int=64>*)
=========     Write Thread (0, 0, 0) at 0x00000048 in ....h:22:void kernel_test3<float, unsigned int=4, unsigned int=32, unsigned int=64>(Data<float, unsigned int=4, unsigned int=32, unsigned int=64>*)  
=========     Current Value : 13, Incoming Value : 0

首先让我惊讶的是线程 ID。当我第一次遇到这个错误时，每个块包含 32 个线程（id 0 到 31）。那么为什么线程id 32会出现问题呢？我什至添加了额外的检查threadIdx.x，但这没有改变任何事情。
我使用共享内存作为临时缓冲区，每个线程处理自己的多维数组参数，例如__shared__ float arr[SIZE_1][SIZE_2][NB_THREADS_PER_BLOCK]。我真的不明白怎么可能存在任何竞争条件，因为每个线程都处理自己的共享内存部分。
将网格大小从 64 个块减少到 32 个块似乎可以解决该问题（每个块 32 个线程）。我不懂为什么。

为了了解发生了什么，我使用一些更简单的内核进行了测试。让我向您展示一个产生此类错误的内核示例。基本上，这个内核使用SIZE_X*SIZE_Y*NTHREADS*sizeof(float)字节的共享内存，每个 SM 可以使用 48KB 的共享内存。

test.cu

template <unsigned int NTHREADS>
__global__ void kernel_test()
{
    const int SIZE_X = 4;
    const int SIZE_Y = 4;

    __shared__ float tmp[SIZE_X][SIZE_Y][NTHREADS];

    for (unsigned int i = 0; i < SIZE_X; i++)
        for (unsigned int j = 0; j < SIZE_Y; j++)
            tmp[i][j][threadIdx.x] = threadIdx.x;
}

int main()
{
  const unsigned int NTHREADS = 32;

  //kernel_test<NTHREADS><<<32, NTHREADS>>>(); // ---> works fine
  kernel_test<NTHREADS><<<64, NTHREADS>>>();

  cudaDeviceSynchronize(); // ---> gives racecheck errors if NBLOCKS > 32
}

汇编:

nvcc test.cu --ptxas-options=-v -o test

如果我们运行内核:

cuda-memcheck --tool racecheck test

kernel_test<32><<<32, 32>>>();：32 个块，32 个线程 => 不会导致任何明显的竞赛检查错误。

kernel_test<32><<<64, 32>>>();：64 个块，32 个线程 => 导致 WAW 危险（threadId.x= 32？！）和错误。

========= ERROR: Potential WAW hazard detected at __shared__ 0x6 in block (57, 0, 0) :  
=========     Write Thread (0, 0, 0) at 0x00000048 in ....h:403:void kernel_test(void)  
=========     Write Thread (1, 0, 0) at 0x00000048 in ....h:403:void kernel_test(void)  
=========     Current Value : 0, Incoming Value : 128  

========= INFO:(Identical data being written) Potential WAW hazard detected at __shared__ 0x0 in block (47, 0, 0) :  
=========     Write Thread (32, 0, 0) at 0x00000048 in ....h:403:void kernel_test(void)  
=========     Write Thread (0, 0, 0) at 0x00000048 in ....h:403:void kernel_test(void)  
=========     Current Value : 0, Incoming Value : 0

那么我在这里缺少什么？我在共享内存方面做错了什么吗？（我还是个初学者）

Update:

问题似乎来自于cudaDeviceSynchronize() when NBLOCKS > 32。为什么会发生这种情况？

对于初学者来说，cudaDeviceSynchronize() 不是原因；您的内核是原因，但它是异步调用，因此在调用 cudaDeviceSynchronize() 时会捕获错误。

对于内核，共享内存的大小为 SIZE_X*SIZE_Y*NTHREADS （在示例中转换为每块 512 个元素）。在嵌套循环中，您使用 [i*blockDim.x*SIZE_Y + j*blockDim.x + threadIdx.x] 对其进行索引 - 这就是您的问题所在。

更具体地说，您的 i 和 j 值的范围为 [0, 4)，您的 threadIdx.x 的范围为 [0, 32)，您的 SIZE_{X | Y} 值为 4。当 blockDim.x 为 64 时，循环中使用的最大索引将为 991（来自 3*64*4 + 3*64 + 31）。当您的 blockDim.x 为 32 时，您的最大索引将为 511。

根据您的代码，只要您的 NBLOCKS 超过 NTHREADS，您就应该收到错误

注意：我最初将其发布到https://devtalk.nvidia.com/default/topic/527292/cuda-programming-and-performance/cuda-racecheck-shared-memory-array-and-cudadevicesynchronize-/ https://devtalk.nvidia.com/default/topic/527292/cuda-programming-and-performance/cuda-racecheck-shared-memory-array-and-cudadevicesynchronize-/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA racecheck、共享内存数组和 cudaDeviceSynchronize() 的相关文章

无法从静态初始化代码启动 CUDA 内核

我有一个在其构造函数中调用内核的类如下所示标量场 h include
构建 Erlang 服务器场（用于业余爱好项目）最便宜的方法是什么？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案假设我们有一个本质上并行的问题需要用 Erlang 软件来解决我们有很多并行进程每个进程都执行顺序代码不是数字运算并且我们向它们投入的 C
为什么GK110有192个核心和4个扭曲？

我想感受一下开普勒的架构但这对我来说没有意义如果一个 warp 有 32 个线程其中 4 个被调度执行则意味着 128 个核心正在使用 64 个核心处于空闲状态白皮书中提到了独立指令那么64核是为这些指令保留的吗如果是这样
将 GPUJPEG 项目移植到 Windows

我目前正在尝试移植 GPUJPEG 在 Sourceforge 上 http sourceforge net projects gpujpeg 库基于 CUDA 从 Unix 到 Windows 现在我被卡住了我不知道发生了什么或为什么
connect-redis - 如何保护会话对象免受竞争条件影响

我使用 nodejs 和 connect redis 来存储会话数据我将用户数据保存在会话中并在会话生命周期中使用它我注意到两个更改会话数据的请求之间可能存在竞争条件我尝试过使用 redis lock 来锁定会话但这对我来说有点问
CUDA：如何在设备上填充动态大小的向量并将其内容返回到另一个设备函数？

我想知道哪种技术可以填充设备上的动态大小数组 int row 在下面的代码中然后返回其内容以供另一个设备函数使用为了将问题置于上下文中下面的代码尝试使用在 GPU 上运行的高斯勒让德求积来跨越勒让德多项式基组中的任意函数 incl
cudaMallocManaged() 返回“不支持的操作”

在 CUDA 6 0 中尝试托管内存给了我operation not supported打电话时cudaMallocManaged include cuda runtime h include
寻找 CUDA 中的最大值

我正在尝试在 CUDA 中编写代码来查找最大值对于给定的一组数字假设您有 20 个数字并且内核在 2 个块每块 5 个线程上运行现在假设 10 个线程同时比较前 10 个值并且thread 2找到最大值因此线程 2 正在更新
“计算能力”是什么意思？ CUDA？

我是CUDA编程新手对此了解不多您能告诉我 CUDA 计算能力是什么意思吗当我在大学服务器上使用以下代码时它向我显示了以下结果 for device 0 device lt deviceCount device cudaDevic
同时使用 2 个 GPU 调用 cudaMalloc 时性能较差

我有一个应用程序可以在用户系统上的 GPU 之间分配处理负载基本上每个 GPU 都有一个 CPU 线程来启动一个GPU处理间隔当由主应用程序线程定期触发时考虑以下图像使用 NVIDIA 的 CUDA 分析器工具生成作为示例GPU
CUDA程序导致nvidia驱动程序崩溃

当我超过大约 500 次试验和 256 个完整块时我的 monte carlo pi 计算 CUDA 程序导致我的 nvidia 驱动程序崩溃这似乎发生在 monteCarlo 内核函数中任何帮助都会受到赞赏 include
CUDA 中的广义霍夫变换 - 如何加快分箱过程？

正如标题所示我正在对并行计算机视觉技术进行一些个人研究使用 CUDA 我尝试实现 GPGPU 版本的霍夫变换我遇到的唯一问题是在投票过程中我调用atomicAdd 来防止多个同时写入操作但我似乎没有获得太多的性能效率我在网上搜索
传递给 CUDA 的结构中的指针

我已经搞砸了一段时间了但似乎无法正确处理我正在尝试将包含数组的对象复制到 CUDA 设备内存中然后再复制回来但当我遇到它时我会跨过那座桥 struct MyData float data int dataLen void copyT
CUDA Thrust 和 sort_by_key

我正在寻找 CUDA 上的排序算法它可以对元素数组 A 双精度进行排序并返回该数组 A 的键 B 数组我知道sort by keyThrust 库中的函数但我希望元素数组 A 保持不变我能做些什么我的代码是 void sort
MPI+CUDA 与纯 MPI 相比有何优势？

加速应用程序的常用方法是使用 MPI 或更高级别的库例如在幕后使用 MPI 的 PETSc 并行化应用程序然而现在每个人似乎都对使用 CUDA 来并行化他们的应用程序或使用 MPI 和 CUDA 的混合来解决更雄心勃勃更大的问题感兴
如何确定完整的 CUDA 版本 + 颠覆版本？

Linux 上的 CUDA 发行版曾经有一个名为version txt例如 CUDA Version 10 2 89 这非常有用但是从 CUDA 11 1 开始该文件不再存在我如何在 Linux 上通过命令行确定并检查 path t
运行时 API 应用程序中的 cuda 上下文创建和资源关联

我想了解如何在 cuda 运行时 API 应用程序中创建 cuda 上下文并与内核关联我知道这是由驱动程序 API 在幕后完成的但我想了解一下创作的时间线首先我知道 cudaRegisterFatBinary 是第一个 cuda a
__syncthreads() 死锁

如果只有部分线程执行 syncthreads 会导致死锁吗我有一个这样的内核 global void Kernel int N int a if threadIdx x
cuda中有模板化的数学函数吗？ [复制]

这个问题在这里已经有答案了我一直在寻找 cuda 中的模板化数学函数但似乎找不到在普通的 C 中如果我调用std sqrt它是模板化的并且将根据参数是浮点数还是双精度数执行不同的版本我想要这样的 CUDA 设备代码我的内核将真
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW

随机推荐

chrome：为什么 css 3d 对变换比例 < 0 的大元素进行变换会导致白屏错误？

我遇到了屏幕区域在镀铬中变白的问题下面是一个简化的测试用例从测试来看可以肯定的是变换缩放和旋转的组合导致了该问题为了用少量 html 元素重现该问题我夸大了情况并使用了按比例缩小 0 125 的 5000px 正方形请注意只
Angular 2 单元测试：找不到名称“描述”

我正在跟进本教程来自 angular io https angular io docs ts latest guide testing html jasmine 101 正如他们所说我创建了 Hero spec ts 文件来创建单元测试
-XX:-PrintGC 和 XX:-PrintGCDetails 标志有什么作用？

我找到了 JVM 标志here http java sun com javase technologies hotspot vmoptions jsp 有没有更详细的解释他们到底做什么设置此标志会将 JVM 进行的所有垃圾收集写入日志文件
bash 输出为 json 格式

我是 Linux 和 Bash 脚本新手我正在尝试将 Ubuntu Linux 中的几个 bash 脚本输出为 JSON 格式但是我似乎无法让它正常工作我的目标是得到这个 date u Y m d H M S date and ti
MS Access - 对于给定变量的每次出现，将“计数”值加一？

我正在寻找一个查询该查询将读取一列中一行的当前值将其与上面的行进行比较如果上面的行匹配则按顺序计数本质上这听起来像是一个运行计数而不是 Count 几乎就像每组行上的行应该为 Count Variable 1 直到达到最小值零
使用母版页的 ASP.net MVC 应用程序中的 jQuery

我试图让简单的 jQuery 在我的内容页面上执行但没有成功下面是我想要做的
如何在 Internet Explorer 64 位中支持 PDF 文件在浏览器内显示

使用 64 位版本的 Internet Explorer 时 Adobe 似乎不支持在浏览器中显示 PDF 单击 pdf 链接后 64 位 Internet Explorer 将始终跨越新的 Adob e 窗口来显示 pdf 32 位 In
Angular2 如果 ngModel 在表单标签中使用，则必须设置 name 属性或表单

我从 Angular 2 收到此错误 core umd js 5995 异常未捕获承诺中错误 app model exposure currencies model exposure currencies component html
实现自定义compareTo

Override public int compareTo Object t if t instanceof Student Student s Student t return this name compareTo s name els
在 Apache Spark 中，如何使 RDD/DataFrame 操作变得惰性？

假设我想编写一个函数 foo 来转换 DataFrame object Foo def foo source DataFrame DataFrame complex iterative algorithm with a stopping c
如何从另一个表设置 AUTO_INCRMENT

我怎样才能设置AUTO INCREMENT on CREATE TABLE or ALTER TABLE从另一张桌子我发现了这个问题但没有解决我的问题如何使用另一个表中的最大值重置 MySQL 自动增量 https stackover
为什么 Flex 会影响 iOS 上的字体大小？

在确认在 Safari iOS 上使用 Flexbox 时字体大小受到某种影响后我感到非常震惊 iOS Desktop Code a font size 14px a a margin left 1em flex display flex
在 StringBuilder 中替换字符串之前是否需要检查（使用“Contains”或“IndexOf”等函数）？

C 中有 IndexOf 或 Contains 方法吗下面是代码 var sb new StringBuilder mystring sb Replace abc a string dateFormatString sb ToString
行高在 Mac 上无法使文本垂直居中，但在 Windows 上看起来不错

我创建了一个显示浏览器页面大小的页面问题在于显示浏览器高度和宽度的文本虽然文本在 Windows 计算机上完美对齐但在 Mac 上查看时却显得严重偏离还值得注意的是使用外部资源时会出现此问题 http fonts com http
全新重新安装后删除 iOS 推送通知

我有一个已成功集成苹果推送通知的应用程序当用户登录到应用程序时应用程序会注册推送通知并且令牌会保存在我们的后端当用户从应用程序注销时我们会从我们的应用程序中删除推送通知令牌后端但是如果用户在没有从应用程序注销的情况下从设备上卸载
使用 Python 在 CATIA 中创建新产品

我正在使用 Python 脚本自动创建新产品但遇到了交互式事件卡在零件编号对话框中的问题当创建新零件而只是创建新产品时不会发生这种情况以下是脚本的适用部分 CATIA 已打开 import win32com client dyn
NuGet：如何使用 Install.ps1 文件更改文件的属性？

我正在创建 NuGet 包并为此创建了 Nuspec 清单文件在content文件夹我有两个文件 test exe and test config 现在当任何用户安装此软件包时我想将这些文件的属性复制到输出目录更改为项目中的始
如何通过 htaccess 将目录中的所有文件重定向到根目录中的另一个目录

我想重定向所有文件无论是否存在 user我网站上的目录到一个名为temp php通过 htaccess 在根目录中例如如果用户输入用户 send php or user or 用户发送可能根本不存在全部重定向到temp php
在 Visual Studio Code 中禁用基于单词的建议

我想要禁用基于单词的建议在我看来这很烦人而且没用例如括号将提供变量方法和语言的建议不会污染建议列表将所有类似的单词写入文件中我只是想要代码建议我试过 editor wordBasedSuggestions false 但没有运
CUDA racecheck、共享内存数组和 cudaDeviceSynchronize()

我最近发现了比赛检查的工具cuda内存检查在 CUDA 5 0 中可用 cuda memcheck tool racecheck 参见英伟达文档 http docs nvidia com cuda cuda memcheck index

CUDA racecheck、共享内存数组和 cudaDeviceSynchronize()

Update:

CUDA racecheck、共享内存数组和 cudaDeviceSynchronize() 的相关文章

随机推荐

热门标签