CUDA 中的原子操作失败

2024-06-21

由于计算能力为2.1，atomicAdd and atomicMax操作不支持双精度，那么我根据堆栈溢出的一些答案定义这两个函数。

奇怪的是atomicAdd功能运行良好，但atomicMax不起作用，这是我的代码。

我的代码的测试是在每个块上生成随机数，然后将每个块上的随机数相加，我们有块总和，我想测试atomicAdd and atomicMax关于区块总和。

#include <iostream>
#include <curand.h>
#include <curand_kernel.h>
#include <stdio.h>
#include <stdlib.h>


#define num_of_blocks 2
#define threads_per_block 2
#define tot_threads 4


__device__ double gsum[num_of_blocks];

__device__ double dev_sum;

__device__ double dev_max;

// set seed for random number generator
__global__ void initcuRand(curandState* globalState, unsigned long seed){
    int idx = threadIdx.x + blockIdx.x * blockDim.x;
    curand_init(seed, idx, 0, &globalState[idx]);
}

// atomiMax for double
__device__ double atomicMax_d(double* address, double val)
{
    unsigned long long int* address_as_i = (unsigned long long int*)address;
    unsigned long long int old = *address_as_i, assumed;
    do {
        assumed = old;
        old = ::atomicCAS(address_as_i, assumed, __double_as_longlong(::fmax(val, __longlong_as_double(assumed))));
    } while (assumed != old);
    return __longlong_as_double(old);
}

// atomicAdd for double
__device__ double atomicAdd_d(double* address, double val)
{
    unsigned long long int* address_as_ull = (unsigned long long int*)address;
    unsigned long long int old = *address_as_ull, assumed;
    do{
        assumed = old;
        old = atomicCAS(address_as_ull, assumed, __double_as_longlong(val + __longlong_as_double(assumed)));
    }while(assumed != old);
    return __longlong_as_double(old);
}

__global__ void kernel(curandState *globalState){
    // global id
    int gidx    = threadIdx.x + blockIdx.x * blockDim.x;
    // local id
    int lidx    = threadIdx.x;

    // creat shared memory to store seeds
    __shared__ curandState localState[tot_threads];

    __shared__ double srandnum[threads_per_block];

    // copy global seed to local
    localState[lidx]    = globalState[gidx];

    //synchronize the local threads writing to the local memory cache
    __syncthreads();

    // generate random number from normal distribution in shared memory
    srandnum[lidx]  = curand_normal(&localState[lidx]);
    __syncthreads();

    if(lidx == 0){srandnum[lidx] += srandnum[lidx + 1];}   // sum of each block
    if(lidx == 0){gsum[blockIdx.x] = srandnum[lidx];}      // copy the sums back to global memory

    __threadfence();

    if( gidx < num_of_blocks){
        atomicAdd_d(&dev_sum, gsum[gidx]);
    }

    if( gidx < num_of_blocks){
        atomicMax_d(&dev_max, gsum[gidx]);
    }

    if( gidx == 0){
        printf("Sum is: %lf\n", dev_sum);
    }

    if( gidx == 1){
        printf("Max is: %lf\n", dev_max);
    }
}


int main(){
    // set seed on device
    curandState *globalState;
    cudaMalloc((void**)&globalState, tot_threads*sizeof(curandState));
    initcuRand<<<num_of_blocks, threads_per_block>>>(globalState, 1);

    // launch kernel
    kernel<<<num_of_blocks, threads_per_block>>>(globalState);
    double randnum[num_of_blocks];

    cudaMemcpyFromSymbol(randnum, gsum, num_of_blocks*sizeof(double), 0, cudaMemcpyDeviceToHost);

    std::cout << "Sum of each block:\n";
    for (int i = 0; i < num_of_blocks; ++i){
        std::cout << randnum[i] << std::endl;
    }

    cudaFree(globalState);
    return 0;
}

我得到的结果是

Sum is: -0.898329
Max is: 0.000000
Sum of each block:
-0.0152994
-0.88303

从结果来看，我知道atomicAdd功能有效，但atomicMax功能不起作用，我对此一无所知。预先感谢。

你永远不会初始化dev_max or dev_sum。如果它们不以已知值开头，则您无法明智地对它们执行这些类型的原子操作。

尝试这样的事情：

__device__ double dev_sum = 0.0;

__device__ double dev_max = -1e99;

我想你会对结果感到更满意。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

CUDA 中的原子操作失败的相关文章

__device__ __constant__ 常量

有什么区别吗在 CUDA 程序中定义设备常量的最佳方法是什么在 C 主机设备程序中如果我想将常量定义在设备常量内存中我可以这样做 device constant float a 5 constant float a 5 问题 1
如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题总而言之我有两个数组向量我需要对一个数组向量进行排序并将更改传播到另一个数组向量中这样如果我对 arrayOne 进行排序则对于排序中的每个交换 arrayTwo 也会发生同样的情况现在我知
VS 程序在调试模式下崩溃，但在发布模式下不崩溃？

我正在 VS 2012 中运行以下程序来尝试 Thrust 函数查找 include cuda runtime h include device launch parameters h include
将 nvidia 运行时添加到 docker 运行时

我正在运行虚拟机GCP配备特斯拉 GPU 并尝试部署一个PyTorch基于应用程序使用 GPU 加速我想让 docker 使用这个 GPU 可以从容器访问它我设法在主机上安装了所有驱动程序并且该应用程序在那里运行良好但是当我尝试在
OS X 10.8 上的 PyCuda / 多处理问题

我正在开发一个项目将计算任务分配给多个 python 进程每个进程都与其自己的 CUDA 设备关联生成子进程时我使用以下代码 import pycuda driver as cuda class ComputeServer obje
cuda-gdb 错误消息

我尝试使用 cuda gdb 调试我的 CUDA 应用程序但遇到了一些奇怪的错误我设置了选项 g G O0构建我的应用程序我可以在没有 cuda gdb 的情况下运行我的程序但没有得到正确的结果因此我决定使用 cuda gdb 但
大型跨平台软件项目的技巧/资源

我将开始一个大型软件项目涉及跨平台 GUI 和大量的数字运算我计划用 C 和 CUDA 编写大部分应用程序后端并用 Qt4 编写 GUI 我计划使用 Make 作为我的构建系统这将是一个只有两名开发人员的项目一旦我相对深入地了解它
CUDA 5.0错误LNK2001：cuda方法无法解析的外部符号

我的链接器有错误 1 gt ManifestResourceCompile 1 gt All outputs are up to date 1 gt kernel cu obj error LNK2001 unresolved extern
cudaDeviceScheduleBlockingSync 和 cudaDeviceScheduleYield 之间有什么区别？

正如这里所说如何减少 CUDA 同步延迟延迟 https stackoverflow com questions 11953722 how to reduce cuda synchronize latency delay 等待设备结果有
设备内存刷新cuda

我正在运行一个 C 程序其中调用了两次 cuda 主机函数我想清理这两个调用之间的设备内存有没有办法可以刷新 GPU 设备内存我使用的是计算能力为2 0的Tesla M2050 如果你只想将内存归零那么cudaMemset可能是最
如何在CUDA应用程序中正确应用线程同步？

一般来说我在应用程序中偶尔会使用线程同步因为我并不经常需要此功能我并不是真正的高级 C C 程序员但我也不是初学者我开始学习 CUDA C 对当今 GPU 与 CPU 的能力相比感到兴奋我意识到 CUDA 编程主要是关于并行线程
无法在 CUDA 中找到 1 到 100 数字的简单和？

我正在研究使用 CUDA 的图像处理算法在我的算法中我想使用 CUDA 内核找到图像所有像素的总和所以我在cuda中制作了内核方法来测量16位灰度图像的所有像素的总和但我得到了错误的答案所以我在cuda中编写了一个简单的程序来查
在 Cuda 中简单添加两个 int，结果始终相同

我开始了学习Cuda的旅程我正在玩一些 hello world 类型的 cuda 代码但它不起作用我不知道为什么代码非常简单取两个整数并将它们添加到 GPU 上并返回结果但无论我将数字更改为什么我都会得到相同的结果如果数学那
CUDA 和 Eigen 的成员“已声明”错误

我只是 CUDA 和 Nsight 的初学者希望利用出色的 GPU 性能进行线性代数运算例如 CUBLAS 我在以下人员的帮助下编写了很多自定义代码Eigen http eigen tuxfamily org index php tit
如何在没有 nvcc 的情况下在编译时获取 CUDA 工具包版本？

我在 cpp 文件中对 cuSPARSE 库进行了一些调用这些调用在旧工具包中不可用为了支持使用旧工具包的系统我想使用编译器指令编译不同的代码部分特别是我想使用旧工具包的 CSR 格式矩阵和新工具包的 BSR 格式矩阵来求解稀疏三
布尔实现的atomicCAS

我想弄清楚是否存在错误答案 https stackoverflow com a 57444538 11248508 现已删除关于Cuda like的实现atomicCAS for bool是答案中的代码重新格式化 static inl
使用设备函数指针数组

我需要以下设备版本主机代码 double func double x double func1 double x return x 1 double func2 double x return x 2 double func3 doubl
为什么在 CUDA 中启动 32 倍数的线程？

我参加了 CUDA 并行编程课程并且看到了许多 CUDA 线程配置的示例其中通常将所需的线程数四舍五入到最接近的 32 倍数我知道线程被分组为 warp 并且如果您启动 1000 个线程 GPU 无论如何都会将其四舍五入到 1024
我可以将 CUDA 与非 NVIDIA GPU 一起使用吗？ [复制]

这个问题在这里已经有答案了我正在寻找一种在没有 NVIDIA GPU 的系统上运行 CUDA 程序的方法我尝试安装 MCUDA 和 gpuOcelot 但安装似乎遇到一些问题我已经浏览了中给出的答案如何使用软件实现在没有 GPU 的情
如何在 Java 编程中使用 GPU

我这些天都在使用 CUDAC 来访问 GPU 但现在我的导游要求我使用 Java 和 GPU 于是我在网上搜索发现Rootbeer是最好的选择但我无法理解如何使用 Rootbeer 运行程序可以有一个吗告诉我使用 Rootbeer 的步

随机推荐

NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size
从列表中选择项目以求和

我有一个包含数值的项目列表我需要使用这些项目求和我需要你的帮助来构建这样的算法下面是一个用 C 编写的示例描述了我的问题 int sum 21 List
隐藏选项卡栏项目并对齐其他选项卡项目

在我的应用程序中我有 4 个选项卡栏项目我正在 XIB 文件中添加这 4 个选项卡栏项目最初我必须显示 3 个选项卡栏项目同步后我必须在我的应用程序中显示第 4 个选项卡栏项目因此为此我使用以下代码隐藏第四个选项卡栏项目 se
Git 实验分支还是单独的实验存储库？

我正在开发一个 Android 应用程序并且在整个开发周期中一直使用 Git 现在我想构建并发布实验性功能供人们尝试和安装同时仍将原始的稳定的应用程序安装在他们的设备上现在这意味着我需要使用不同的包名称这会更改开发项目中的一
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c
使用 Java v12 SDK 在 Azure Blob 存储中复制 Blob

我的应用程序位于 Kubernetes 集群中我正在使用Java v12 SDK https github com Azure azure sdk for java tree master sdk storage azure storag
使用 powershell 将 XML 转换为特定的 JSON 结构

需要有关将 xml 转换为特定 json 结构的帮助 XML 看起来像这样
有没有任何代码可以在android中设置壁纸而无需裁剪和缩放？

我正在创建一个画廊应用程序我的第一个应用程序这是我的代码 Bitmap bmd BitmapFactory decodeStream is try getApplicationContext setWallpaper bmd catch
如何将 PostgreSql 与 EntityFramework 6.0.2 集成？ [复制]

这个问题在这里已经有答案了我收到以下错误实体框架提供程序类型的实例成员 Npgsql NpgsqlServices Npgsql 版本 2 0 14 2 文化中性 PublicKeyToken 5d8b90d52f46fda7 没
CSS 是否有不等于选择器？

CSS中有类似不等于的东西吗例如我有以下代码 input 但对于某些输入我需要将其作废我想通过将类 reset 添加到输入标签来做到这一点例如
FireFox 中的“contenteditable = true”高度问题

当有空的时候div with contenteditable true CSS contenteditable true border 1px dashed dedede padding 3px HTML div div 在 IE 和 Ch
当我使用 OpenSSL1.1.0g 根据固定的 p 和 g 值创建 Diffie Hellman 密钥协议密钥时，应该执行哪些检查？

您好我尝试通过这段代码使用修复 p 和 g 参数来制作 Diffie Hellman Keysanswer https stackoverflow com a 54538811 4706711 include
Java中super关键字的范围和使用

为什么无法使用 super 关键字访问父类变量使用以下代码输出为 feline cougar c c class Feline public String type f public Feline System out print fe
BigQuery 中的字段可以具有 NULLABLE 和 REPEATED 模式吗？

BigQuery 中的字段可以为 NULLABLEand重复模式例如表示一个字符串数组其中某些字符串可能为 NULL BigQuery 中的字段可以具有 NULLABLE 和 REPEATED 模式吗没有要么是一个要么是另一个
XSLT 将动态 XML 转换为 CSV 并且 XML 节点不完全重复 II

我正在尝试创建 XSLT 将 XML 转换为 CSV 这里放置了我的 XML 和预期输出任何人都知道如何获得以下输出请优先分享我我的 XML 是
是否可以引用同一个表中的不同列？

如果博客有一个类别表如下所示 CREATE TABLE categories id INTEGER PRIMARY KEY AUTO INCREMENT parent id INTEGER NOT NULL name VARCHAR
排除apk文件中的预定义资源

排除apk文件中的预定义资源我用 Android Studio 创建了一个空白项目然后生成 apk 文件查看该文件内部我可以看到在 res drawable 文件夹中有许多不需要的文件例如 abc ic clear holo
Java：带注释的注释（和传递值）

我有一个注释其中包含其他几个注释与此处的注释非常相似 Component Spring Component Interface OsgiService boolean isFactory 意味着所有带有注释的类 OsgiService也
在 Python 中找到 3D 中给定点最近点的最快方法

假设我在 A 中有 10 000 个点在 B 中有 10 000 个点并且想要找出 A 中与每个 B 点最接近的点目前我只是循环遍历 B 和 A 中的每个点来找到距离最近的点 IE B 5 1 1 1 1 1 1 1 2 A 1 1
CUDA 中的原子操作失败

由于计算能力为2 1 atomicAdd and atomicMax操作不支持双精度那么我根据堆栈溢出的一些答案定义这两个函数奇怪的是atomicAdd功能运行良好但atomicMax不起作用这是我的代码我的代码的测试是在每个块上

CUDA 中的原子操作失败

CUDA 中的原子操作失败 的相关文章

随机推荐

热门标签

CUDA 中的原子操作失败的相关文章