cuda 共享内存 - 结果不一致

2024-04-21

我正在尝试并行缩减以对 CUDA 中的数组求和。目前我传递一个数组来存储每个块中元素的总和。这是我的代码：

#include <cstdlib>
#include <iostream>
#include <cuda.h>
#include <cuda_runtime_api.h>
#include <helper_cuda.h>
#include <host_config.h>
#define THREADS_PER_BLOCK 256
#define CUDA_ERROR_CHECK(ans) { gpuAssert((ans), __FILE__, __LINE__); }

using namespace std;

inline void gpuAssert(cudaError_t code, char *file, int line, bool abort=true)
{
   if (code != cudaSuccess) 
   {
      fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
      if (abort) exit(code);
   }
}

struct double3c {
    double x; 
    double y;
    double z;
    __host__ __device__ double3c() : x(0), y(0), z(0) {}
    __host__ __device__ double3c(int x_, int y_, int z_) : x(x_), y(y_), z(z_) {}
    __host__ __device__ double3c& operator+=(const double3c& rhs) { x += rhs.x; y += rhs.y; z += rhs.z;}
    __host__ __device__ double3c& operator/=(const double& rhs) { x /= rhs; y /= rhs; z /= rhs;}

};

class VectorField {
public:
    double3c *data;
    int size_x, size_y, size_z;
    bool is_copy;  

    __host__ VectorField () {}

    __host__ VectorField (int x, int y, int z) {
        size_x = x; size_y = y; size_z = z;
        is_copy = false;
        CUDA_ERROR_CHECK (cudaMalloc(&data, x * y * z * sizeof(double3c))); 
    }

    __host__ VectorField (const VectorField& other) {
        size_x = other.size_x; size_y = other.size_y; size_z = other.size_z;
        this->data = other.data;
        is_copy = true;
    }

    __host__ ~VectorField() {     
        if (!is_copy) CUDA_ERROR_CHECK (cudaFree(data));
    }
};

__global__ void KernelCalculateMeanFieldBlock (VectorField m, double3c* result) {
    __shared__ double3c blockmean[THREADS_PER_BLOCK];    
    int index = threadIdx.x + blockIdx.x * blockDim.x;
    if (index < m.size_x * m.size_y * m.size_z) blockmean[threadIdx.x] = m.data[index] = double3c(0, 1, 0);
    else blockmean[threadIdx.x] = double3c(0,0,0);
    __syncthreads();
    for(int s = THREADS_PER_BLOCK / 2; s > 0; s /= 2) {
        if (threadIdx.x < s) blockmean[threadIdx.x] += blockmean[threadIdx.x + s];
        __syncthreads();
    }


    if(threadIdx.x == 0) result[blockIdx.x] = blockmean[0];   
}

double3c CalculateMeanField (VectorField& m) { 
    int blocknum = (m.size_x * m.size_y * m.size_z - 1) / THREADS_PER_BLOCK + 1;
    double3c *mean = new double3c[blocknum]();
    double3c *cu_mean;
    CUDA_ERROR_CHECK (cudaMalloc(&cu_mean, sizeof(double3c) * blocknum));
    CUDA_ERROR_CHECK (cudaMemset (cu_mean, 0, sizeof(double3c) * blocknum));

        KernelCalculateMeanFieldBlock <<<blocknum, THREADS_PER_BLOCK>>> (m, cu_mean);
        CUDA_ERROR_CHECK (cudaPeekAtLastError());
        CUDA_ERROR_CHECK (cudaDeviceSynchronize());
        CUDA_ERROR_CHECK (cudaMemcpy(mean, cu_mean, sizeof(double3c) * blocknum, cudaMemcpyDeviceToHost));

    CUDA_ERROR_CHECK (cudaFree(cu_mean));
    for (int i = 1; i < blocknum; i++) {mean[0] += mean[i];}
    mean[0] /= m.size_x * m.size_y * m.size_z;
    double3c aux = mean[0];
    delete[] mean;
    return aux;
}



int main() {
    VectorField m(100,100,100);
    double3c sum = CalculateMeanField (m);
    cout <<  sum.x << '\t' << sum.y << '\t' <<sum.z;  


    return 0;
}

EDIT

贴出功能代码。构建一个VectorField使用 10x10x10 元素可以正常工作并给出平均值 1，但是使用 100x100x100 元素构建它可以得到平均值 ~0.97（每次运行都会有所不同）。这是进行并行减少的正确方法，还是应该坚持每个块启动一个内核？

当我在 Linux 上编译现在的代码时，我收到以下警告：

t614.cu(55): warning: __shared__ memory variable with non-empty constructor or destructor (potential race between threads)

不应忽视此类警告。它与这行代码相关：

__shared__ double3c blockmean[THREADS_PER_BLOCK];

由于存储在共享内存中的这些对象的初始化（通过构造函数）将以某种任意顺序发生，并且在该初始化与也将设置这些值的后续代码之间没有障碍，不可预测的事情（*）可以发生。

如果我插入一个__syncthreads()在将构造函数活动与后续代码隔离的代码中，我得到了预期的结果：

__shared__ double3c blockmean[THREADS_PER_BLOCK];    
int index = threadIdx.x + blockIdx.x * blockDim.x;
__syncthreads();  // add this line
if (index < m.size_x * m.size_y * m.size_z) blockmean[threadIdx.x] = m.data[index] = double3c(0, 1, 0);
else blockmean[threadIdx.x] = double3c(0,0,0);
__syncthreads();

然而，这仍然给我们留下了警告。解决此问题并使警告消失的修改是分配必要的__shared__动态大小。将共享内存声明更改为：

extern __shared__ double3c blockmean[];

并修改你的内核调用：

KernelCalculateMeanFieldBlock <<<blocknum, THREADS_PER_BLOCK, THREADS_PER_BLOCK*sizeof(double3c)>>> (m, cu_mean);

这将消除警告，产生正确的结果，并避免共享内存变量上不必要的构造函数流量。（以及额外的__syncthreads()上面的描述就不再需要了。）

*关于“不可预测的事情”，如果您通过检查生成的 SASS (库对象转储 http://docs.nvidia.com/cuda/cuda-binary-utilities/index.html#abstract-萨斯...）或 PTX(**) (nvcc -ptx ...)，你会看到每个线程初始化entire __shared__对象数组为零（默认构造函数的行为）。因此，一些线程（即扭曲）可以提前竞争并开始根据以下行填充共享内存区域：

if (index < m.size_x * m.size_y * m.size_z) blockmean[threadIdx.x] = m.data[index] = double3c(0, 1, 0);

然后，当其他扭曲开始执行时，这些线程将清除entire再次共享内存阵列。这种赛车行为会导致不可预测的结果。

** 我通常不建议通过检查 PTX 来判断代码行为，但在本例中它同样具有指导意义。最后的编译阶段不会优化构造函数的行为。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

cuda 共享内存 - 结果不一致的相关文章

通过增加索引之和来生成排序组合的有效方法

对于启发式算法我需要一个接一个地评估特定集合的组合直到达到停止标准由于它们很多目前我正在使用以下内存高效迭代器块生成它们受到 python 的启发 itertools combinations http docs python o
clang 格式换行符在错误的位置

给出以下代码行 get abc manager get platform status abc platform status sw update status fill update status actions allowed stat
在 VS2017 下使用 Conan 和 CMake 项目进行依赖管理

我正在尝试使用 CMake 与 VS2017 集成为 C 设置一个开发环境以便在 Linux x64 下进行编译为了更好地管理依赖关系我选择使用 Conan 但我对这个软件还很陌生我想知道让 VS2017 识别项目依赖关系的最佳方法
分段错误（核心转储）错误

我的程序编译罚款但在输入文件时出现分段错误核心转储错误我没有正确处理 ostream 吗 include
将字节数组转换为托管结构

更新这个问题的答案帮助我编写了开源项目GitHub 上的 AlicanC 现代战争 2 工具 https github com AlicanC AlicanC s Modern Warfare 2 Tool 你可以看到我是如何阅读这些数据
C 程序从连接到系统的 USB 设备读取数据

我正在尝试从连接到系统 USB 端口的 USB 设备例如随身碟获取数据在这里我可以打开设备文件并读取一些随机原始数据但我想获取像 minicom teraterm 这样的数据请让我知道我可以使用哪些方法和库来成功完成此操作以及如
从多线程程序中调用 system()

我们正在开发一个用 C 编写的多线程内存消耗应用程序我们必须执行大量的 shellscript linux 命令并获取返回码读完之后article http www linuxprogrammingblog com threads a
ASP.NET Core 与现有的 IoC 容器和环境？

我想运行ASP NET 核心网络堆栈以及MVC在已托管现有应用程序的 Windows 服务环境中以便为其提供前端该应用程序使用 Autofac 来处理 DI 问题这很好因为它已经有一个扩展Microsoft Extensions D
SSL/TLS/HTTPS 站点在 C#/.NET WebBrowser 控件中非常慢，但在 Internet Explorer 中则很好

背景我正在修改自动维基浏览器 http en wikipedia org wiki Wikipedia AutoWikiBrowser使用托管在安全服务器上的 MediaWiki 站点我允许用户通过 C 应用程序中的 WebBrowse
C# 正则表达式用于查找中具有特定结尾的链接

我需要一个正则表达式模式来查找字符串带有 HTML 代码中的链接以获取文件结尾如 gif 或 png 的链接示例字符串 a href site com folder picture png target blank picture
劫持系统调用

我正在编写一个内核模块我需要劫持包装一些系统调用我正在暴力破解 sys call table 地址并使用 cr0 来禁用启用页面保护到目前为止一切顺利一旦完成我将公开整个代码因此如果有人愿意我可以更新这个问题无论如何
无法解析远程名称 - webclient

我面临这个错误 The remote name could not be resolved russgates85 001 site1 smarterasp net 当我请求使用 Web 客户端读取 html 内容时出现错误下面是我的代
OpenCV 2.4.3 中的阴影去除

我正在使用 OpenCV 2 4 3 最新版本使用内置的视频流检测前景GMG http docs opencv org modules gpu doc video html highlight gmg gpu 3a 3aGMG GPU算法
tabcontrol selectedindex 更改事件未被触发 C#

嘿伙计们我有一个很小的问题请参阅下面的代码 this is main load private void Form1 Load object sender EventArgs e tabAddRemoveOperator Selecte
为什么要在 C++ 中使用 typedef？

可以说我有 set
初始化 LPCTSTR /LPCWSTR [重复]

这个问题在这里已经有答案了我很难理解并使其正常工作基本上归结为我无法成功初始化这种类型的变量它需要有说的内容7 2E25DC9D 0 USB003 有人可以解释展示这种类型的正确初始化和类似的值吗我已查看此站点上的所有帮助将项目
从 Delphi 调用 C# dll

我用单一方法编写了 Net 3 5 dll 由Delphi exe调用不幸的是它不起作用步骤 1 使用以下代码创建 C 3 5 dll public class MyDllClass public static int MyDllMet
受限 AppDomain 中的代码访问安全异常

Goal 我需要在权限非常有限的 AppDomain 中运行一些代码它不应该访问任何花哨或不安全的内容 except对于我在其他地方定义的一些辅助方法我做了什么我正在创建一个具有所需基本权限的沙箱 AppDomain 并创建一个运行代
为什么文件更新时“如果较新则复制”不复制文件？

我在 Visual Studio Express 中有一个解决方案如下所示 The LogicSchemaC 中的类将在运行时解析指定的 XML 文件以下是在main的方法Program cs LogicSchema ls new L
以 UTF8 而不是 UTF16 输出 DataTable XML

我有一个 DataTable 我正在使用 WriteXML 创建一个 XML 文件尽管我在以 UTF 16 编码导出它时遇到问题并且似乎没有明显的方法来更改它我了解 NET 在字符串内部使用 UTF 16 这是正确的吗然后我通过

随机推荐

Kivy：加载长函数动画（避免冻结）

我有这样的问题我的应用程序在长函数期间冻结如果用户在加载过程中多次单击则会进行多次调用视觉上让它看起来很大 from kivymd app import MDApp from kivy lang import Builder fro
Asp.net MVC 中的 jquery 验证错误 - 无法获取属性“call”的值：对象为 null 或未定义

我尝试在客户端进行一些验证检查但我的 ASP NET MVC 应用程序甚至在打开索引页面之前就失败了我收到错误 Microsoft Jscript 运行时错误无法获取属性 call 的值对象为 null 或未定义下面是我的脚本我
如何使用同一模型的其他字段的值在 django 模型中创建字段？

我想创建一个字段名称 total其中有所有产品的总价数量我想要的是我该怎么做total price quantity在 Django 模型中正如您所看到的可以有不止一种产品我已通过 tabularinline 将 OderItem
Selenium Python 等待元素中出现文本错误显示需要 3 个参数 2 个给定

我正在使用 WebdriverWait 等待网页上的元素中出现某些文本我正在使用 Selenium 和 Python 我的语法不正确我收到错误类型错误 init 恰好需要 3 个参数给定 2 个错误跟踪 Traceback mos
使用单个字符串查找多个文件路径

我尝试编写一个批处理脚本来查找与输入字符串同名的文件的所有路径现在它只能找到找到的第一个文件我想不出一种方法让它列出多个文件位置我经验不足需要一些帮助这是脚本代码的一部分 start cls echo Enter file nam
SQL-在一个字段中选择与另一字段中记录最高的不同记录

在我有一个像这样的表的情况下 int id PK int staff id int skill id bit mainskill 我想为每位员工由 Staff id 表示仅选择一条记录列出他们的主要技能由 mainskill 中的
Visual Studio Code 中的 PHP 块快捷方式

如何在 Visual Studio Code 中打开基本 PHP 块如下所示 In Sublime Text https en wikipedia org wiki Sublime Text I simply type php and p
时间格式说明（Google Directions API）

我已阅读用于提出方向请求的 Google Directions API 文档 URL 的示例如下 http maps googleapis com maps api directions json origin Brooklyn desti
在 Laravel 中使用 Socialite 登录后重定向到 URL

我需要使用以下 URL 注册参加锦标赛 http laravel dev tournaments 1 register 该 URL 位于中间件 auth 中因此如果用户未登录他将被重定向到登录页面我需要的是重定向到 http lara
循环遍历多个 JObject 级别并将信息收集为字符串

我使用以下代码从 URL 收集 Json 数据 var json new WebClient DownloadString http steamcommunity com id tryhardhusky inventory json 753
使用 gdb 调试时彻底退出 valgrind

我正在使用 valgrind 和 gdb 调试程序然而我以一种野蛮的方式终止了这些调试会话这真的是它应该做的吗设置调试会话按照来自的指示valgrind 官方网站 http valgrind org docs manual man
如何显示文件解压进度？

我正在尝试找出一种方法来显示当前进度以及解压缩并将 zip 文件的内容写入磁盘的剩余时间我目前正在使用此处找到的 ZipArchiver 类http code google com p ziparchive http code googl
Python pandas 插入长整型

我正在尝试在 Pandas Dataframe 中插入长整数 import numpy as np from pandas import DataFrame data scores 6311132704823138710 273 26850
NEDB 文件存储在哪里？

var Datastore require nedb db new Datastore filename testdb db autoload true var doc hello world n 5 today new Date nedb
在 Google 电子表格上，如何称呼 IP 的城市、国家/地区？

我想知道是否有一个公式脚本可以在 Google 电子表格上使用来获取 IP 地址数组的城市位置也就是说假设 A 列上的每个单元格都有 100 个 IP 地址我应该在 B 列上使用什么公式脚本来获取各自的城市和位置最简单的方法是
Qt 调试器在 mac 上使用错误的 python 版本

我使用的是 macOS Mojave 10 14 6 我的Qt版本是5 13 1 我的 Qt Creator 版本是 4 10 0 当我设置断点并运行应用程序时调试器永远不会完成并打印到调试器日志并显示以下错误因此据我所知 lldb
iOS 复制和粘贴

我正在创建一个应用程序以便在我在 iOS 设备上复制某些内容时保存我复制的项目无论如何我是否可以创建一个事件以便每当我从 iOS 设备上的任何应用程序复制某些内容时它都会将其保存到我的应用程序中我希望它在我复制文本时触发以便将
是否可以使用前导和跟踪来设置 Android 字体样式？

android 字体样式中是否可以有以下内容 Leading http en wikipedia org wiki Leading 文本行之间的垂直空间名称来自于机械印刷过程中用于分隔文本行的物理铅片 Tracking http en w
什么是 Unicode、UTF-8 和 UTF-16？

Unicode 的基础是什么为什么需要 UTF 8 或 UTF 16 我在谷歌上研究过这个问题也在这里搜索过但我不清楚 In VSS https en wikipedia org wiki Microsoft Visual Sourc
cuda 共享内存 - 结果不一致

我正在尝试并行缩减以对 CUDA 中的数组求和目前我传递一个数组来存储每个块中元素的总和这是我的代码 include

cuda 共享内存 - 结果不一致

cuda 共享内存 - 结果不一致 的相关文章

随机推荐

热门标签

cuda 共享内存 - 结果不一致的相关文章