CUDA计算直方图(一)原子操作 atomicAdd

2023-11-07

参考: Shane Cook. CUDA Programming: A developer’s guide to parallel computing with GPUs

背景

计算直方图是图像处理和机器学习等常用的操作.
对于大数据集, 使用串行算法十分浪费时间.
这里使用CUDA来加速直方图的计算.
对于一个较大的整数数组, 值域0~255. 求取直方图.

使用CPU计算

void cpuHist(Cuda8u *pHist_data, Cuda32u* pBin_data, Cuda32u arraySize, Cuda32u binSize)
{
	for (Cuda32u i = 0; i < arraySize;i++)
	{
		if (pHist_data[i] < binSize)
		{
			pBin_data[pHist_data[i]]++;
		}
	}

}

main函数调用:

	// CPU 数据初始化
    const Cuda32u uArraySize = 256*256;
	const Cuda32u uBinSize = 256;
	Cuda8u *h_puchData = (Cuda8u *)malloc(uArraySize*sizeof(Cuda8u));
	for (int i = 0; i < uArraySize; i++)
	{
		h_puchData[i] = rand() % uBinSize;
	}
	Cuda32u h_puHist[uBinSize] = { 0 };
	Cuda32u N = 64;
	Cuda32u iIterNum = 10;
	// 使用CPU计算
	StartTimer();
	for (Cuda32u i = 0; i < iIterNum;i++)
	{
		cpuHist(h_puchData, h_puHist, uArraySize, uBinSize);
	}
	double dblTimeElps = GetTimer();
	Cuda32u iSumC = 0;
	for (Cuda32u i = 0; i < uBinSize; i++)
	{
		iSumC += h_puHist[i];
	}
	printf("\n%%%%%%%%%%%%%% CPU 计算直方图:%%%%%%%%%%%%%%\n");
	printf("序列长度 = %d\n", uArraySize);
	printf("重复次数 = %d\n", iIterNum);
	printf("Hist累计 = %d\n", iSumC / iIterNum);
	printf("平均用时 = %fms\n", dblTimeElps / (Cuda64f)iIterNum);
	printf("%%%%%%%%%%%%%% CPU 计算直方图:%%%%%%%%%%%%%%\n");

使用CUDA 原子操作atomicAdd

__global__ void myhistogram256Kernel_01(const Cuda8u *d_hist_data, Cuda32u *d_bin_data)
{
	const Cuda32u idx = blockIdx.x*blockDim.x + threadIdx.x;
	const Cuda32u idy = blockIdx.y*blockDim.y + threadIdx.y;
	const Cuda32u tid = idx + idy*blockDim.x*gridDim.x;

	const Cuda8u value = d_hist_data[tid];
	atomicAdd(&(d_bin_data[value]), 1);

}
void cudaHist_01(Cuda8u* d_puchData, Cuda32u *d_puHist)
{
	// 总的thread数量要和数组长度相同.
	dim3 thread_rect(16, 16);
	dim3 block_rect(16, 16);
	myhistogram256Kernel_01 << <block_rect, thread_rect >> >(d_puchData, d_puHist);
}

main函数调用:

	// 先将CPU里的数据搬移到GPU中!
	memset((void*)h_puHist, 0, uBinSize*sizeof(Cuda32u));
	Cuda8u * d_puchData = NULL;
	Cuda32u * d_puHist = NULL;
	checkCudaErrors(cudaMalloc((void**)&d_puchData, uArraySize*sizeof(Cuda8u)));
	checkCudaErrors(cudaMalloc((void**)&d_puHist, uBinSize*sizeof(Cuda32u)));
	checkCudaErrors(cudaMemcpy((void*)d_puchData, (void*)h_puchData, uArraySize*sizeof(Cuda8u), cudaMemcpyHostToDevice));
	checkCudaErrors(cudaMemcpy((void*)d_puHist, (void*)h_puHist, uBinSize*sizeof(Cuda32u), cudaMemcpyHostToDevice));
	// 预热
	cudaAdd();
	// 开始计时
	cudaEvent_t start, stop;
	Cuda32f elapsedTime = 0.0;
	cudaEventCreate(&start);
	cudaEventCreate(&stop);
	cudaEventRecord(start, 0);
	for (Cuda32u i = 0; i < iIterNum;i++)
	{
		// 求直方图
		//cudaHist_07((Cuda32u*)d_puchData, d_puHist, N);
		cudaHist_01(d_puchData, d_puHist);
	}
	// 结束计时
	cudaEventRecord(stop, 0);
	cudaEventSynchronize(stop);
	cudaEventElapsedTime(&elapsedTime, start, stop);
	cudaEventDestroy(start);
	cudaEventDestroy(stop);
	// 将GPU内的数据拷回CPU
	checkCudaErrors(cudaMemcpy((void*)h_puHist, (void*)d_puHist, uBinSize*sizeof(Cuda32u), cudaMemcpyDeviceToHost));
	iSumC = 0;
	for (Cuda32u i = 0; i < uBinSize; i++)
	{
		iSumC += h_puHist[i];
	}
	printf("\n%%%%%%%%%%%%%% CUDA 计算直方图:%%%%%%%%%%%%%%\n");
	printf("序列长度 = %d\n", uArraySize);
	printf("重复次数 = %d\n", iIterNum);
	printf("Hist累计 = %d\n", iSumC / iIterNum);
	printf("平均用时 = %f ms\n", elapsedTime / (Cuda32u)iIterNum);
	printf("%%%%%%%%%%%%%% CUDA 计算直方图:%%%%%%%%%%%%%%\n\n");
	// 释放资源
	checkCudaErrors(cudaFree((void*)d_puchData));
	checkCudaErrors(cudaFree((void*)d_puHist));

	cudaDeviceReset();

运行结果:
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

CUDA 编程

CUDA计算直方图(一)原子操作 atomicAdd 的相关文章

CUDA：如何直接在GPU上使用thrust::sort_by_key？ [复制]

这个问题在这里已经有答案了 Thrust 库可用于对数据进行排序该调用可能如下所示带有键和值向量 thrust sort by key d keys begin d keys end d values begin 在 CPU 上调用 d
估计 GPU 的 FLOPS 效率（CUDA 示例）

在我看来我并不完全理解 FLOPS 的概念在CUDA SAMPLES中有矩阵乘法示例 0 Simple matrixMul 在此示例中每个矩阵乘法的 FLOP 浮点运算数量通过以下公式计算 double flopsPerMatri
cudaGetDevice() 失败。状态：CUDA 驱动程序版本不足以满足 CUDA 运行时版本

当我在 GPU 中运行 TensorFlow 时出现以下错误 2018 09 15 18 56 51 011724 E tensorflow core common runtime direct session cc 158 Intern
cuda简单应用程序适用于32位而不适用于64位

我的简单 cuda helloworld 应用程序在 Windows 10 上使用 Visual Studio 2015 社区构建 32 位时运行良好但是如果我在 64 位中构建它则不会执行 GPU 特斯拉K40c 工具包 CUDA
CUDA - 为什么基于扭曲的并行减少速度较慢？

我有关于基于扭曲的并行减少的想法因为根据定义扭曲的所有线程都是同步的因此我们的想法是输入数据可以减少 64 倍每个线程减少两个元素而无需任何同步与 Mark Harris 的原始实现相同减少应用于块级数据位于共享内存上 h
如何获取要执行的 PTX 文件

我知道如何生成 ptx文件来自 cu以及如何生成 cubin文件来自 ptx 但我不知道如何获得最终的可执行文件更具体地说我有一个sample cu文件编译为sample ptx 然后我使用 nvcc 来编译sample ptx to
在 Windows 上的 Qt Creator 中编译 Cuda 代码

几天来我一直在尝试获取在 32 位 Windows 7 系统上运行的 Qt 项目文件我希望需要在其中包含 Cuda 代码这种组合要么非常简单以至于没有人愿意在网上放一个例子要么非常困难似乎没有人成功不管怎样我发现的唯一有用的
如何在 Linux 中分析 PyCuda 代码？

我有一个简单的经过测试的 pycuda 应用程序正在尝试对其进行分析我尝试过 NVidia 的 Compute Visual Profiler 它运行该程序 11 次然后发出以下错误 NV Warning Ignoring the
无法从静态初始化代码启动 CUDA 内核

我有一个在其构造函数中调用内核的类如下所示标量场 h include
如何在 Windows 上的 nvidia GPU 的 Visual Studio 2010 中配置 OpenCL？

我在华硕笔记本电脑上的 Wwindows 7 操作系统上使用 NVIDIA GeForce GTX 480 GPU 我已经为 CUDA 4 2 配置了 Visual Studio 2010 如何在 Visual Studio 2010 上为
某些子网格未使用 CUDA 动态并行执行

我正在尝试 CUDA 5 0 GTK 110 中的新动态并行功能我遇到了一个奇怪的行为即我的程序没有返回某些配置的预期结果不仅是意外的而且每次启动都会出现不同的结果现在我想我找到了问题的根源似乎当生成太多子网格时某些子网格由
如何用Go语言的cgo编译Cuda源码？

我用 cuda c 编写了一个简单的程序它可以在 eclipse nsight 上运行这是源代码 include
如何将CUDA时钟周期转换为毫秒？

我想用一些代码来测量时间within我的内核需要我已经关注了这个问题 https stackoverflow com questions 11209228 timing different sections in cuda kernel连
在 cuda 的 nvcc 编译器中使用 C++20

我正在尝试使用std countr zero 函数从
cuda cpu功能-gpu内核重叠

我在尝试开发以练习 CUDA 的 CUDA 应用程序时遇到并发问题我想通过使用 cudaMemecpyAsync 和 CUDA 内核的异步行为来共享 GPU 和 CPU 之间的工作但我无法成功重叠 CPU 执行和 GPU 执行它与主机
为什么numba cuda调用几次后运行速度变慢？

我正在尝试如何在 numba 中使用 cuda 然而我却遇到了与我预想不同的事情这是我的代码 from numba import cuda cuda jit def matmul A B C Perform square matrix m
在linux上编译一个基本的OpenCV + Cuda程序

我过去在linux上使用过opencv 但没有使用过cuda 几个月来我一直在与以下编译错误作斗争在尝试了许多解决方案后我放弃并使用 Windows 不过我真的很想在 Linux 上工作这是我用来编译 opencv gpu 网站上给
Yocto for Nvidia Jetson 由于 GCC 7 而失败 - 无法计算目标文件的后缀

我正在尝试将 Yocto 与 meta tegra 一起使用 https github com madisongh meta tegra https github com madisongh meta tegra 为 Nvidia Jets
加速Cuda程序

要更改哪一部分来加速此代码代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C

随机推荐

Mac系统创建python3.7虚拟环境

mac系统python3 7安装虚拟环境什么叫虚拟环境呢 python特有的一种软件环境创建多个python环境各个环境之间完全隔离互不影响它可以用来解决Python项目开发和运行过程中的依赖项和版本问题而不必和其他项目的Pyt
dfs找不到网络路径 windows_DFS 复制服务已启动位于本地路径 C:\WINDOWS\SYSVOL\domain 上的 SYSVOL，并正在...

公司新建域控由于分公司需要辅助域控就新建了一台额外域控但是该域控建好后发现组策略不生效检查sysvol文件夹一片空白肯定是没有从主域控复制过来使用dcdiag检查有下面报错目录服务器诊断正在执行初始化设置正在尝试查找主服务
Android -- Activity and Intent

Android Activity and Intent Activity Activity Lifecycle Intent 显式Intent 隐式Intent Intent属性 Intent Examples Activity activ
OpenCV计算机视觉学习（3）——图像灰度线性变换与非线性变换（对数变换，伽马变换）

人工智能学习离不开实践的验证推荐大家可以多在FlyAI AI竞赛服务平台多参加训练和竞赛以此来提升自己的能力 FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台每周免费提供项目开源算法样例支持算法能力变现以及快
阿里云日志服务接入

目前项目中都有用到日志记录一般会存到本地但是时间长了去删除也是很麻烦的阿里云日志服务是个不错的选择可分为两种自动采集和自动上传到云 1 写文件到本地然后配置让阿里云自动采集 LogHub 支持客户端网页协议 SDK A
JVM垃圾收集器总结

JVM的垃圾收集算法最终是要由垃圾收集器实现的不同厂商不同版本的虚拟机的垃圾收集器实现差别很大本文只介绍HotSpot中的垃圾收集器包括串行收集器并行收集器新生代Parallel Scavenge收集器 CMS G1 一整
FLOYD算法

1 定义概览 Floyd Warshall算法 Floyd Warshall algorithm 是解决任意两点间的最短路径的一种算法可以正确处理有向图或负权的最短路径问题同时也被用于计算有向图的传递闭包 Floyd Warshall算
开启IIS，“出现错误,并非所有功能被成功更改”

环境 Windows7 Ultimate 事件测试需要要在自己的计算机上搭建临时IIS 在打开或关闭windows功能里开启了相关组件及功能确定应用后提示出现错误并非所有功能被成功更改解决网上查阅相关资料后众说纷纭后来在
Java将一段逗号分割的字符串转换成一个数组(亲测)

String 类 String 类代表字符串 Java 程序中的所有字符串字面值都作为此类的实例实现字符串是常量它们的值在创建之后不能更改字符串缓冲区支持可变的字符串因为 String 对象是不可变的所以可以共享 String
关于命令行中不能运行pip程序和python程序

大多数都是没有将pip程序和python程序下载的路径添加到环境变量 1 添加pip的环境变量 2 添加pythn的环境变量小心不要添加成了python快捷方式的环境变量我一开始就添加的是python快捷方式的变量结果一直以为是添加的
checkbox的value和checked属性详解

一 checked属性 checked属性代表的是当前checkbox是否被选中如果选中返回true 未选中返回false 和value值无关 p p
hive环境配置

记录一下hive环境 Mac m1 的配置过程以防忘记可能遇到的问题 1 安装hadoop 1 首先安装hadoop brew install Hadoop arch x86 64 brew install Hadoop for M1
Pycharm安装教程

个人简介作者简介大家好我是W chuanqi 一个编程爱好者个人主页 W chaunqi 支持我点赞收藏留言愿你我共勉若身在泥潭心也在泥潭则满眼望去均是泥潭若身在泥潭而心系鲲鹏则能见九万里天地文章目录 Pych
python笔记10--pyinstaller打包源码

python笔记10 pyinstaller打包源码 1 介绍 2 用法 3 常见问题 4 说明 1 介绍本文主要介绍使用pyinstaller打包py脚本为可执行程序后续会在此处续更其它复杂案例 2 用法安装由于当前主流使用py3
MES管理系统：实现两化融合的关键业务融合点

随着中国经济的快速发展两化融合已成为推动企业转型升级的重要手段在这个过程中 MES作为面向生产级的管理系统扮演着至关重要的角色本文将探讨MES生产管理系统如何实现业务融合并为企业带来丰厚的经济效益首先让我们回顾一下MES系统的
面试官：你在xx项目中有哪些亮点或是贡献亦或是小技巧？

前言面试官你在xx项目中有哪些亮点或是贡献亦或是小技巧我阿巴阿巴卡停一下你是不是也有相同或者类似的经历实际大部分同学们多数情况下都是在使用vue或react去实现业务代码跟业务代码打交道比较多每当面试官一问起还真是说不
Qt removeOne函数解析

如下使用removeOne是否会导致空指针呢 include
Google Play 上架总结（二）Google账户关联详解

近期本人在 App 上架Google Play 过程中频繁遇到账号被关联封禁在踩过很多坑后我觉得有必要总结一下给其它朋友作为参考一 Google 账户关联是指什么账户关联是就是当Google开发者账号因为各种原因被封停了此时
从哈佛1000多页的课程名单里，我看到了何谓“大学”

从哈佛1000多页的课程名单里我看到了何谓大学 2017 02 24 22 11 39 来源齐鲁壹点山东举报分享到易信微信 QQ空间微博原标题从哈佛1000多页的课程名单里我看到了何谓大学我相信大学精神的本质
CUDA计算直方图(一)原子操作 atomicAdd

参考 Shane Cook CUDA Programming A developer s guide to parallel computing with GPUs 目录背景使用CPU计算使用CUDA 原子操作atomicAdd 背景

CUDA计算直方图(一)原子操作 atomicAdd

目录

背景

使用CPU计算

使用CUDA 原子操作atomicAdd

CUDA计算直方图(一)原子操作 atomicAdd 的相关文章

随机推荐

热门标签