cuda求矩阵每一行最大值

2023-11-18

2、完成一个尺寸512*512的二维数组的每一行最大值的并行程序实现数据类型设置为float。需要完成4个版本。
（1）不使用共享内存，只使用全局内存；采用具有分支发散的并行归约;

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <stdio.h>
#include <stdlib.h>
#define index 512
# define TILE_WIDTH 2

__global__ void  calcSum(float* AA, int Width)
{
	unsigned int tid = threadIdx.x;
	int Row = blockIdx.x * blockDim.x + threadIdx.x;
	for (unsigned int stride = 1;stride < blockDim.x; stride *= 2)
	{
		__syncthreads();
		if (tid % (2 * stride) == 0 && AA[Row + stride] > AA[Row])
				AA[Row] = AA[Row + stride];
	}
}

int main()
{
	cudaError_t cudaStatus = cudaSuccess;
	//初始化cpu矩阵
	int Ndim = 0, Pdim = 0, Width = 0;
	Ndim = Pdim = Width = index;
	int szA = Ndim * Pdim;
	float* A, * AA;
	A = (float*)malloc(szA * sizeof(float));
	int i;//初始化矩阵，可改为学号
	for (i = 0; i < szA; i++)
		A[i] = i+1;
	cudaStatus = cudaMalloc((void**)&AA, szA * sizeof(float));
	if (cudaStatus != cudaSuccess) {
		fprintf(stderr, "cudaMalloc1 failed!");
	}
	cudaStatus = cudaMemcpy(AA, A, szA * sizeof(float), cudaMemcpyHostToDevice);
	if (cudaStatus != cudaSuccess) {
		fprintf(stderr, "cudaMemcpy1 failed!");
	}
	dim3 dimGrid=index;
	dim3 dimBlock=index;
	calcSum << <dimGrid, dimBlock >> > (AA, Width);
	if (cudaStatus != cudaSuccess) {
		fprintf(stderr, "calcSum failed!");
		return 1;
	}
	cudaStatus = cudaDeviceSynchronize();
	if (cudaStatus != cudaSuccess) {
		fprintf(stderr, "cudaDeviceSynchronize returned error code %d after launching addKernel!\n", cudaStatus);
	}
	// Copy output vector from GPU buffer to host memory.
	cudaStatus = cudaMemcpy(A, AA, szA * sizeof(float), cudaMemcpyDeviceToHost);
	if (cudaStatus != cudaSuccess) {
		fprintf(stderr, "cudaMemcpy failed!");
	}
	//打印
	for (int i = 0; i < szA; i += Width)
		printf("The RoWmax is :%.1f\n", A[i]);
	printf("\nArray A:\n");
	for (i = 0; i < Ndim; i++) {
		for (int j = 0; j < Pdim; j++)
			printf("%.1f\t", A[i * Pdim + j]);
		printf("\n");
	}
	cudaFree(AA);
	free(A);
	return 0;
}

（2）不使用共享内存，只使用全局内存；采用无分支发散的并行归约;
注：与上题一样，只是核函数改变

__global__ void  calcSum(float* AA, int Width)
{
	unsigned int tid = threadIdx.x;
	int Row = blockIdx.x * blockDim.x + threadIdx.x;
	for (unsigned int stride = blockDim.x/2; stride > 0; stride >>= 1)
	{
		__syncthreads();
		if (tid < stride&& AA[Row + stride] > AA[Row])
				AA[Row] = AA[Row + stride];
	}
}

（2）使用共享内存；采用具有分支发散的并行归约;

（3）	#include "cuda_runtime.h"
（4）	#include "device_launch_parameters.h"
（5）	#include <stdio.h>
（6）	#include <stdlib.h>
（7）	#define index 512
（8）	# define TILE_WIDTH 2
（9）	
（10）	__global__ void  calcSum(float* AA, int Width)
（11）	{
（12）		__shared__ float middleware[index];//申请共享内存存放，数据不是很大情况下，不分块，可以直接存放每一个块的一行数据
（13）		unsigned int tid = threadIdx.x;
（14）		int Row = blockIdx.x * blockDim.x + threadIdx.x;
（15）		middleware[tid] = AA[Row];
（16）		for (unsigned int stride = 1; stride < blockDim.x; stride *= 2)
（17）		{
（18）			__syncthreads();
（19）			if (tid % (2 * stride) == 0 && middleware[tid+ stride] > middleware[tid])
（20）				middleware[tid] = middleware[tid + stride];
（21）		}
（22）		if (tid == 0)AA[Row] = middleware[0];//最大值放在数组第一个元素中
（23）	}
（24）	
（25）	int main()
（26）	{
（27）		cudaError_t cudaStatus = cudaSuccess;
（28）		//初始化cpu矩阵
（29）		int Ndim = 0, Pdim = 0, Width = 0;
（30）		Ndim = Pdim = Width = index;
（31）		int szA = Ndim * Pdim;
（32）		float* A, * AA;
（33）		A = (float*)malloc(szA * sizeof(float));
（34）		int i;
（35）		**//初始化矩阵，可改为学号**
（36）		for (i = 0; i < szA; i++)
（37）			A[i] = i+1;
（38）		cudaStatus = cudaMalloc((void**)&AA, szA * sizeof(float));
（39）		if (cudaStatus != cudaSuccess) {
（40）			fprintf(stderr, "cudaMalloc1 failed!");
（41）		}
（42）		cudaStatus = cudaMemcpy(AA, A, szA * sizeof(float), cudaMemcpyHostToDevice);
（43）		if (cudaStatus != cudaSuccess) {
（44）			fprintf(stderr, "cudaMemcpy1 failed!");
（45）		}
（46）		dim3 dimGrid = index;
（47）		dim3 dimBlock = index;
（48）		calcSum << <dimGrid, dimBlock >> > (AA, Width);
（49）		if (cudaStatus != cudaSuccess) {
（50）			fprintf(stderr, "calcSum failed!");
（51）			return 1;
（52）		}
（53）		cudaStatus = cudaDeviceSynchronize();
（54）		if (cudaStatus != cudaSuccess) {
（55）			fprintf(stderr, "cudaDeviceSynchronize returned error code %d after launching addKernel!\n", cudaStatus);
（56）		}
（57）		// Copy output vector from GPU buffer to host memory.
（58）		cudaStatus = cudaMemcpy(A, AA, szA * sizeof(float), cudaMemcpyDeviceToHost);
（59）		if (cudaStatus != cudaSuccess) {
（60）			fprintf(stderr, "cudaMemcpy failed!");
（61）		}
（62）		//打印
（63）		for (int i = 0; i < szA; i += Width)
（64）			printf("The RoWmax is :%.1f\n", A[i]);
（65）		printf("\nArray A:\n");
（66）		for (i = 0; i < Ndim; i++) {
（67）			for (int j = 0; j < Pdim; j++)
（68）				printf("%.1f\t", A[i * Pdim + j]);
（69）			printf("\n");
（70）		}
（71）		cudaFree(AA);
（72）		free(A);
（73）		return 0;
（74）	}

（4）使用共享内存，采用无分支发散的并行归约;
注：核函数改变，截图如上

__global__ void  calcSum(float* AA, int Width)
{
	__shared__ float middleware[index];//申请共享内存存放，数据不是很大情况下，不分块，可以直接存放每一个块的一行数据
	unsigned int tid = threadIdx.x;
	int Row = blockIdx.x * blockDim.x + threadIdx.x;
	middleware[tid] = AA[Row];
	for (unsigned int stride = blockDim.x; stride > 0; stride >>= 1)
	{
		__syncthreads();
		if (tid < stride && middleware[tid + stride] > middleware[tid])
			middleware[tid] = middleware[tid + stride];
	}
	if (tid == 0)AA[Row] = middleware[0];//最大值放在数组第一个元素中
}

测试16*16时结果是否正确：
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

GPU

并行计算

cuda求矩阵每一行最大值的相关文章

Tensorflow 2：如何在 GPU 和 CPU 之间切换执行？

In tensorflow1 X 独立keras2 X 中我曾经使用以下代码片段在 GPU 上的训练和 CPU 上运行推理之间切换由于某种原因我的 RNN 模型速度要快得多 keras backend clear session de
为什么 PyTorch nn.Module.cuda() 不将模块张量移动到 GPU，而仅将参数和缓冲区移动到 GPU？

nn Module cuda 将所有模型参数和缓冲区移动到 GPU 但为什么不是模型成员张量呢 class ToyModule torch nn Module def init self gt None super ToyModule se
用于类型比较的 Boost 静态断言

以下问题给我编译器错误我不知道如何正确编写它 struct FalseType enum value false struct TrueType enum value true template
带 GPU 的 Lightgbm 分类器

model lgbm LGBMClassifier n estimators 1250 num leaves 128 learning rate 0 009 verbose 1 使用 LGBM 分类器现在有没有办法通过 GPU 来使用它
Tensorflow：如何在模型训练过程中实时监控 GPU 性能？

我是 Ubuntu 和 GPU 新手最近在我们的实验室中使用了一台配备 Ubuntu 16 04 和 4 个 NVIDIA 1080ti GPU 的新 PC 该机还拥有i7 16核处理器我有一些基本问题为 GPU 安装 Tensorf
cudaMemcpyToSymbol 的问题

我正在尝试复制到恒定内存但我不能因为我对 cudaMemcpyToSymbol 函数的用法有误解我正在努力追随this http developer download nvidia com compute cuda 4 1 rel t
当我有表面声明时，如何为 sm_1X 和 sm_2X 编译 CUDA 程序

我正在编写一个使用表面重新采样并写入纹理来提高性能的库 surface
Visual Studio - 过滤掉 nvcc 警告

我正在编写 CUDA 程序但收到令人讨厌的警告 Warning Cannot tell what pointer points to assuming global memory space 这是来自 nvcc 我无法禁用它有没有办法过
如何优化这个 CUDA 内核

我已经分析了我的模型似乎该内核约占我总运行时间的 2 3 我一直在寻找优化它的建议代码如下 global void calcFlux double concs double fluxes double dt int idx blockI
仅使用 CUDA 进行奇异值计算

我正在尝试使用新的cusolverDnSgesvdCUDA 7 0 用于计算奇异值的例程完整代码如下 include cuda runtime h include device launch parameters h include
运行时 API 应用程序中的 cuda 上下文创建和资源关联

我想了解如何在 cuda 运行时 API 应用程序中创建 cuda 上下文并与内核关联我知道这是由驱动程序 API 在幕后完成的但我想了解一下创作的时间线首先我知道 cudaRegisterFatBinary 是第一个 cuda a
CUDA线程执行顺序

我有一个 CUDA 程序的以下代码 include
DirectX 世界视图矩阵乘法 - GPU 或 CPU 的地方

我是 directx 的新手但令我惊讶的是我看到的大多数示例中世界矩阵和视图矩阵都是作为顶点着色器的一部分相乘而不是与 CPU 相乘并将结果传递给着色器对于刚性对象这意味着您为对象的每个顶点将相同的两个矩阵相乘一次我知道 GP
无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx
NvCplGetThermalSettings 返回 false

问题您好我正在尝试使用 Delphi 获取 nividia gtx 980 的 GPU 温度我看过C 问题他的解决方案是不使用nvcpl dll 我认为这不是正确的解决方案因为 nivida 有完整的文档说明如何处理 API 见下
Yocto for Nvidia Jetson 由于 GCC 7 而失败 - 无法计算目标文件的后缀

我正在尝试将 Yocto 与 meta tegra 一起使用 https github com madisongh meta tegra https github com madisongh meta tegra 为 Nvidia Jets
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部主上下文被压入堆栈事实上这似乎是不一致的我编写了这个程序在具有单个设备的机器上运行 i
cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
CUDA、NPP 滤波器

CUDA NPP 库支持使用 nppiFilter 8u C1R 命令过滤图像但不断出现错误我可以毫无问题地启动并运行 boxFilterNPP 示例代码 eStatusNPP nppiFilterBox 8u C1R oDeviceS

随机推荐

Python3使用urllib访问网页

介绍改教程翻译自python官网的一篇文档 urllib request是一个用于访问URL 统一资源定位符的Python模块它以urlopen函数的形式提供了一个非常简单的接口可以访问使用多种不同协议的URL 它也提供了一个稍微复
通过Nginx(basic auth)实现Prometheus账号密码登录

一原因因客户Red Hat 7 5服务器安装部署grafana无法添加prometheus数据源以及无法修改初始密码为确保环境访问安全特别研究通过账号密码认证访问prometheus 搜索了很多资料但都缺这缺那所以我这里记录下
AppStore 提审时的“出口合规证明”处理

对于加密的管理 Apple不比之前严格了一般选否也能通故审核每次提交审核的时候都会让确认是否使用了Apple以的加密算法在窗口提示了我们可以看到可以在Xcdoe的info plist文件中增加App Uses Non Exemp
众多Android 开源项目推荐，给力工作给力学习

FBReaderJ FBReaderJ用于Android平台的电子书阅读器它支持多种电子书籍格式包括 oeb ePub和fb2 此外还支持直接读取zip tar和gzip等压缩文档项目地址 http www fbreader org F
jFinal框架下controller接参

一表单参数 1 前端 contentType x www form urlencoded 2 apipost接口测试 3 controller接参 1 注解 getPara获取参数 2 注解默认参数若方法的参数名为注解名则jFina
Python 基础知识

进阶选手 Python 进阶知识 Aimin20210819的博客关注VXG AIMIN2020 更多目录 1 Python 是怎么理解 2 Python数据类型四种数据类型
在Firefox浏览器中导入Burp Suite证书

在日常的渗透中经常就是在浏览器用bp来抓包在配置完浏览器的代理的时候就会涉及CA证书问题在设置完代理后再访问百度时就会出现如下图的问题第一步导出证书打开burp suite 找到代理 Proxy 在选择选项 Option
指针加法：c = (int *) ((char *) c + 1)与 c=c+1 的区别

示例代码 include
Qt通过QSttings类读取*.ini配置文件

目录 ini文件什么是ini文件格式需要的参数需要了解的API 单例单线程实例多线程实例设计一个读取ini文件的类 AppSettings类 ini文件什么是ini文件 INI Initialization File 是微软
DTO和POJO实体类之间值映射

package cn test util import java lang reflect Method import java util List public class AutoMapper public static
Git：Git中的远程操作和标签管理--分布式版本控制系统

文章目录理解分布式版本控制系统克隆仓库远程推送拉取远程仓库配置Git 标签管理本篇主要总结关于Git中远程操作的相关事项理解分布式版本控制系统在进行远程操作前首先要理解什么是分布式版本控制系统理解这个问题时要思考这样的问
从均值方差到有效前沿

这篇文章的主要目的是介绍有效前沿这个理论工具和分析框架我们由均值方差分析展开逐步推演到有效前沿然后我们又说到有效前沿在投资或者量化中的应用场景最后我们也总结了有效前沿的一些问题尤其是敏感性问题在教程中特意加入了一些实验代码
学习日记——物联网云平台组件（云消息的后续处理）

百度云物联网组件图设备通过MQTT等协议将数据上报到百度云平台百度云通过主题来将设备分发给其他设备并且可以通过规则引擎来将数据发送给时序数据库对象存储等等其他云服务来实现我们想要的各种功能规则引擎一规则引擎简介使用规则引擎功
[qiankun]实战问题汇总

qiankun 实战问题汇总 ERROR SyntaxError Cannot use import statement outside a module 问题分析解决方案子应用命名问题问题分析解决方案 jsonpFunction
你的Siri收集了你的个人数据？联邦学习介绍

MIT Technology Review Apple Siri 这是 MIT Technology Review 12月11日的 Newsletter 的部分摘录大概意思是 iPhone 上的 Siri 在听到我们个人说 Hey Sir
集群分布式quartz的需要的表

集群分布式quartz的需要的表集群分布式quartz一共需要的11张表 select from QRTZ FIRED TRIGGERS select from QRTZ PAUSED TRIGGER GRPS select from Q
NDK错（二）

提示 No version of NDK matched the requested version 21 0 6113669 Versions available locally 22 1 7171670 23 0 7421159 方案一
用执行计划看SQL的索引命中情况

SQL Server查询超时用执行计划看SQL的索引命中情况从SQL Server查询语句查询超时需要优化以下只优化方案之一仅供参考选中某段SQL后按CTRL L 查看执行计划找出哪些表用了全局查询选中某表按ALT F1
数据结构(2)时间复杂度——渐进时间复杂度、渐进上界、渐进下界

目录 2 1 概述 2 2 时间复杂度的计算 2 2 1 渐进复杂度 2 2 2 渐进上界 2 2 3 渐进下届 2 2 4 复杂度排序 2 2 5 举几个例子 2 1 概述算法的基本定义求解问题的一系列计算或者操作衡量算法性能的指标
cuda求矩阵每一行最大值

2 完成一个尺寸512 512的二维数组的每一行最大值的并行程序实现数据类型设置为float 需要完成4个版本 1 不使用共享内存只使用全局内存采用具有分支发散的并行归约 include cuda runtime h include d

cuda求矩阵每一行最大值

cuda求矩阵每一行最大值 的相关文章

随机推荐

热门标签

cuda求矩阵每一行最大值的相关文章