CUDA系列三：矩阵相乘

2023-11-19

本博文主要讲解下基于cuda的矩阵相乘，cuda特别擅长的就是矩阵乘法，而且也比较容易实现。通过矩阵乘法的实现，可以比较容易理解cuda的核心思想。网上也有很多基于cuda实现的矩阵乘法，但是感觉都不完成，要不就是有错，本文给出的代码都是经过验证可行的，希望能够帮助到大家。

矩阵乘法实现方式一：矩阵乘法的逐点实现方式，具体如下图所示

对应实现代码：

#include <stdio.h>
#include <stdlib.h>
#include <cuda_runtime.h>


__global__ void MatMul(int *M,int *N,int *P,int width)
{
	int x = threadIdx.x;
	int y = threadIdx.y;
	
	float Pervalue = 0;
	
	float elem1 = 0.0,elem2 = 0.0,value = 0.0;
	for(int i = 0;i < width;i++)
	{
		elem1 = M[y * width + i];//取M矩阵的一行
		elem2 = N[i * width + x];//取N矩阵的一列
		
		value += elem1 * elem2;//求和
	}
	
	P[y * width + x] = value;
}

int main()
{
	const int ND = 30;
	int a[ND][ND],b[ND][ND],c[ND][ND];
	int *M,*N,*P;
	
	int width = ND;
	int NUM = 900;
	dim3 blockSize(ND,ND);
	
	cudaEvent_t start,stop;
	float elapsedTime = 0;
	cudaEventCreate(&start);
	cudaEventCreate(&stop);
	
	//设备端内存分配
	cudaMalloc((void**)&M,ND * ND * sizeof(int));
	cudaMalloc((void**)&N,ND * ND * sizeof(int));
	cudaMalloc((void**)&P,ND * ND * sizeof(int));
	
	//初始化
	for(int i = 0;i < ND;i++)
	{
		for(int j = 0;j < ND;j++)
		{
			a[i][j] = 2;
			b[i][j] = 3;
		}
	}
	
	int Size = ND * ND;
	//数据拷贝，主机到设备
	cudaMemcpy(M,a,Size * sizeof(int),cudaMemcpyHostToDevice);
	cudaMemcpy(N,b,Size * sizeof(int),cudaMemcpyHostToDevice);
	
	cudaEventRecord(start,0);
	MatMul<<<1,blockSize>>>(M,N,P,width);//调用核函数
	cudaThreadSynchronize();
	cudaEventRecord(stop,0);
	cudaEventSynchronize(stop);
	cudaEventElapsedTime(&elapsedTime,start,stop);
	
	cudaMemcpy(c,P,Size * sizeof(int),cudaMemcpyDeviceToHost);
	
	printf("c0 = %d \n",c[0][0]);
	
	//释放设备内存
	cudaFree(M);
	cudaFree(N);
	cudaFree(P);
	
	return 0;
}

运行结果：

矩阵相乘实现方式二：矩阵乘法分块实现，具体如下图所示

具体代码实现：

#include <stdio.h>
#include <stdlib.h>
#include <cuda_runtime.h>


#define TILE_WIDTH 10

//核函数的具体实现
__global__ void matmul(int *M,int *N,int *P,int width)
{
	__shared__ float Mds[TILE_WIDTH][TILE_WIDTH];
	__shared__ float Nds[TILE_WIDTH][TILE_WIDTH];
	
	int bx = blockIdx.x;
	int by = blockIdx.y;
	int tx = threadIdx.x;
	int ty = threadIdx.y;
	
	int Col = bx * TILE_WIDTH + tx;
	int Row = by * TILE_WIDTH + ty;
	
	int Pervalue = 0;
	
	for(int i = 0;i < width / TILE_WIDTH;i++)  //有多少个TILE_WIDTH，每个循环计算一个块的大小
	{
		Mds[ty][tx] = M[Row * width + (i * TILE_WIDTH + tx)];
		Nds[ty][tx] = N[Col + (i * TILE_WIDTH + ty) * width];
		__syncthreads();
		
		
		for(int k = 0;k < TILE_WIDTH;k++) //TILE_WIDTH相乘
			Pervalue += Mds[ty][k] * Nds[k][tx];
		__syncthreads();
	}
	
	P[Row * width + Col] = Pervalue;
}


int main()
{
	const int Nd = 30;
	int Size = Nd * Nd;
	int *M,*N,*P;
	int width = Nd / 3;
	
	int a[Nd][Nd];
	int b[Nd][Nd];
	int c[Nd][Nd];
	
	//线程块以及线程的划分
	dim3 gridSize(Nd / width,Nd / width);
	dim3 blockSize(width,width);
	
	cudaEvent_t start,stop;
	float elapsedTime;
	cudaEventCreate(&start);
	cudaEventCreate(&stop);
	
	//设备内存分配
	cudaMalloc((void**)&M,Size * sizeof(int));
	cudaMalloc((void**)&N,Size * sizeof(int));
	cudaMalloc((void**)&P,Size * sizeof(int));
	
	//初始化
	for(int i = 0;i < Nd;i++)
	{
		for(int j = 0;j < Nd;j++)
		{
			a[i][j] = 2;
			b[i][j] = 3;
		}
	}
	
	//数据拷贝，主机到设备
	cudaMemcpy(M,a,Size * sizeof(int),cudaMemcpyHostToDevice);
	cudaMemcpy(N,b,Size * sizeof(int),cudaMemcpyHostToDevice);
	
	cudaEventRecord(start,0);
	matmul<<<gridSize,blockSize>>>(M,N,P,Nd); //调用核函数
	cudaThreadSynchronize();
	cudaEventRecord(stop,0);
	cudaEventSynchronize(stop);
	cudaEventElapsedTime(&elapsedTime,start,stop);
	
	
	cudaMemcpy(c,P,Size * sizeof(int),cudaMemcpyDeviceToHost);
	printf("c0 = %d\n",c[0][0]);
	
	
	cudaFree(M);
	cudaFree(N);
	cudaFree(P);
	
	return 0;
}

运行结果：

本文也参考了网上的一些资料，主要是做了一定的修改以及程序的完备，图片就直接网上copy的，水平有限，有不当之处，请指教，谢谢！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA C实践

CUDA系列三：矩阵相乘的相关文章

安装好后如何查看mysql/apache/nginx/php安装参数

查看mysql编译参数 cat usr local mysql bin mysqlbug grep CONFIGURE LINE 查看apache编译参数 cat apachehome build config nice 查看php编译参数
《机器学习》二刷超详细笔记

博主在4月学完西瓜书时一头雾水觉得还是一知半解 9月开学后上完了必修的 machine learning 课程并且自己编程实现了多种机器学习算法和论文复现后才对机器学习有一点了解现在再次翻阅西瓜书很多知识点看到都豁然开朗所以出
Debian 某些程序无法使用中文输入法设置方法

debian系统下发现某些程序不能写入中文下面是我解决的方法 sudo apt get install fcitx frontend qt5 1 我们可以通过在命令行下输入 dpkg L fcitx frontend qt5 1 修改配置
如何解决apt-get中Unmet dependencies. Try 'apt --fix-broken install' with no packages (or specify的问题

在Ubuntu中用apt get安装软件系统报出Unmet dependencies错误 Unmet dependencies Try apt fix broken install with no packages or specify
【Python-Anaconda】在anaconda中创建、激活虚拟环境；在anaconda中所创建的虚拟环境中安装OpenCv；如何在jupter notebook中使用所创建的虚拟环境

一在anaconda中创建虚拟环境 1 为什么要创建虚拟环境答为了避免库依赖冲突所以在安装pytorch tensflow等时最好创建虚拟环境进行安装 2 创建虚拟环境步骤 1 打开anaconda prompt 输入如下代码 co
基于AJAX技术提高搜索引擎排名

描述嵌入在你的web页面中的导航元素能够降低你的搜索引擎评价排名并且降低你的网站的响应性能本文作者想同你一起探讨如何使用AJAX技术来解决这两个问题许多设计良好的web站点都包含大量的与实际内容相联系的可导航信息用于导航的HTML标
【C++】抽象类

2023年8月25日周五上午目录声明抽象类抽象类的特点举例说明声明抽象类要在C 中声明一个抽象类要求类中至少有一个纯虚函数在C 中一个类如果包含至少一个纯虚函数那么这个类就被称为抽象类总结起来抽象类是一个包含至少一
了解如何在20分钟内创建您的第一个Angular应用

Angular is a JavaScript framework created my Misko Hevery and maintained by Google It s an MVC Model View Vontroller You
Verilog实现两路组相联cache

cache代码 timescale 1ns 1ps cache共32块分为16组每组2块即两路组相联 1块 4字 1字 4字节主存共1024块 4096个字主存地址共12位 1 0 为块内偏移 5 2 为组地址 11 6 为Tag
【MATLAB第43期】基于MATLAB的BO-NAR贝叶斯优化动态神经网络NAR时间序列股票预测模型

MATLAB第43期基于MATLAB的BO NAR贝叶斯优化动态神经网络NAR时间序列股票预测模型一效果展示二模型介绍 1 数据情况一列数据 499个值 ratio 0 9 训练集比例 MaxEpochs 600 最大训练次数
Fatal error in gc GetThreadContext failed bug 异常。

Fatal error in gc GetThreadContext failed PC unity5 3 4 c exe windows 废话不说网上各种回答是杀毒软件关闭但是需求不允许关闭其他只能从代码出发发现开个一个线程这
13 openEuler用户组管理

文章目录 13 1 创建用户组 13 1 1 groupadd命令 13 1 2 用户组信息文件 13 1 3 创建用户组实例 13 2 修改用户组 13 2 1 修改GID 13 2 2 修改用户组名 13 3 删除用户组 13 4 将用
DSS部署-11、Spark on Yarn部署

文章目录第七部分 Spark on Yarn部署相关配置操作记录如下 spark sql e show databases 第七部分 Spark on Yarn部署相关配置 tar xf spark 2 3 2 bin hadoop
数学表达式: 从恐惧到单挑 (7. min 与 argmin)

7 min 与 argmin min 和 argmin 在机器学习中常用 max 和 argmax 同理 7 1 min min 是 minimal 的缩写用于获得集合中的最小值如 min 3 1
螺旋矩阵，python实现

螺旋矩阵问题给定一个n阶正方形矩阵生成一个包含 1 到 n2 所有元素且元素按顺时针顺序螺旋排列的正方形矩阵力扣原题这个问题不涉及什么算法问题考察的就是个人对于代码的掌控和抽象螺旋矩阵长的是这个样子处理这个问题就得提到二分法
各操作系统下安装docker

1 查看服务器软硬件信息 1 1 判断操作系统类型操作系统基于发行版统信UOS Debian 银河麒麟 StartOS Debian openEuler CentOS 优麒麟 Ubuntu Kylin Ubuntu 中标麒麟 Kyli
Java算法题:两数之和

LeetCode原题给你一个下标从 1 开始的整数数组 numbers 该数组已按非递减顺序排列请你从数组中找出满足相加之和等于目标数 target 的两个数示例 1 输入 numbers 2 7 11 15 target 9 输出
STM32F103VG使用RTT实现发送DMX512调光数据

DMX512调光协议和DALI一样属于数字调光协议一个完整的DMX512数据包格式 1break 1mab 1startcode 512个调光数据 DMX512发送是基于485串口的基础上实现的特殊的数据协议使用RTT需要把串口打开并且
大话数据结构：线性表（顺序存储结构）

线性表零个或多个数据元素的有限序列直接前驱元素直接后继元素线性表的长度线性表元素的个数n 线性表的抽象数据类型 ADT线性表 list Data 线性表的数据对象集合为 a1 a2 an 每个元素的类型均为Datatype 其中

随机推荐

微软服务器的主要功能,数据库服务器主要功能

数据库服务器主要功能内容精选换一换 HANA全称High performanceAnalyticAppliance是由SAP开发的基于内存的面向行列存储的关系型数据库管理系统其作为数据库服务器的主要功能是根据应用程序的要求存储和检索
jdk17下载

官网下载 https download oracle com java 17 latest jdk 17 windows x64 bin zip
也想做一个绝地求生版的汽车控制移动，进来瞧瞧？（干货满满）

控制车子移动效果图附上 1 首先4个车轮复制一遍为车轮2备用 2 给车轮2全部添加wheel collider 只剩下车轮碰撞器和transform组件 3 给原版4个车轮添加脚本wheel 变量共有面板赋值依次添加车轮2里面的车轮c
c#图解教程和c#高级编程电子书链接

链接 https pan baidu com s 1y TM08JvyBh8kQ0v7uT5hg 提取码 b0cq
Python的多维空数组赋值

Python里面的list tuple默认都是一维的创建二维数组或者多维数组也是比较简单可以这样 list1 1 2 list1 append 3 4 可以这样 list2 1 2 3 4 还可以这样 list3 1 2 list3 i
android界面监控，防劫持

1 首先要对自己应用的activity建立一个白名单 2 权限
http协议从客户端提交数据给服务器并返回数据

老罗视频学习本例从客户端提交数据给服务器服务器接收到数据之后看是否匹配匹配返回字符串 login is success 失败返回 login is error 一客户端初始化url地址 private static String
Git如何比较不同分支的差异

前两天良许在做集成的时候碰到了一件闹心事事情是这样的良许的一位同事不小心把一个错误的 dev 分支 merge 到了 master 分支上导致了良许编译不通过于是我们需要将版本回退到 merge 之前的状态如果是下面这个状态
电子设计竞赛(三)-SPWM与PID

1 SPWM波调制技术逆变电路的控制方式主要是采用SPWM 正弦脉宽调制技术 IR2104控制开关管的通断来实现正弦调制 SPWM的基本思路是将一个正弦波按等宽间距分成N等份对于每一个波形以一个等面积的脉冲来对应使脉冲的中点与相应正弦
python3 hashlib库sha256、pbkdf2_hmac、blake2b基本用法

hashlib sha256 import hashlib x hashlib sha256 x update b asd print x 1 x hexdigest x hashlib sha256 x update asd encode
数据下载网站整理

数据十分重要如何找到理想的数据显得更重要了这里记录自己经过网上查询到的数据进行整理如果侵权请联系我删除再次感谢网友大佬们提供的资料 1 中国气象站点数据下载地址 https www resdc cn data aspx DAT
递归算法中的时间复杂度分析

对于一种算法的时间复杂度分析还是特别重要的在一些非递归算法中我们仅仅看运算次数最多的那一行代码可能执行多少次就可以实际就是看在循环中变量的变化但是对于递归算法中该怎么分析呢下面介绍几种递归函数中的算法时间复杂度分析的方法 0 递推
使用paramiko跨服务器传输文件/文件夹

一些概念 SSH Secure Shell 安全外壳协议是建立在应用层基础上的安全协议专为远程登录和其他网络服务提供安全性的协议 SFTP SSH 文件传输协议 Secret File Transfer Protocol SFTP 安全
window.location.href的用法

window location href的用法一前言二常见用例一前言 window location href 是一个用于获取当前页面 URL 或让浏览器跳转到新 URL 的重要方法是 window location 对象的属
【gis系列】等高线创建dem，以及高程分析，坡度分析，坡向分析

绝对原创首先我们要整理一份cad的文件格式这里我不说那么多就是在某某地图下载后方法很多可以通过qgis globalmapper来操作数据以及一些普通的地图软件直接生成这里呢然后进入cad 把里面的高程标注信息给删除掉图
机器学习资源大全

C 计算机视觉 CCV 基于C语言提供缓存核心的机器视觉库新颖的机器视觉库 OpenCV 它提供C C Python Java 以及 MATLAB接口并支持Windows Linux Android and Mac OS操作系统通
SD卡初始化以及命令详解

SD卡是嵌入式设备中很常用的一种存储设备体积小容量大通讯简单电路简单所以受到很多设备厂商的欢迎主要用来记录设备运行过程中的各种信息以及程序的各种配置信息很是方便有这样几点是需要知道的 SD 卡是基于 flash 的存储卡 S
Visual Studio 创建DLL 、LIB及调用

一前言在工程中经常会根据不同的场景需求将类封装成库文件以供他人使用那么如何利用VS进行库动态库的生成呢以下简要演示实现过程开发环境 VS2019 二生成DLL动态库 1 创建控制台工程添加类库函数 2 添加函数代码 d
vue打包及运行白屏，Android低版本适配

版本支持对于Android 4 X无法打开的问题具体表现 1 运行后低版本谷歌浏览器打开后白屏 2 打包后低版本Android系统打不开白屏打包前npm run build后低版本浏览器打开白屏如果低版本打开白屏那么打包后低版本A
CUDA系列三：矩阵相乘

本博文主要讲解下基于cuda的矩阵相乘 cuda特别擅长的就是矩阵乘法而且也比较容易实现通过矩阵乘法的实现可以比较容易理解cuda的核心思想网上也有很多基于cuda实现的矩阵乘法但是感觉都不完成要不就是有错本文给出的代码都是经

CUDA系列三：矩阵相乘

CUDA系列三：矩阵相乘 的相关文章

随机推荐

热门标签

CUDA系列三：矩阵相乘的相关文章