矩阵乘法——基于GPU的并行编程模型CUDA程序设计

2023-11-11

矩阵乘法——基于GPU的并行编程模型CUDA程序设计

在这里插入图片描述

1 题目描述

题目1:编写一个矩阵乘法的GPU并行程序,并且与对应规模的串行程序进行运行时间的比对(n=500,1000,1500,2000,3000,5000),画出规模和时间对比图。
矩阵A(n,n)
矩阵B(n,n)
C = A x B
要求:
  1、完成程序的开发并验证其正确性,完成一个实验报告(程序源代码、变量和语句的详细说明;
  2、在实验报告中通过图表说明CPU串行和GPU并行在各种规模的运行时间;
  3、在实验报告中通过图表说明GPU并行不同的数据分配在各种规模的运行时间

2 设计思路

  CPU串行程序:对于矩阵A(n,n),矩阵B(n,n)做矩阵乘运算得到C = A x B。矩阵乘的基本操作为:元素Cij=A的第i行x B的第j列。所以我们通过三层for循环嵌套来计算矩阵的乘法。

  CUDA并行程序:矩阵相乘过程中,结果矩阵C中的每个元素都是可以独立计算的,即彼此之间并无依赖性。所以我们可以让矩阵C中的每个元素都有一个单独的线程去计算,这样将会显著地提高矩阵相乘的计算效率。但是实际中通常不可能有像矩阵元素那么多的线程和处理器资源,这时我们就应该把矩阵分块,分成一个个的子矩阵,让每个线程去计算每个子矩阵,最后再把每个线程得到的结果组合起来就可以得到矩阵相乘的最终结果。

实验环境

操作系统:Windows10
开发环境:Visual Studio 2019 + CUDA Toolkit 11.0

3 源码

3.1 串行程序

矩阵乘法的CPU程序

#include <iostream>
#include <stdio.h>
#include <stdlib.h>
#include <iomanip>
#include "ctime"
#include "cuda_runtime.h"
#include "device_launch_parameters.h"

using namespace std;

#define MATRIX_SIZE 500
//构造矩阵
void BuildMatrix(float* a, int n) {
    for (int i = 0; i < n * n; i++) {
        a[i] = 2.0;
    }
    return;
}

//输出矩阵
void printfMatrix(float* a, int n) {
    for (int i = 0; i < n * n; i++) {
        printf("%lg\t", a[i]);
        if ((i + 1) % n == 0)
            printf("\n");
    }
    return;
}


int main() {
    float* a, * b, * c, * d;
    int n = MATRIX_SIZE;
    //分配内存
    a = (float*)malloc(sizeof(float) * n * n);
    b = (float*)malloc(sizeof(float) * n * n);
    c = (float*)malloc(sizeof(float) * n * n);
    d = (float*)malloc(sizeof(float) * n * n);

    BuildMatrix(a, n);
    BuildMatrix(b, n);
    //printfMatrix(a, n);
    //printfMatrix(b, n);

    /*CPU矩阵乘法,存入矩阵d*/
    //cpu计时开始
    cudaEvent_t cpustart, cpustop;
    float cpuelapsedTime = 0.0;
    cudaEventCreate(&cpustart);
    cudaEventCreate(&cpustop);
    cudaEventRecord(cpustart, 0);

    clock_t begin_time, end_time;

    for (int i = 0; i < n; i++) {
        for (int j = 0; j < n; j++) {
            double t = 0;
            for (int k = 0; k < n; k++) {
                t += a[i * n + k] * b[k * n + j];
            }
            d[i * n + j] = t;
        }
    }


    //cpu计时结束
    cudaEventRecord(cpustop, 0);
    cudaEventSynchronize(cpustop);
    cudaEventElapsedTime(&cpuelapsedTime, cpustart, cpustop);
    cudaEventDestroy(cpustart);    
    cudaEventDestroy(cpustop);

    double cputime = cpuelapsedTime;

   cout << setiosflags(ios::fixed) << setprecision(6) << "CPU time: " << (cputime) / 1000 << " s" << endl;

    return 0;
}

3.2 并行程序

矩阵乘法的GPU程序并用CPU计算结果进行结果检验

#include <iostream>
#include <stdio.h>
#include <stdlib.h>
#include<iomanip>
#include "cuda_runtime.h"
#include "device_launch_parameters.h"

using namespace std;

#define THREAD_NUM 256
#define MATRIX_SIZE 500

const int blocks_num = (MATRIX_SIZE * MATRIX_SIZE + THREAD_NUM - 1) / THREAD_NUM;

//构造矩阵
void BuildMatrix(float* a, int n)
{
	for (int i = 0; i < n * n; i++)
	{
		a[i] = 2.0;
	}
	return;
}
//输出矩阵
void printfMatrix(float* a, int n) {
	for (int i = 0; i < n * n; i++) {
		printf("%lg\t", a[i]);
		if ((i + 1) % n == 0)
			printf("\n");
	}
	return;
}


// __global__ 函数 并行计算矩阵乘法
__global__ static void matMultCUDA(const float* a, const float* b, float* c, int n)
{

	//表示目前的 thread 是第几个 thread(由 0 开始计算)线程
	const int tid = threadIdx.x;
	//表示目前的 thread 属于第几个 block(由 0 开始计算)块
	const int bid = blockIdx.x;
	//从 bid 和 tid 计算出这个 thread 应该计算的 row 和 column
	const int idx = bid * THREAD_NUM + tid;
	const int row = idx / n;
	const int column = idx % n;

	//计算矩阵乘法
	if (row < n && column < n)
	{
		float t = 0;
		for (int i = 0; i < n; i++)
		{
			t += a[row * n + i] * b[i * n + column];
		}
		c[row * n + column] = t;
	}
	return;
}

int main()
{
	float* a, * b, * c, * d;
	int n = MATRIX_SIZE;
	//分配内存
	a = (float*)malloc(sizeof(float) * n * n);
	b = (float*)malloc(sizeof(float) * n * n);
	c = (float*)malloc(sizeof(float) * n * n);
	d = (float*)malloc(sizeof(float) * n * n);

	BuildMatrix(a, n);
	BuildMatrix(b, n);
	//printfMatrix(a, n);
	//printfMatrix(b, n);

	/*CUDAgpu并行开始 a*b=c */
	//cudaMalloc 取得一块显卡内存
	float* cuda_a, * cuda_b, * cuda_c;
	cudaMalloc((void**)&cuda_a, sizeof(float) * n * n);
	cudaMalloc((void**)&cuda_b, sizeof(float) * n * n);
	cudaMalloc((void**)&cuda_c, sizeof(float) * n * n);
	//cudaMemcpy 将产生的矩阵复制到显卡内存中:cudaMemcpyHostToDevice - 从内存复制到显卡内存,cudaMemcpyDeviceToHost - 从显卡内存复制到内存
	cudaMemcpy(cuda_a, a, sizeof(float) * n * n, cudaMemcpyHostToDevice);
	cudaMemcpy(cuda_b, b, sizeof(float) * n * n, cudaMemcpyHostToDevice);

	//CUDA计时开始
	cudaEvent_t gpustart, gpustop;
	float gpuelapsedTime = 0.0;
	cudaEventCreate(&gpustart);
	cudaEventCreate(&gpustop);
	cudaEventRecord(gpustart, 0);

	// 在CUDA 中执行函数 语法:函数名称<<<block 数目, thread 数目>>>(参数...);
	matMultCUDA << < blocks_num, THREAD_NUM >> > (cuda_a, cuda_b, cuda_c, n);
	cudaDeviceSynchronize();//同步CPU和gpu,否则测速结果为cpu启动内核函数的速度

	//CUDA计时结束
	cudaEventRecord(gpustop, 0);
	cudaEventSynchronize(gpustop);
	cudaEventElapsedTime(&gpuelapsedTime, gpustart, gpustop);
	cudaEventDestroy(gpustart);
	cudaEventDestroy(gpustop);
	double gputime = gpuelapsedTime;

	//cudaMemcpy 将结果从显存中复制回内存
	cudaMemcpy(c, cuda_c, sizeof(float) * n * n, cudaMemcpyDeviceToHost);
	//释放内存
	cudaFree(cuda_a);
	cudaFree(cuda_b);
	cudaFree(cuda_c);
	cudaFree(time);

	/*CPU矩阵乘法,存入矩阵d*/
	//cpu计时开始
	cudaEvent_t cpustart, cpustop;
	float cpuelapsedTime = 0.0;
	cudaEventCreate(&cpustart);
	cudaEventCreate(&cpustop);
	cudaEventRecord(cpustart, 0);

	for (int i = 0; i < n; i++)
	{
		for (int j = 0; j < n; j++)
		{
			double t = 0;
			for (int k = 0; k < n; k++)
			{
				t += a[i * n + k] * b[k * n + j];
			}
			d[i * n + j] = t;
		}
	}

	//cpu计时结束
	cudaEventRecord(cpustop, 0);
	cudaEventSynchronize(cpustop);
	cudaEventElapsedTime(&cpuelapsedTime, cpustart, cpustop);
	cudaEventDestroy(cpustart);
	cudaEventDestroy(cpustop);
	double cputime = cpuelapsedTime;

	/*验证正确性与精确性*/
	float max_err = 0;
	float average_err = 0;
	for (int i = 0; i < n; i++)
	{
		for (int j = 0; j < n; j++)
		{
			if (d[i * n + j] != 0)
			{
				//fabs求浮点数x的绝对值
				float err = fabs((c[i * n + j] - d[i * n + j]) / d[i * n + j]);
				if (max_err < err) max_err = err;
				average_err += err;
			}
		}
	}

	/*输出结果*/
	cout << setiosflags(ios::fixed) << setprecision(6) << "MAX ERROR: " << max_err << endl;
	cout << setiosflags(ios::fixed) << setprecision(6) << "AVERAGE ERROR: " << average_err / (n * n) << endl;
	cout << setiosflags(ios::fixed) << setprecision(6) << "GPU time: " << (gputime) / 1000 << " s" << endl;
	//cout << setiosflags(ios::fixed) << setprecision(6) << "CPU time: " << (cputime) / 1000 << " s" << endl;

	return 0;
}

3.3 性能对比与分析

  CPU串行和GPU并行(ThreadsPerBlock=256,ThreadsPerBlock:每个线程块所拥有的线程数量)在各种规模的运行时间如图1所示。在数据规模N比较小时,CPU串行和GPU并行程序运行消耗的时间相差不大。当数据规模N逐步增大时,CPU串行程序运行消耗时间的增长速度远远超过GPU并行程序运行消耗时间的增长速度。
  当数据规模N=5000时,CPU串行程序运行消耗时间已经是GPU并行程序运行消耗时间的12.41倍,消耗的时间达到了693.44s。而从图2中可以预见的是CPU串行程序运行消耗的时间将会很大很大,很有可能呈现指数级增长趋势

图1 CPU串行和GPU并行在各种规模的运行时间
图1 CPU串行和GPU并行在各种规模的运行时间

在这里插入图片描述
图2 CPU串行和GPU并行在各种规模的运行时间趋势图

  GPU并行不同的数据分配(ThreadsPerBlock:每个线程块所拥有的线程数量)在各种规模下的运行时间如图3所示。在数据规模N比较小的时候,不同的数据分配方式下程序运行消耗时间没有显著差异。随着数据规模N的增大,不同的数据分配方式下程序运行消耗时间的差异开始显现。
  当数据规模N=5000时,我们可以明显的看出在ThreadsPerBlock=256时程序运行消耗时间比在其他条件下小。程序运行消耗时间呈两边高,中间低的趋势,每个线程块所拥有的线程数量最少和最多的程序运行消耗的时间分别是最多的和次多的。
在这里插入图片描述
图3 GPU并行不同的数据分配在各种规模的运行时间

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

矩阵乘法——基于GPU的并行编程模型CUDA程序设计 的相关文章

  • C 中带括号和不带括号的循环处理方式不同吗?

    我在调试器中单步执行一些 C CUDA 代码 如下所示 for uint i threadIdx x i lt 8379 i 256 sum d PartialHistograms blockIdx x i HISTOGRAM64 BIN
  • 构建 Erlang 服务器场(用于业余爱好项目)最便宜的方法是什么? [关闭]

    Closed 这个问题是无关 help closed questions 目前不接受答案 假设我们有一个 本质上并行 的问题需要用 Erlang 软件来解决 我们有很多并行进程 每个进程都执行顺序代码 不是数字运算 并且我们向它们投入的 C
  • CUDA错误:在python中使用并行时初始化错误

    我的代码使用 CUDA 但运行速度仍然很慢 因此 我将其更改为使用 python 中的多处理 pool map 并行运行 但我有CUDA ERROR initialization error 这是函数 def step M self ite
  • 如何在 gitlab-ci docker 执行器中使用 cuda

    我们正在使用 gitlab 持续集成来构建和测试我们的项目 最近 其中一个项目添加了 CUDA 的要求以启用 GPU 加速 我不想改变我们的管道 docker 和 gitlab ci 对我们来说运行良好 所以我想以某种方式让 docker
  • Cuda Bayer/CFA 去马赛克示例

    我编写了一个 CUDA4 Bayer 去马赛克例程 但它比在 16 核 GTS250 上运行的单线程 CPU 代码慢 块大小是 16 16 图像暗淡是 16 的倍数 但更改此值并不会改善它 我做了什么明显愚蠢的事情吗 calling rou
  • cudaMallocManaged() 返回“不支持的操作”

    在 CUDA 6 0 中尝试托管内存给了我operation not supported打电话时cudaMallocManaged include cuda runtime h include
  • 为什么 gcc 和 NVCC (g++) 会看到两种不同的结构大小?

    我正在尝试将 CUDA 添加到 90 年代末编写的现有单线程 C 程序中 为此 我需要混合两种语言 C 和 C nvcc 是 c 编译器 问题在于 C 编译器将结构视为特定大小 而 C 编译器将相同的结构视为略有不同的大小 那很糟 我对此感
  • CUDA素数生成

    当数据大小增加超过 260k 时 我的 CUDA 程序停止工作 它不打印任何内容 有人能告诉我为什么会发生这种情况吗 这是我的第一个 CUDA 程序 如果我想要更大的素数 如何在 CUDA 上使用大于 long long int 的数据类型
  • 为什么numba cuda调用几次后运行速度变慢?

    我正在尝试如何在 numba 中使用 cuda 然而我却遇到了与我预想不同的事情 这是我的代码 from numba import cuda cuda jit def matmul A B C Perform square matrix m
  • 传递给 CUDA 的结构中的指针

    我已经搞砸了一段时间了 但似乎无法正确处理 我正在尝试将包含数组的对象复制到 CUDA 设备内存中 然后再复制回来 但当我遇到它时我会跨过那座桥 struct MyData float data int dataLen void copyT
  • MPI+CUDA 与纯 MPI 相比有何优势?

    加速应用程序的常用方法是使用 MPI 或更高级别的库 例如在幕后使用 MPI 的 PETSc 并行化应用程序 然而 现在每个人似乎都对使用 CUDA 来并行化他们的应用程序或使用 MPI 和 CUDA 的混合来解决更雄心勃勃 更大的问题感兴
  • 如何确定完整的 CUDA 版本 + 颠覆版本?

    Linux 上的 CUDA 发行版曾经有一个名为version txt例如 CUDA Version 10 2 89 这非常有用 但是 从 CUDA 11 1 开始 该文件不再存在 我如何在 Linux 上通过命令行确定并检查 path t
  • 运行时 API 应用程序中的 cuda 上下文创建和资源关联

    我想了解如何在 cuda 运行时 API 应用程序中创建 cuda 上下文并与内核关联 我知道这是由驱动程序 API 在幕后完成的 但我想了解一下创作的时间线 首先 我知道 cudaRegisterFatBinary 是第一个 cuda a
  • CUDA 常量内存是否应该被均匀地访问?

    我的 CUDA 应用程序的恒定内存小于 8KB 既然它都会被缓存 我是否需要担心每个线程访问相同的地址以进行优化 如果是 如何确保所有线程同时访问同一地址 既然它都会被缓存 我是否需要担心每个线程访问相同的地址以进行优化 是的 这缓存本身每
  • TensorRT 多线程

    我正在尝试使用 python API 来使用 TensorRt 我试图在多个线程中使用它 其中 Cuda 上下文与所有线程一起使用 在单个线程中一切正常 我使用 docker 和 tensorrt 20 06 py3 图像 onnx 模型和
  • cuda中内核的并行执行

    可以说我有三个全局数组 它们已使用 cudaMemcpy 复制到 GPU 中 但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配 以便分配页面锁定的内存 而不是简单的全局分配 int a 100 b 100 c 100 cu
  • CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

    与 CUDA 的任何事情一样 最基本的事情有时也是最难的 所以 我只想将变量从 CPU 复制到 GPUconstant变量 我很难过 这就是我所拥有的 constant int contadorlinhasx d int main int
  • cudaMemcpy() 与 cudaMemcpyFromSymbol()

    我试图找出原因cudaMemcpyFromSymbol 存在 似乎 symbol func 可以做的所有事情 nonSymbol cmd 也可以做 symbol func 似乎可以轻松移动数组或索引的一部分 但这也可以使用 nonSymbo
  • 如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

    这是一个关于编程的概念问题 总而言之 我有两个数组 向量 我需要对一个数组 向量进行排序 并将更改传播到另一个数组 向量中 这样 如果我对 arrayOne 进行排序 则对于排序中的每个交换 arrayTwo 也会发生同样的情况 现在 我知
  • 内联 PTX 汇编代码强大吗?

    我看到一些代码示例 人们在 C 代码中使用内联 PTX 汇编代码 CUDA工具包中的文档提到PTX很强大 为什么会这样呢 如果我们在 C 代码中使用这样的代码 我们会得到什么好处 内联 PTX 使您可以访问未通过 CUDA 内在函数公开的指

随机推荐

  • 数字化转型成熟度模型介绍

    中关村信息技术和实体经济融合发展联盟提出了一种数字化转型成熟度模型系列标准 目前已经被众多央企采用 作为数字化转型战略框架和评价的依据 用友作为全球领先的数智化服务商 也参与了这一系列标准的制定 今天我们就来介绍一下这套成熟度模型 并讨论对
  • k8s基础概念:port ,targetport,nodeport

    在Kubernetes中 有三种类型的端口与Service相关 port targetPort和NodePort 它们分别用于不同的用途 port port字段定义了Service暴露给集群内部和外部的端口号 当你创建一个Service时
  • web前端职业规划(转)

    关于一个WEB前端的职业规划 其实是有各种的答案 没有哪种答案是完全正确的 全凭自己的选择 只要是自己选定了 坚持去认真走 就好 在这里 我只是简要说一下自己对于这块儿内容的理解 有一个观点想要分享给大家的是 任何规划和目标的实现都依赖于知
  • 矩阵连乘问题C++实现

    矩阵连乘问题C 1 认真审阅题目 明确题目的已知条件和求解的目标 2 问题建模 3 算法设计 4 编码实现 1 认真审阅题目 明确题目的已知条件和求解的目标 给定n个矩阵 A1 A2 A3 An 其中Ai与Ai 1 i 1 2 3 4 n
  • 从0到1带你构建——低代码开发入门案例

    个人简介 个人主页 前端杂货铺 学习方向 主攻前端方向 也会涉及到服务端 Node js 个人状态 在校大学生一枚 已拿多个前端 offer 秋招 未来打算 为中国的工业软件事业效力 n 年 推荐学习 前端面试宝典 Vue2 Vue3 Vu
  • 目标检测:锚点介绍及应用

    目标检测 锚点介绍及应用 介绍 应用 生成锚点图 步骤 锚点匹配 步骤 介绍 锚点相当于在待预测的特征数据上预设出可能的物体边界框 即预设出特征数据可能代表的物体区域 每个区域通常由两个属性构成 尺度 scale或size 和比例 rati
  • laravel实战项目搭建及代码管理

    本文目录 前言 一 安装laravel和装插件 1 1 安装laravel 1 2 安装开发插件 二 运行项目及配置 2 1 配置虚拟主机与绑定hosts文件 2 2 配置数据库连接 2 3 本地化配置 2 4 删除默认文件或目录 三 gi
  • 算法训练Day11

    目录 LeetCode232 用栈实现队列 1 思路 2 代码实现 3 复杂度分析 4 思考 LeetCode225 用队列实现栈 1 思路 2 代码实现 3 复杂度分析 4 思考 LeetCode20 有效的括号 方法一 使用栈和字典 1
  • Ubuntu18配置ssh免密登录

    安装配置 sudo apt get install openssh server cd ssh 若没有该目录 请先执行一次 ssh localhost ssh keygen t rsa 会有提示 都按回车就可以 cat id rsa pub
  • JSON注入与CSRF漏洞原理与复现

    JSON注入与CSRF漏洞原理与复现 1 JSON JavaScript Object Notation JavaScript对象表示法 2 它是一种数据格式 而不是一种编程语言 3 JSON的语法 有三种类型的值 简单值 对象 数组 关于
  • 【深度学习】 Python 和 NumPy 系列教程(十六):Matplotlib详解:2、3d绘图类型(2)3D散点图(3D Scatter Plot)

    目录 一 前言 二 实验环境 三 Matplotlib详解 1 2d绘图类型 2 3d绘图类型 0 设置中文字体 1 线框图 Wireframe Plot 2 3D散点图 3D Scatter Plot 一 前言 Python是一种高级编程
  • Qt for Android——关于版本的选择(ABI和CPU版本)

    1 前景介绍 之前在开发Qt for Android程序的时候 不知道如何选择套件的版本 乱选一通 经常是程序开发完 到了运行选择设备的时候告诉我设备不匹配 不支持这个ABI 下面就来讲讲这些版本 2 Qt中套件对应的版本 在我们安装Qt的
  • JTest

    接到parasoft公司一位先生打来的电话 说下个月第二周到上海来 希望顺便给我们组培训一下JTest和C Test的使用 我是用java的 自然对JTest更感兴趣一些 上网一搜 原来JTest这么出名 自己的确孤陋寡闻了 看了一下价格
  • 如何下载微信支付证书(API证书)

    一 登录微信商户平台 1 商户平台登陆网址 微信支付 中国领先的第三方支付平台 微信支付提供安全快捷的支付方式http pay weixin qq com 2 登录方式 扫码登录登录 二 进入微信商户平台下载证书 1 点击账户中心 账户设置
  • Vue简易登陆页面

    目录 1 效果展示 2 Vue代码 3 存点图片 1 效果展示 2 Vue代码
  • selenium练习实例

    1 项目流程 2 中心调度 中心调度 defmain try total search total int re compile d search total group 1 fori inrange 2 total 1 next page
  • 一分钟解决Chrome浏览器主页被hao123、360和2345篡改简单有效方法

    当你打开浏览器看到各种首页跳转的页面 对于强迫症的我是不能接受的 各种情况都碰到了 现在给出解决方法 按照下面的方式去排查就可以一定能解决你的问题 如果不行的话你来打我呀 如果问题解决了希望你能推荐给其他人 提示 检查下杀毒软件有没有绑定浏
  • Raft一致性算法分析与总结

    Raft简介 Raft是一个用于日志复制 同步的一致性算法 它提供了和Paxos一样的功能和性能 但是它的算法结构与Paxos不同 这使得Raft相比Paxos更好理解 并且更容易构建实际的系统 为了强调可理解性 Raft将一致性算法分解为
  • 跨平台传输结构体的注意事项

    1 什么是跨平台 1 这里的平台是按照CPU的位数来划分 分为32位CPU和64位CPU 不同位数CPU的差异会影响到结构体的解析 2 在实际嵌入式开发中 存在 主芯片 从芯片 的多CPU的产品 或者数据需要在不同位数CPU的机器上传输 3
  • 矩阵乘法——基于GPU的并行编程模型CUDA程序设计

    矩阵乘法 基于GPU的并行编程模型CUDA程序设计 目录 矩阵乘法 基于GPU的并行编程模型CUDA程序设计 1 题目描述 2 设计思路 实验环境 3 源码 3 1 串行程序 3 2 并行程序 3 3 性能对比与分析 1 题目描述 题目1