cuda矩阵乘法(简单理解)

2023-11-18

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

CUDA矩阵乘法

矩阵规模
一、一维并行
二、二维并行
- 1.共享存储二维分块

矩阵规模

矩阵A: n行,l列
矩阵B:l行,m列
结果矩阵C=A✖️B: n行,m列

一、一维并行

1.一维线程并行(thread)

一个线程并行一个A1行✖️B1列

需要线程个数:n✖️m个,一个线程并行一个A1行✖️B1列, 即一个线程对应结果矩阵的C的一个点,e.g. c(1,1)=xid0的计算结果,所以一共需要:

xid0=a1hang✖️b1lie	xid1=a1hang✖️b2lie	…	xid(m-1)=a1hang✖️bmlie
xid(m)=a2hang✖️b1lie	xid(m+1)=a2hang✖️b2lie	…	xid(2m-1)=a2hang✖️bmlie
.	…	…	…
xid((n-1)*m)=anhang✖️b1lie	xid((n-1)*m+1)=anhang✖️b2lie	…	xid((n-1)*(m-1))=anhang✖️bmlie

即可知一共需要n✖️m个线程并行,每个线程处理一个向量✖️向量
2. 总共的第几个线程:xid=block.x*blockDim.x+threadIdx.x;
3. 因为线程总数为n✖️m个,所以当前线程xid对应A的第几行=xid/n,
当前线程xid对应B的第几列=xid%n;

 const int idx = blockIdx.x*blockDim.x+threadIdx.x;
    const int Arow = idx / n;
    const int Bcolumn = idx % n;

    //计算矩阵乘法
    if (Arow < n && Bcolumn < m)
    {
        float t = 0;

        for (i = 0; i < l; i++)
        {
            t += A[Arow * l + i] * B[i * m + Bcolumn];
        }
        C[Arow * m + Bcolumn] = t;
    }

2.一维块线程并行(block)

一个block代表矩阵A1行,块中一个线程代表B1列,B矩阵的列已每块线程数跳步.

一共需要n个block,如果可以给的最大块数小于A的行数则已gridDim.x为block的跳步.
线程数为j个,如果j小于B的列数则以blockDim.x为跳步

	thread0	thread1	thread2	thread3	thread0+blockDim.x	hread1+blockDim.x	…	thread3+m/blockDim.x
block0	a1hang✖️b1lie	a1hang✖️b2lie	a1hang✖️b3lie	a1hang✖️b4lie	a1hang✖️b5lie	a1hang✖️b6lie	…	a1hang✖️bmlie
block1	a2hang✖️b1lie	a2hang✖️b2lie	a2hang✖️b3lie	a2hang✖️b4lie	a2hang✖️b5lie	a2hang✖️b6lie	…	a2hang✖️bmlie
.	…	…	…	…	…	…	…
block(n-1)	anhang✖️b1lie	anhang✖️b2lie	anhang✖️b3lie	anhang✖️b4lie	anhang✖️b5lie	anhang✖️b6lie	…	anhang✖️bmlie


    
    //计算矩阵乘法
    for (int Arow=blockIdx.x;Arow<n;Arow+=gridDim.x)
    {
    for (int Bcolumn=threadIdx.x; Bcolumn < m;Bcolumn+=blockDim.x)
    {
        float num = 0.0;

        for (int i = 0; i < l; i++)
        {
            num += A[Arow * l + i] * B[i * m + Bcolumn];
        }
        C[Arow * m + Bcolumn] = num;
    }
    }

3.一维共享A一行程并行(shared)

上个方法中A的每行一个block,把A的每行给共享存储.

共享存储速的关键是数据重复利用,因为从全局读一次数据,然后重复多用几次最合适,e.g.矩阵乘法中,A的每一行就成了B的m个列,即A1的每行都用重复用了m次.可将A的每行放进共享存储.

__shared__ shA[l];
int Arow=blockIdx.x;
for(int Acolumn=threadIdx.x; Acolumn < l;Bcolumn+=blockDim.x)
{
    shA[Acolumn]=A[Arow*l+Acolumn];//把A的每行给shared
}
__syncthreads();

for(int Bcolumn=threadIdx.x; Bcolumn<m; Bcolumn+=blockDim.x)//A的每行乘B的每列跳步为没块线程数
{
    float num = 0.0;
    for (int i = 0; i < l; i++)//A1行(已在shared中)乘B1列
    {
        num += shA[i] * B[i * m + Bcolumn];
    }
     C[Arow * m + Bcolumn] = num;
}

二、二维并行

1.共享存储二维分块

问题与改进
当A的列数>shared memory最大容量时->采用分块存在shared中;
一维时只存A矩阵->二维将B矩阵也分块存入;
解决办法:设置两个二维的share memory : shA[][Tl_size]放A的shared子矩阵,shB[Tl_size][]放B的shared子矩阵,A横着更新shA子矩阵,B竖着更新shB子矩阵

在这里插入图片描述

template <int BLOCK_SIZE> __global__ void
matrixMulCUDA(float *C, float *A, float *B, int m, int n, int l)
{
 // 累加，得到行 * 列的值
 float numsub = 0.0;

 // 循环次数等于widthA / 16，把长向量点积运算转化为两个短向量点积后的和
 //因为B的宽条是竖着的,每宽条中宽是往下移动的,往下移动即代表动一行要增长m个元素,动一块即移动块宽Bsize✖️m个元素,所以步长为每次BLOCK_SIZE * m; 因为A每宽条是横着的,所以宽条中的块是横着移动,当前行每往右移动一块,增长块的块度Bsize的元素,即每宽条每移动一块步长就为Bsize
 for (int i = 0; i <l; i += BLOCK_SIZE)
 {
 // 定义A的共享子矩阵变量,因为__shared__声明，所以同一个block中的所有threads都可见，
 //每个thread填充一个元素，并计算一个行列乘积，减小带宽使用
 __shared__ float As[BLOCK_SIZE][BLOCK_SIZE];

 // 定义A的共享子矩阵变量
 __shared__ float Bs[BLOCK_SIZE][BLOCK_SIZE];

 // 每个block包含16 * 16 个线程，所以每个线程负责一个矩阵元素的拷贝（注意同步）
 //A的shared块更新方式:行:1.块横着一块一块更新一宽条:l * BLOCK_SIZE * blockIdx.y为前面有的宽条:blockIdx.y表示第几个宽条,宽条的宽度为Bsize,则BLOCK_SIZE * blockIdx.y为前面一共有几行,每行有l列(BLOCK_SIZE * blockIdx.y)*l则为一共前面有多少元素. 2.hreadIdx.y 表示当前宽条的第几行,l * hreadIdx.y表示本块中本行在本块前的前面行一共的元素.所以一共第  (BLOCK_SIZE * blockIdx.y)+hreadIdx.y 行. 列:3.threadIdx.x表示本块第几个元素,本行一共第几个元素为threadIdx.x+i,所以l * BLOCK_SIZE * blockIdx.y + l * hreadIdx.y + threadIdx.x表示前面宽行中元素个数➕本宽条中前几行元素个数➕本行第几个元素
 //第几行:BLOCK_SIZE * blockIdx.y + threadIdx.y。 第几列:threadIdx.x+i
 As[ty][tx] = A[l * (BLOCK_SIZE * blockIdx.y + threadIdx.y) + (threadIdx.x+i)];
 //第几行:threadIdx.y + i.      第几列:BLOCK_SIZE * blockIdx.x + threadIdx.x
 Bs[ty][tx] = B[ m * (threadIdx.y + i) + (BLOCK_SIZE * blockIdx.x + threadIdx.x)];

 // Synchronize to make sure the matrices are loaded
 __syncthreads();

 // 每个线程计算 子矩阵的行列乘积，大循环外边还有累加，累加的是不同子矩阵点积和
 for (int k = 0; k < BLOCK_SIZE; ++k)
 {
 numsub += As[ty][k] * Bs[k][tx];
 }

 // 再次同步
 __syncthreads();
 }

if(BLOCK_SIZE * blockIdx.y + threadIdx.y<n && BLOCK_SIZE * blockIdx.x + threadIdx.x<m)
//C矩阵为n行m列的矩阵:C的行id=A的行id;C的列id=B的列id
//行:之前本行所在块上面块的一共行: blockIdx.y*Bsize,当前块第几行threadIdx.y,一共第几行:blockIdx.y*Bsize+threadIdx.y
//列:本列所在块之前块所有列:blockIdx.x*Bsize,当前块第几列:threadIdx.x;一共第几列:blockIdx.x*Bsize+threadIdx.x
//C中一共第几个元素:C行id✖️C列数+C列id=(blockIdx.y*Bsize+threadIdx.y)*m+blockIdx.x*Bsize+threadIdx.x

 C[(BLOCK_SIZE * blockIdx.y + threadIdx.y)*m + BLOCK_SIZE * blockIdx.x + threadIdx.x] = numsub;
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

c

cuda矩阵乘法(简单理解) 的相关文章

使用 lambda 表达式注册类型

我想知道如何在 UnityContainer 中实现这样的功能 container RegisterType
使用 C# 登录《我的世界》

我正在尝试为自己和一些朋友创建一个简单的自定义 Minecraft 启动器我不需要启动 Minecraft 的代码只需要登录的实际代码行例如据我所知您过去可以使用 string netResponse httpGET https
代码 GetAsyncKeyState(VK_SHIFT) & 0x8000 中的这些数字是什么？它们是必不可少的吗？

我试图在按下按键的简单动作中找到这些数字及其含义的任何逻辑解释 GetAsyncKeyState VK SHIFT 0x8000 可以使用哪些其他值来代替0x8000它们与按键有什么关系 GetAsyncKeyState 根据文档返回如果
以编程方式读取 SQL Server 查询计划建议的 SQL 特定执行的索引？

如果我在 SSMS 中运行此命令 set showplan xml on GO exec some procedure arg1 arg2 arg3 GO set showplan xml off GO 我获得查询执行中涉及的完整调用堆栈的
如何判断计算机是否已重新启动？

我曾经使用过一个命令行 SMTP 邮件程序作为试用版的限制它允许您在每个 Windows 会话中最多接收 10 封电子邮件如果您重新启动计算机您可能还会收到 10 个以上我认为这种共享软件破坏非常巧妙我想在我的应用程序中复制它
如何使用 Castle Windsor 将对象注入到 WCF IErrorHandler 实现中？

我正在使用 WCF 开发一组服务该应用程序正在使用 Castle Windsor 进行依赖注入我添加了一个IErrorHandler通过属性添加到服务的实现到目前为止一切正常这IErrorHandler对象一个名为FaultHan
函数参数的默认参数是否被视为该参数的初始值设定项？

假设我有这样的函数声明 static const int R 0 static const int I 0 void f const int r R void g int i I 根据 dcl fct default 1 如果在参数声明中指
从同一个类中的另一个构造函数调用构造函数

我有一个带有两个构造函数的类 C 这是代码片段 public class FooBar public FooBar string s constructor 1 some functionality public FooBar int i
Visual Studio 在构建后显示假错误

我使用的是 Visual Studio 2017 构建后 sln在调试模式下我收到错误但是当我通过双击错误列表选项卡中的错误来访问错误时错误会从页面中消失并且错误数量也会减少我不太确定这种行为以及为什么会发生这种情况有超过 2
File.AppendText 尝试写入错误的位置

我有一个 C 控制台应用程序它作为 Windows 任务计划程序中的计划任务运行此控制台应用程序写入日志文件该日志文件在调试模式下运行时会创建并写入应用程序文件夹本身内的文件但是当它在任务计划程序中运行时它会抛出一个错误指出访
告诉 Nancy 将枚举序列化为字符串

Nancy 默认情况下在生成 JSON 响应时将枚举序列化为整数我需要将枚举序列化为字符串有一种方法可以通过创建来自定义 Nancy 的 JSON 序列化JavaScript 原始转换器 https github com NancyFx
类型约束

我有以下类层次结构 class Header IEnumerable
使用valgrind进行GDB远程调试

如果我使用远程调试gdb我连接到gdbserver using target remote host 2345 如果我使用 valgrind 和 gdb 调试内存错误以中断无效内存访问我会使用 target remote vgdb 启动
如何在 Qt 应用程序中通过终端命令运行分离的应用程序？

我想使用命令 cd opencv opencv 3 0 0 alpha samples cpp cpp example facedetect lena jpg 在 Qt 应用程序中按钮的 clicked 方法上运行 OpenCV 示例代码
IQueryable 单元或集成测试

我有一个 Web api 并且公开了一个端点如下所示 api 假期 name name 这是 Web api 的控制器 get 方法 public IQueryable
C++ 中的双精度型数字

尽管内部表示有 17 位但 IEE754 64 位浮点应该正确表示 15 位有效数字有没有办法强制第 16 位和第 17 位为零 Ref http msdn microsoft com en us library system dou
WebBrowser.Print() 等待完成。。网

我在 VB NET 中使用 WebBrowser 控件并调用 Print 方法我正在使用 PDF 打印机进行打印当调用 Print 时它不会立即启动它会等到完成整个子或块的运行代码我需要确保我正在打印的文件也完整并继续处理该文件
实体框架中的“it”是什么

如果以前有人问过这个问题请原谅我但我的任何搜索中都没有出现它我有两个数据库表 Person 和 Employee 对每个类型的表进行建模例如 Employee is a Person 在我的 edmx 设计器中我定义了一个实体
使用 C 在 OS X 中获取其他进程的 argv

我想获得其他进程的argv 例如ps 我使用的是在 Intel 或 PowerPC 上运行的 Mac OS X 10 4 11 首先我阅读了 ps 和 man kvm 的代码然后编写了一些 C 代码 include
GCC 的“-Wl,option”和“-Xlinker option”语法之间有区别吗？

我一直在查看一些配置文件并且看到它们都被使用尽管在不同的体系结构上如果您在 Linux 机器上使用 GCC 将选项传递给链接器的两种语法之间有区别吗据我所知阅读 GCC 手册时他们的解释几乎相同 From man gcc Xli

随机推荐

renren-fast-vue 无法启动成功原因

renren fast vue 无法启动主要是因为node版本过高需要使用8x版本并且安装node sass node版本 https blog csdn net weixin 42713970 article details 8650
python实现全排列_python实现全排列代码(回溯、深度优先搜索)

从n个不同元素中任取m m n 个元素按照一定的顺序排列起来叫做从n个不同元素中取出m个元素的一个排列当m n时所有的排列情况叫全排列公式全排列数f n n 定义0 1 1 递归实现全排列回溯思想 1 1 思想举个例子比如你
X-admin框架中change事件失效如何实现省市区三级联动

Uncaught TypeError layui form is not a function的错误我现在使用的就是X admin1 1版本的后台模板在实现了三级联动的情况下想套上去结果发现会报上面的错误等等在html中select标
通俗易懂，带你了解应用面向对象（含例子超简单）

面向对象的一些基本概念软件工程第六版下面都是面向对象的精华好好吸收完全可以掌握拿一个圆做例子有半径周长颜色位置我们现在有3个不同的圆每个圆就是一个不同的的对象但是他们都有相同的数据半径周长和相同的操作显示自己
ORA-00381: cannot use both new and old parameters for buffer cache size specification

原创文章转载请注明出处作者 Lilge链接 http liglexiner itpub net post 43018 517486 修改了上次的undo tablespace的问题后工作人员反映说可以不调一下数据库感觉查询很慢于
绑定域名，搭建私人网站

前言互联网上充斥着大大小小的网站你是不是有时候也想拥有一个自己的网站这其实并不难你只需要满足这些条件即可 1 一台服务器所谓的服务器可以简单理解为一台24小时不关机的电脑并且这台服务器要有一个独立ip 本质上我们的个人电脑都可以
微信小程序中如何获取用户手机号授权登录

随着微信小程序的普及许多应用程序需要用户登录才能提供更好的服务而获取用户手机号码是验证用户身份和确保账户安全的重要步骤之一因此在本文中我们将介绍如何在微信小程序中实现手机号授权登录步骤一在小程序后台添加手机号授权首先在小程
安装配置nfs服务

NFS的功能让不同操作系统之间可以互传文件 Server端 Server端可以关闭防火墙或放行nfs服务 systemctl stop firewalld 临时关闭防火墙 systemctl disable firewalld 开机自动
Spring Boot中yml文件和properties文件的区别？

Spring Boot中application properties和application yml 1 在properties文件中是以进行分割的在yml中是用进行分割 2 yml文件拥有天然的树状图看得更舒服 3 yml是支持中
protobuf-2.6.1下载和安装

下载地址 https github com protocolbuffers protobuf archive refs tags v2 6 1 zip autogen sh configure make make check sudo ma
使用wireshark观察SSL/TLS握手过程--双向认证/单向认证

SSL TLS握手过程可以分成两种类型 1 SSL TLS 双向认证就是双方都会互相认证也就是两者之间将会交换证书 2 SSL TLS 单向认证客户端会认证服务器端身份而服务器端不会去对客户端身份进行验证我们知道握手过程实际上就
Linux面试题

文章目录 Linux 概述什么是Linux Unix和Linux有什么区别什么是 Linux 内核 Linux的基本组件是什么 Linux 的体系结构 BASH和DOS之间的基本区别是什么 Linux 开机启动过程 Linux系统缺省的
存储器3-DDR SDRAM双倍速率同步动态存储器

1 信号电平采用STTL 2电平 2 5V 标准 VIH AC Vref 0 31 VIH DC Vref 0 15 VIL DC Vref 0 15 VIL AC Vref 0 31 高于VIH AC 为高纹波只要不低于VIL DC
Angular_项目完善搜索功能(表单处理)

在商品名称和商品价格以及商品类别都输入或者选择合法的情况下才能进行搜索一 product service ts添加一个新的方法获取所有商品类别 getAllCategories string return 电子产品硬件设备其他二
57 KVM工具使用指南-制作 LibcarePlus 热补丁

文章目录 57 KVM工具使用指南制作 LibcarePlus 热补丁 57 1 概述 57 2 手动制作 57 3 通过脚本制作 57 KVM工具使用指南制作 LibcarePlus 热补丁 57 1 概述 LibcarePlus 支
常见JDBC连接数据库字符串

1 Mysql 驱动类 com mysql jdbc Driver 连接字符串 jdbc mysql localhost 3306 dbname 2 Oracle 驱动类 oracle jdbc driver OracleDriver 连接
【数据库】Sqlite数据库

1 sqlite数据库简介 SQLite是内嵌在Python中的轻量级基于磁盘文件袋额数据库管理系统就是一个文件不需要安装和配置服务支持使用SQL语句来访问数据库该数据库使用C语言开发支持大多数SQL91标准支持原子的一致的
c++ 共享内存方法实现windows进程通信

主要逻辑 1 进程1 2通过读写一块共享内存完成这2个进程间的通信 2 进程互斥锁Mutex作用是实现进程同步防止进程2一直读实现进程1写一次进程2读一次进程1代码发送数据 include
keil新工程编译问题

1 新建工程找不到first和last 需要在工程中添加相对应芯片的start XXX swenjian 2 移植操作系统 error L6200E Symbol SysTick Handler multiply defined 这是在操
cuda矩阵乘法(简单理解)

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档 CUDA矩阵乘法矩阵规模一一维并行 1 一维线程并行 thread 2 一维块线程并行 block 3 一维共享A一行程并行 shared 二二维并行 1 共享存储二