【参加CUDA线上训练营】共享内存实例1:矩阵转置实现及其优化①

2023-11-13

【参加CUDA线上训练营】共享内存实例1:矩阵转置实现及其优化①

本文参考Nvidia官方blog[An Efficient Matrix Transpose in CUDA C/C++及其对应的github代码transpose.cu学习下共享内存(Shared Memory)的使用,感受下其加速效果。

使用的共享内存大小为2*2的tile,一个block中定义的线程数也是2*2。这也是本文与共享内存实例1:矩阵转置实现及其优化②的主要区别。

1.完整代码

#include "error.cuh"
#include <stdio.h>

#ifdef USE_DP
    typedef double real;
#else
    typedef float real;
#endif

const int NUM_REPEATS = 10;
const int TILE_DIM = 32;

void timing(const real *d_A, real *d_B, const int N, const int task);
__global__ void transpose1(const real *A, real *B, const int N);
__global__ void transpose2(const real *A, real *B, const int N);
void print_matrix(const int N, const real *A);

int main(int argc, char **argv)
{
    if (argc != 2)
    {
        printf("usage: %s N\n", argv[0]);
        exit(1);
    }
    const int N = atoi(argv[1]);

    const int N2 = N * N;
    const int M = sizeof(real) * N2;
    real *h_A = (real *) malloc(M);
    real *h_B = (real *) malloc(M);
    for (int n = 0; n < N2; ++n)
    {
        h_A[n] = n;
    }
    real *d_A, *d_B;
    CHECK(cudaMalloc(&d_A, M));
    CHECK(cudaMalloc(&d_B, M));
    CHECK(cudaMemcpy(d_A, h_A, M, cudaMemcpyHostToDevice));

    printf("\ntranspose with shared memory bank conflict:\n");
    timing(d_A, d_B, N, 1);
    printf("\ntranspose without shared memory bank conflict:\n");
    timing(d_A, d_B, N, 2);

    CHECK(cudaMemcpy(h_B, d_B, M, cudaMemcpyDeviceToHost));
    if (N <= 10)
    {
        printf("A =\n");
        print_matrix(N, h_A);
        printf("\nB =\n");
        print_matrix(N, h_B);
    }

    free(h_A);
    free(h_B);
    CHECK(cudaFree(d_A));
    CHECK(cudaFree(d_B));
    return 0;
}

void timing(const real *d_A, real *d_B, const int N, const int task)
{
    const int grid_size_x = (N + TILE_DIM - 1) / TILE_DIM;
    const int grid_size_y = grid_size_x;
    const dim3 block_size(TILE_DIM, TILE_DIM);
    const dim3 grid_size(grid_size_x, grid_size_y);

    float t_sum = 0;
    float t2_sum = 0;
    for (int repeat = 0; repeat <= NUM_REPEATS; ++repeat)
    {
        cudaEvent_t start, stop;
        CHECK(cudaEventCreate(&start));
        CHECK(cudaEventCreate(&stop));
        CHECK(cudaEventRecord(start));
        cudaEventQuery(start);

        switch (task)
        {
            case 1:
                transpose1<<<grid_size, block_size>>>(d_A, d_B, N);
                break;
            case 2:
                transpose2<<<grid_size, block_size>>>(d_A, d_B, N);
                break;
            default:
                printf("Error: wrong task\n");
                exit(1);
                break;
        }

        CHECK(cudaEventRecord(stop));
        CHECK(cudaEventSynchronize(stop));
        float elapsed_time;
        CHECK(cudaEventElapsedTime(&elapsed_time, start, stop));
        printf("Time = %g ms.\n", elapsed_time);

        if (repeat > 0)
        {
            t_sum += elapsed_time;
            t2_sum += elapsed_time * elapsed_time;
        }

        CHECK(cudaEventDestroy(start));
        CHECK(cudaEventDestroy(stop));
    }

    const float t_ave = t_sum / NUM_REPEATS;
    const float t_err = sqrt(t2_sum / NUM_REPEATS - t_ave * t_ave);
    printf("Time = %g +- %g ms.\n", t_ave, t_err);
}

__global__ void transpose1(const real *A, real *B, const int N)
{
    __shared__ real S[TILE_DIM][TILE_DIM];
    int bx = blockIdx.x * TILE_DIM;
    int by = blockIdx.y * TILE_DIM;

    int nx1 = bx + threadIdx.x;
    int ny1 = by + threadIdx.y;
    if (nx1 < N && ny1 < N)
    {
        S[threadIdx.y][threadIdx.x] = A[ny1 * N + nx1];
    }
    __syncthreads();

    int nx2 = bx + threadIdx.y;
    int ny2 = by + threadIdx.x;
    if (nx2 < N && ny2 < N)
    {
        B[nx2 * N + ny2] = S[threadIdx.x][threadIdx.y];
    }
}

__global__ void transpose2(const real *A, real *B, const int N)
{
    __shared__ real S[TILE_DIM][TILE_DIM + 1];
    int bx = blockIdx.x * TILE_DIM;
    int by = blockIdx.y * TILE_DIM;

    int nx1 = bx + threadIdx.x;
    int ny1 = by + threadIdx.y;
    if (nx1 < N && ny1 < N)
    {
        S[threadIdx.y][threadIdx.x] = A[ny1 * N + nx1];
    }
    __syncthreads();

    int nx2 = bx + threadIdx.y;
    int ny2 = by + threadIdx.x;
    if (nx2 < N && ny2 < N)
    {
        B[nx2 * N + ny2] = S[threadIdx.x][threadIdx.y];
    }
}

void print_matrix(const int N, const real *A)
{
    for (int ny = 0; ny < N; ny++)
    {
        for (int nx = 0; nx < N; nx++)
        {
            printf("%g\t", A[ny * N + nx]);
        }
        printf("\n");
    }
}

2.原理介绍

核函数transpose1和transpose2主要区别在于消除Bank Conflicts(更详细的信息可见共享内存实例1:矩阵转置实现及其优化②),这里就transpose1进行下分析。

__global__ void transpose1(const real *A, real *B, const int N)
{
    __shared__ real S[TILE_DIM][TILE_DIM];
    int bx = blockIdx.x * TILE_DIM;
    int by = blockIdx.y * TILE_DIM;

    int nx1 = bx + threadIdx.x;
    int ny1 = by + threadIdx.y;
    if (nx1 < N && ny1 < N)
    {
        S[threadIdx.y][threadIdx.x] = A[ny1 * N + nx1];
    }
    __syncthreads();

    int nx2 = bx + threadIdx.y;
    int ny2 = by + threadIdx.x;
    if (nx2 < N && ny2 < N)
    {
        B[nx2 * N + ny2] = S[threadIdx.x][threadIdx.y];
    }
}

以6*6矩阵的转置为例:

2.1 将各block 线程对应元素放入共享内存tile

前半部分代码主要实现的是将各block 线程对应元素放入对应的共享内存tile。

S[threadIdx.y][threadIdx.x] = A[ny1 * N + nx1];

在这里插入图片描述

2.2 实现转置

    int bx = blockIdx.x * TILE_DIM;
    int by = blockIdx.y * TILE_DIM;
    .
    .
    .
    int nx2 = bx + threadIdx.y;
    int ny2 = by + threadIdx.x;
    if (nx2 < N && ny2 < N)
    {
        B[nx2 * N + ny2] = S[threadIdx.x][threadIdx.y];
    }

以右上角这个block中的数据为例,转置过程如下图所示:
在这里插入图片描述
首先,对于block的id,

转置前:

Blockid_x   Blockid_y  
 2             0             

转置后:

Blockid_x   Blockid_y  
 0             2                          

threadIdx.xthreadIdx.y为什么不需要反过来呢?

int bx = blockIdx.x * TILE_DIM;
int by = blockIdx.y * TILE_DIM;
.
.
.
int nx2 = bx + threadIdx.y;
int ny2 = by + threadIdx.x;

这是因为,单独看每个block,已经通过下面这句代码实现了各个块中对应元素的转置:

B[nx2 * N + ny2] = S[threadIdx.x][threadIdx.y];

#正常读取是这样的:S[threadIdx.y][threadIdx.x], 
#而S[threadIdx.x][threadIdx.y]正好反过来。

2.3 在此基础上修改

    //int nx2 = bx + threadIdx.y;
    //int ny2 = by + threadIdx.x;
    //if (nx2 < N && ny2 < N)
    //{
    //    B[nx2 * N + ny2] = S[threadIdx.x][threadIdx.y];
    //}
	if (nx1 < N && ny1 < N)
    {
	B[nx1 * N + ny1] = S[threadIdx.y][threadIdx.x];
    }

原代码使用了block id_x和id_y对调,共享内存中thread id_x和id_y两步实现,思路和实现都比较复杂,可读性也比较差,此代码对block id及block thread id进行对调。

经咨询,此代码没有合并,起不到加速效果

参考文献

[1] transpose.cu
[2] brucefan1983/CUDA-Programming/

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【参加CUDA线上训练营】共享内存实例1:矩阵转置实现及其优化① 的相关文章

  • C 中带括号和不带括号的循环处理方式不同吗?

    我在调试器中单步执行一些 C CUDA 代码 如下所示 for uint i threadIdx x i lt 8379 i 256 sum d PartialHistograms blockIdx x i HISTOGRAM64 BIN
  • 使用常量内存打印地址而不是cuda中的值

    我试图在代码中使用常量内存 并从内核分配常量内存值 而不是使用 cudacopytosymbol include
  • Ubuntu 11.10/12.04 上的 CUDA“无兼容设备”错误

    一段时间以来 我一直在尝试在我的笔记本电脑上设置 Ubuntu 环境来进行 CUDA 编程 我目前双启动 Windows 8 和 Ubuntu 12 04 并想在 Ubuntu 上安装 CUDA 5 该笔记本电脑配有 GeForce GT
  • 如何在 Windows 上的 nvidia GPU 的 Visual Studio 2010 中配置 OpenCL?

    我在华硕笔记本电脑上的 Wwindows 7 操作系统上使用 NVIDIA GeForce GTX 480 GPU 我已经为 CUDA 4 2 配置了 Visual Studio 2010 如何在 Visual Studio 2010 上为
  • 如何用Go语言的cgo编译Cuda源码?

    我用 cuda c 编写了一个简单的程序 它可以在 eclipse nsight 上运行 这是源代码 include
  • 为什么 gcc 和 NVCC (g++) 会看到两种不同的结构大小?

    我正在尝试将 CUDA 添加到 90 年代末编写的现有单线程 C 程序中 为此 我需要混合两种语言 C 和 C nvcc 是 c 编译器 问题在于 C 编译器将结构视为特定大小 而 C 编译器将相同的结构视为略有不同的大小 那很糟 我对此感
  • CUDA程序导致nvidia驱动程序崩溃

    当我超过大约 500 次试验和 256 个完整块时 我的 monte carlo pi 计算 CUDA 程序导致我的 nvidia 驱动程序崩溃 这似乎发生在 monteCarlo 内核函数中 任何帮助都会受到赞赏 include
  • CUDA Thrust 和 sort_by_key

    我正在寻找 CUDA 上的排序算法 它可以对元素数组 A 双精度 进行排序 并返回该数组 A 的键 B 数组 我知道sort by keyThrust 库中的函数 但我希望元素数组 A 保持不变 我能做些什么 我的代码是 void sort
  • 运行时 API 应用程序中的 cuda 上下文创建和资源关联

    我想了解如何在 cuda 运行时 API 应用程序中创建 cuda 上下文并与内核关联 我知道这是由驱动程序 API 在幕后完成的 但我想了解一下创作的时间线 首先 我知道 cudaRegisterFatBinary 是第一个 cuda a
  • TensorRT 多线程

    我正在尝试使用 python API 来使用 TensorRt 我试图在多个线程中使用它 其中 Cuda 上下文与所有线程一起使用 在单个线程中一切正常 我使用 docker 和 tensorrt 20 06 py3 图像 onnx 模型和
  • cuda中内核的并行执行

    可以说我有三个全局数组 它们已使用 cudaMemcpy 复制到 GPU 中 但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配 以便分配页面锁定的内存 而不是简单的全局分配 int a 100 b 100 c 100 cu
  • __device__ __constant__ 常量

    有什么区别吗 在 CUDA 程序中定义设备常量的最佳方法是什么 在 C 主机 设备程序中 如果我想将常量定义在设备常量内存中 我可以这样做 device constant float a 5 constant float a 5 问题 1
  • CUDA、NPP 滤波器

    CUDA NPP 库支持使用 nppiFilter 8u C1R 命令过滤图像 但不断出现错误 我可以毫无问题地启动并运行 boxFilterNPP 示例代码 eStatusNPP nppiFilterBox 8u C1R oDeviceS
  • CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

    与 CUDA 的任何事情一样 最基本的事情有时也是最难的 所以 我只想将变量从 CPU 复制到 GPUconstant变量 我很难过 这就是我所拥有的 constant int contadorlinhasx d int main int
  • cudaMemcpy() 与 cudaMemcpyFromSymbol()

    我试图找出原因cudaMemcpyFromSymbol 存在 似乎 symbol func 可以做的所有事情 nonSymbol cmd 也可以做 symbol func 似乎可以轻松移动数组或索引的一部分 但这也可以使用 nonSymbo
  • 如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

    这是一个关于编程的概念问题 总而言之 我有两个数组 向量 我需要对一个数组 向量进行排序 并将更改传播到另一个数组 向量中 这样 如果我对 arrayOne 进行排序 则对于排序中的每个交换 arrayTwo 也会发生同样的情况 现在 我知
  • VS 程序在调试模式下崩溃,但在发布模式下不崩溃?

    我正在 VS 2012 中运行以下程序来尝试 Thrust 函数查找 include cuda runtime h include device launch parameters h include
  • 最小化 MC 模拟期间存储的 cuRAND 状态数量

    我目前正在 CUDA 中编写蒙特卡罗模拟 因此 我需要生成lots使用随机数cuRAND图书馆 每个线程处理一个巨大的元素floatarray 示例中省略 并在每次内核调用时生成 1 或 2 个随机数 通常的方法 参见下面的示例 似乎是为每
  • 通过 cuFFT 进行逆 FFT 缩放

    每当我使用 cuFFT 绘制程序获得的值并将结果与 Matlab 的结果进行比较时 我都会得到相同形状的图形 并且最大值和最小值位于相同的点 然而 cuFFT 得到的值比 Matlab 得到的值大得多 Matlab代码是 fs 1000 s
  • cuda-gdb 错误消息

    我尝试使用 cuda gdb 调试我的 CUDA 应用程序 但遇到了一些奇怪的错误 我设置了选项 g G O0构建我的应用程序 我可以在没有 cuda gdb 的情况下运行我的程序 但没有得到正确的结果 因此我决定使用 cuda gdb 但

随机推荐

  • 中职网络安全2022国赛之MS12020漏洞扫描与利用(CVE-2012-0002)

    简介 我做了一个简单的环境来复现这个漏洞 需要虚拟机环境的可以加我qq 3316735898 有什么不会的也可以问我 1 在MSF工具中用search命令搜索MS12020 RDP拒绝服务攻击模块 将回显结果中的漏洞披露时间作为Flag值
  • 手把手教你制作一块Linux开发板(基于Planck-pi)

    文章目录 前言 一 前期准备 二 焊接部分 三 镜像烧写部分 总结 前言 攻城狮星河 Hello 各位野生钢铁侠们 这篇文章初衷是帮助想自己制作linux小板子的小白们 文中会讲的比较基础 大佬勿喷 本教程会以稚晖君开源的 planck p
  • Win7下的C语言开发环境

    本文参考至 http jingyan baidu com article 870c6fc32fa08fb03fe4beae html
  • APS自动排产在企业生产中的应用:生产整体优化

    APS系统 又名高级计划与排程 Advanced Planning and Scheduling 企业管理软件 是对所有资源具有同步的 实时的 具有约束能力的 模拟能力 不论是物料 机器设备 人员 供应 客户需求 运输等影响计划因素 不论是
  • java堆,栈,常量池最通俗易懂的图文解释

    转自 http www iteye com topic 634530 1 寄存器 最快的存储区 由编译器根据需求进行分配 我们在程序中无法控制 2 栈 stack 存放基本类型的变量数据和对象的引用 但对象本身不存放在栈中 而是存放在堆 n
  • 顺序栈和链式栈的定义及基本操作(c++实现)

    顺序栈 include
  • 全网最新首发:Python从入门到精通的完整学习路线图【附:全套Python学习资料】

    后台有很多粉丝朋友们留言问我 Python应该怎么学 爬虫和数据分析怎么学 机器学习怎么学 其实python的门槛不是特别高 但是很多朋友感觉很迷茫 学了一段时间还是不入流 很大一部分原因是你没有一个完整的知识体系 你不知道自己现在的进度
  • Spring事务管理--@Transactional

    使用步骤 步骤一 在spring配置文件中引入
  • 零起步教你搭建Discuz!论坛(转载)

    这段时间 拜美国所赐 大家对鲲鹏生态非常关注 特别是基于鲲鹏920cpu的鲲鹏架构服务器 引起了大家的激烈讨论 应该说大部分网友对鲲鹏架构服务器还是持支持态度的 但是部分不太了解具体情况的网友 特别是一些被以前此起彼伏的 伪自主 真诈骗 的
  • 加法电路原理

    任务1 建立简单电路 1 建立非门 通过http ss sysu edu cn pml se121 hardware1 html 进行相关功能操作 模拟电路如下图 2 验证知道 开关打开时LED灯不亮 关闭时显绿光 故此有表格 3 利用XO
  • WebEye云课堂|BigQuery最佳实践

    企业在布局出海发展中想要轻松搞定 大型数据集 却绝非易事 不论是各种繁杂的存储配置 还是调用各类分析工具来正确处理数据 都有可能因为数据集过于庞大而面临各种各样的困难 我们诚邀您参与此次直播活动 您将全面认识到谷歌云PB级数据仓库 BigQ
  • 从Docker到Kubernetes——Docker构建应用栈(二)

    文章目录 App容器节点 Django 的配置 HAProxy容器节点的配置 应用栈访问测试 App容器节点 Django 的配置 Django容器启动后 需要利用Django框架 开发一个简单的Web程序 首先进入Django的容器 执行
  • 用AutoCompleteTextView实现历史记录提示

    这画面不陌生吧 百度的提示 他的词库并不是历史记录 是搜索引擎收集的当前最常搜索的内容 假如我们也要在android的应用实现如上功能怎么做呢 方法很简单 android已经帮我们写好了api 这里就用到了AutoCompleteTextV
  • JavaScript学习笔记—制作网页轮播图

    JavaScript学习笔记 制作网页轮播图 一 分析 构成模块 最外边一个大的div 里头一个ul ul里每个小li放一张图片 核心的滚动区域 左右两个按钮 小圆点 功能需求 鼠标经过轮播图模块 显示左右按钮 离开隐藏左右按钮 动态生成小
  • VCC和GND短路,怎么找问题?

    在调试电路时 可能经常会遇到VCC和GND短路的情况 板子上的VCC和GND点太多了 新手可能觉得不知道从哪找 下面就介绍几种方法 供大家参考 1 目测 最简单的方法 先用肉眼或放大镜观察 尤其是引脚比较密的芯片和封装较小的电容 焊接不好时
  • Tomcat及项目部署

    一 Tomcat是什么 Tomcat 是基于 Java 实现的 个开源免费 也是被 泛使 的 HTTP 服务器 二 下载安装 官 站 https tomcat apache org 选择其中的 zip 压缩包 下载后解压缩即可 解压缩的 录
  • 编译linux内核(一)

    关于linux启动流程 1 第一阶段 BIOS 1 1 硬件自检 1 2 启动顺序 2 第二阶段 主引导记录 2 1 主引导记录的结构 2 2 分区表 3 第三阶段 硬盘启动 3 1 情况A 卷引导记录 3 2 情况B 扩展分区和逻辑分区
  • 图像数据格式uint8与double以及图像类型转换

    1 图像数据格式 double 64位 matlab中数值一般采用double型存储和运算 uint8 8位无符号整数 为了节省存储空间 matlab为图像提供的特殊数据类型 imread把灰度图像存入一个8位矩阵 当为RGB图像时 就存入
  • 慕课第6周在线第2题 计算阶乘的和v2.0

    计算阶乘的和v2 0 4分 题目内容 假设有这样一个三位数m 其百位 十位和个位数字分别是a b c 如果m a b c 则这个三位数就称为三位阶乘和数 约定0 1 请编程计算并输出所有的三位阶乘和数 函数原型 long Fact int
  • 【参加CUDA线上训练营】共享内存实例1:矩阵转置实现及其优化①

    参加CUDA线上训练营 共享内存实例1 矩阵转置实现及其优化 1 完整代码 2 原理介绍 2 1 将各block 线程对应元素放入共享内存tile 2 2 实现转置 2 3 在此基础上修改 参考文献 本文参考Nvidia官方blog An