CUDA 初体验

2023-10-29

CUDA Visual Profiler
CUDA编程指导
- shared memory
- Page locked out memory
C

CUDA Visual Profiler

在上180645课程的时候，里面谈到使用CUDA来做矩阵乘法和k均值聚类的加速。在使用n卡的时候，有一个Visual Profiler的东西可以看到GPU的使用信息。

在安装好了CUDA以后，在Ubuntu上登录以后，使用X server。在Ubuntu命令行输入：

ssh -X < your_andrew_id>@ghcXX.ghc.andrew.cmu.edu

然后就登陆了远程服务器，接着呢使用：

computeprof &

如果遇到错误，退出登录再连接就好了。

这样就可以看到了GPU的使用信息了。然后如果是Windows的话，使用Xming或Cygwin。如果是OS X的话，使用XQuartz就可以了。

CUDA编程指导

使用CUDA编程，可以学习CUDA编程指南【1】。接下来我就大概过一遍编程指南。

threadIdx是三维的向量，可以表示为一维、二维、三维的线程索引。如果是二维的话，若尺寸是 (Dx,Dy) ，那么索引的就是 (x+yDx) 。如果是三维的，索引的就是（x，y，z），那么就是( x+yDx+zDxDy )

现在线程块一般是1024个，但是因为有多个线程块。所以总的线程数是每块线程数x线程块数。

这里写图片描述

通过调用__syncthreads()函数进行数据同步。

CUDA的每个线程、线程块等等的内存层次：
这里写图片描述

除了全局存储之外，还有两种额外的存储：常量和texture memory（这个玩样儿是啥？）。

CUDADeviceReset()的调用使得所有的配置初始化。

CUDA上的存储操作有cudaMalloc(), cudaFree(). cudaMemcpy()。

举一个例子：

// Device code
__global__ void VecAdd(float* A, float* B, float* C, int N)
{
int i = blockDim.x * blockIdx.x + threadIdx.x;
if (i < N)
C[i] = A[i] + B[i];
}
// Host code
int main()
{
int N = ...;
size_t size = N * sizeof(float);
// Allocate input vectors h_A and h_B in host memory
float* h_A = (float*)malloc(size);
float* h_B = (float*)malloc(size);
// Initialize input vectors
...
// Allocate vectors in device memory
float* d_A;
cudaMalloc(&d_A, size);
float* d_B;
cudaMalloc(&d_B, size);
float* d_C;
cudaMalloc(&d_C, size);
// Copy vectors from host memory to device memory
cudaMemcpy(d_A, h_A, size, cudaMemcpyHostToDevice);
cudaMemcpy(d_B, h_B, size, cudaMemcpyHostToDevice);
// Invoke kernel
int threadsPerBlock = 256;
int blocksPerGrid =
(N + threadsPerBlock - 1) / threadsPerBlock;
VecAdd<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B, d_C, N);
// Copy result from device memory to host memory
// h_C contains the result in host memory
cudaMemcpy(h_C, d_C, size, cudaMemcpyDeviceToHost);
// Free device memory
cudaFree(d_A);
cudaFree(d_B);
cudaFree(d_C);
// Free host memory
...
}

cudaMallocPitch(), cudaMalloc3D()可以用来分配内存。另外还有cudaMemcpy2D和cudaMemcpy3D来分配2D和3D的内存。P34行有例子。

shared memory

shared 标识，共享的内存比全局的内存更快。这里举了一个矩阵乘法的例子： P35

在P41页有memory blocking存在，更加快。

Page locked out memory

和传统的malloc分配的内存相反的，这种比较固定。

cudaHostAlloc() 和 cudaFreeHost()。

在CUDA里面涉及数据同步和流的东西，这里有显示同步和隐式同步。还有更多数据流的东西，比如数据传过去kernel的时候有的已经在执行啦什么的。还有callback函数。

P57里面有各种API。

CUDA里面的硬件架构上，有SIMD和多线程。

C

一些CUDA的语法，涉及和C有关的东西。类似于API。

在这里，贴上矩阵的CUDA算法，最基本的，然后需要在上面进行加速：

#include <cuda.h>
#include <cuda_runtime.h>
#include "matrix_mul.h"
#define TILE_WIDTH 2

namespace cuda
{
  __global__
  void
  matrix_mul_kernel(float *sq_matrix_1, float *sq_matrix_2, float *sq_matrix_result, int sq_dimension)
  {

    int tx = threadIdx.x;
    int ty = threadIdx.y;

    float sum = 0.0f;

    for(int k = 0; k < sq_dimension; k++)
      {
        sum += sq_matrix_1[ty*sq_dimension + k] * sq_matrix_2[k*sq_dimension + tx];
      }
    sq_matrix_result[ty*sq_dimension + tx] = sum;

 }

  void
  matrix_multiplication(float *sq_matrix_1, float *sq_matrix_2, float *sq_matrix_result, unsigned int sq_dimension)
  {
    int size = sq_dimension * sq_dimension * sizeof(float);
    float *sq_matrix_1_d, *sq_matrix_2_d, *sq_matrix_result_d;

    /***************************************************
  1st Part: Allocation of memory on device memory  
    ****************************************************/

    /* copy sq_matrix_1 and sq_matrix_2 to device memory */
    cudaMalloc((void**) &sq_matrix_1_d, size);
    cudaMemcpy(sq_matrix_1_d, sq_matrix_1, size, cudaMemcpyHostToDevice);
    cudaMalloc((void**) &sq_matrix_2_d, size);
    cudaMemcpy(sq_matrix_2_d, sq_matrix_2, size, cudaMemcpyHostToDevice);

    /*allocate sq_matrix_result on host */
    cudaMalloc((void**) &sq_matrix_result_d, size);

    /***************************************************
   2nd Part: Inovke kernel 
    ****************************************************/
    dim3 dimBlock(sq_dimension, sq_dimension);
    dim3 dimGrid(1,1);
    matrix_mul_kernel<<<dimGrid, dimBlock, dimBlock.x * dimBlock.x * sizeof(float)>>>(sq_matrix_1_d, sq_matrix_2_d, sq_matrix_result_d, sq_dimension);

    /***************************************************
   3rd Part: Transfer result from device to host 
    ****************************************************/
    cudaMemcpy(sq_matrix_result, sq_matrix_result_d, size, cudaMemcpyDeviceToHost);
    cudaFree(sq_matrix_1_d);
    cudaFree(sq_matrix_2_d);
    cudaFree(sq_matrix_result_d);
  }
} // namespace cuda

CUDA 调用

核函数是GPU每个thread上运行的程序。必须通过gloabl函数类型限定符定义。形式如下：

            __global__ void kernel(param list){  }

核函数只能在主机端调用，调用时必须申明执行参数。调用形式如下：

            Kernel<<<Dg,Db, Ns, S>>>(param list);

<<<>>>运算符内是核函数的执行参数，告诉编译器运行时如何启动核函数，用于说明内核函数中的线程数量，以及线程是如何组织的。

<<<>>>运算符对kernel函数完整的执行配置参数形式是<< < Dg, Db, Ns, S>>> 【2】

参数Dg用于定义整个grid的维度和尺寸，即一个grid有多少个block。为dim3类型。Dim3 Dg(Dg.x, Dg.y, 1)表示grid中每行有Dg.x个block，每列有Dg.y个block，第三维恒为1(目前一个核函数只有一个grid)。整个grid中共有Dg.x*Dg.y个block，其中Dg.x和Dg.y最大值为65535。
参数Db用于定义一个block的维度和尺寸，即一个block有多少个thread。为dim3类型。Dim3 Db(Db.x, Db.y, Db.z)表示整个block中每行有Db.x个thread，每列有Db.y个thread，高度为Db.z。Db.x和Db.y最大值为512，Db.z最大值为62。一个block中共有Db.x*Db.y*Db.z个thread。计算能力为1.0,1.1的硬件该乘积的最大值为768，计算能力为1.2,1.3的硬件支持的最大值为1024。
参数Ns是一个可选参数，用于设置每个block除了静态分配的shared Memory以外，最多能动态分配的shared memory大小，单位为byte。不需要动态分配时该值为0或省略不写。
参数S是一个cudaStream_t类型的可选参数，初始值为零，表示该核函数处在哪个流之中。

CUDA 编程介绍

比如举个计算一个数字每个数字平方和的CUDA实现。

#include <stdio.h>   

__global__ void square(float * d_out, float * d_in)
{  
    int idx = threadIdx.x;  
    float f = d_in[idx];  
    d_out[idx] = f * f;  
}  

int main(int argc, char ** argv) 
{  
    const int ARRAY_SIZE = 64;  
    const int ARRAY_BYTES = ARRAY_SIZE * sizeof(float);  

    // generate the input array on the host   
    float h_in[ARRAY_SIZE];  
    for (int i = 0; i < ARRAY_SIZE; i++)
    {  
        h_in[i] = float(i);  
    }  
    float h_out[ARRAY_SIZE];  

    // declare GPU memory pointers   
    float *d_in;  
    float *d_out;  

    // allocate GPU memory   
    cudaMalloc((void**) &d_in, ARRAY_BYTES);  
    cudaMalloc((void**) &d_out, ARRAY_BYTES);  

    // transfer the array to the GPU   
    cudaMemcpy(d_in, h_in, ARRAY_BYTES, cudaMemcpyHostToDevice);  

    // launch the kernel   
    square<<<1, ARRAY_SIZE>>>(d_out, d_in);  

    // copy back the result array to the CPU   
    cudaMemcpy(h_out, d_out, ARRAY_BYTES, cudaMemcpyDeviceToHost);  

    // print out the resulting array   
    for (int i =0; i < ARRAY_SIZE; i++) {  
        printf("%f", h_out[i]);  
        printf(((i % 4) != 3) ? "\t" : "\n");  
    }  
    cudaFree(d_in);  
    cudaFree(d_out);  

    return 0;  
}

CUDA 数据同步

原本有问题的代码：

__global__ void shift(){  
    int idx = threadIdx.x;  
    __shared__ int array[128];  
    array[idx] = threadIdx.x;  
    if (idx < 127) {  
        array[idx] = array[idx + 1];  
    }  
}

设置barrier：

__global__ void shift(){
    int idx = threadIdx.x;
    __shared__ int array[128];
    array[idx] = threadIdx.x;
    __syncthreads();//执行至此，数组中的每一个元素都被正确的赋值
    if (idx < 127) {
        int temp = array[idx + 1];
        __syncthreads();//将一行代码拆分成两行来设置一个barrier,这种技巧非常实用，执行至此，每一个线程都正确的取值
        array[idx] = temp;
        __syncthreads();//确保后续使用array的正确性
    }

}

参考资料：
【1】CUDA 编程指南：http://docs.nvidia.com/cuda/pdf/CUDA_C_Programming_Guide.pdf
【2】CUDA 调用说明：http://blog.csdn.net/augusdi/article/details/12204121
【3】CUDA 核函数的参数解析：http://blog.csdn.net/a925907195/article/details/39500915

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CMU How to Write Fast Code

CUDA

Ubuntu

Visual

Profiler

CUDA 初体验的相关文章

Laravel 路由使用 nginx 覆盖 phpmyadmin 路径

我的 LEMP Droplet 上有以下 nginx 配置 server listen 80 default server listen 80 default server ipv6only on root var www html pub
Nginx no-www 到 www 以及 www 到 no-www

我在用按照教程在 Rackspace 云上安装 nginx http www howtoforge com running phpmyadmin on nginx lemp on debian squeeze ubuntu 11 04并在网
如何在 Ubuntu 上安装 Impala？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我要安装Impala https impala apache org 在 Ubuntu 实例上到目前为止以下方法都不起作用如何在 U
无法解析“adb version”的输出

我使用 Ubuntu 11 10 和 Eclipse 进行 Android 开发我已经创建了一个新项目但它包含错误 Failed to parse the output of adb version 如果有人知道我该如何解决这个问题我
在linux上编译一个基本的OpenCV + Cuda程序

我过去在linux上使用过opencv 但没有使用过cuda 几个月来我一直在与以下编译错误作斗争在尝试了许多解决方案后我放弃并使用 Windows 不过我真的很想在 Linux 上工作这是我用来编译 opencv gpu 网站上给
MPI+CUDA 与纯 MPI 相比有何优势？

加速应用程序的常用方法是使用 MPI 或更高级别的库例如在幕后使用 MPI 的 PETSc 并行化应用程序然而现在每个人似乎都对使用 CUDA 来并行化他们的应用程序或使用 MPI 和 CUDA 的混合来解决更雄心勃勃更大的问题感兴
如何优化这个 CUDA 内核

我已经分析了我的模型似乎该内核约占我总运行时间的 2 3 我一直在寻找优化它的建议代码如下 global void calcFlux double concs double fluxes double dt int idx blockI
在 /usr 下找不到 libmysqlclient。在 Ubuntu 12.4 上从源代码构建 PHP 5.2

我试图建立PHP 5 2 17从源头开始Ubuntu 12 4 64bit使用此配置 configure prefix opt php5 2 with config file path opt php5 2 with mysql 但我不断收
如何使用 python 或 CL 将文件复制到剪贴板，然后使用 STRG+V 粘贴它？

我正在尝试将文件复制使用 python 或 CL 命令然后可以使用 python 调用到剪贴板以便稍后使用 STRG V 粘贴它据我了解文件不会移动到剪贴板中而是剪贴板保存路径和告诉操作系统这是一个文件的参数标志我
Boost 更新失败，现在不确定我拥有哪个版本

在 Ubuntu 22 04 上运行此命令以获得 Boost 1 82 sudo add apt repository ppa mhier libboost latest sudo apt update sudo apt install l
CUDA线程执行顺序

我有一个 CUDA 程序的以下代码 include
关闭终端后保持express进程存活

我试图在关闭终端后保持进程正常运行是一个带有express的node js项目基本上对于其他进程我通过以下方式保持进程处于活动状态 node server js 我这样就可以完成 SSH 连接并关闭控制台但对于 Express 我
在 ubuntu 10 64 位上安装 java 时出错

EDIT 我添加此注释是为了解释为什么我将这个问题保留在这里我添加了 Android 作为关键字我想知道其他人是否尝试过下载代码以及如何解决此问题我担心如果我问 Ubuntu 他们会建议我使用 OpenJDK 但问题是有人使用该 S
在 Ubuntu 12.04 中打开 eclipse juno 并出现错误“No more handles ...”

从今天开始每次我打开 Eclipse 时都会弹出一个标题为出现问题的消息框内容如下不再处理未知的 Mozilla 路径未设置 MOZILLA FIVE HOME 可能的参数 0 1 2 3 不再有句柄未知的 Mozilla
如何在 CUDA 中执行多个矩阵乘法？

我有一个方阵数组int M 10 以便M i 定位第一个元素i th 矩阵我想将所有矩阵相乘M i 通过另一个矩阵N 这样我就收到了方阵数组int P 10 作为输出我看到有不同的可能性分配不同元素的计算M i 到不同的线程例如我
如何在ubuntu服务器上安装android SDK

我在 ubuntu 服务器中有一个 React Native 项目我想构建一个用于生产的 Android 应用程序为此我首先必须生成 Gradle Wrapper 文件因此我在中运行此命令android目录 gradle wrapp
VS Code 不会构建具有多个 .cpp 源文件的 C++ 程序

请注意我在 Ubuntu 17 10 上使用 VS Code 并使用 GCC 编译器我在构建一个使用附加 cpp 文件的简单程序时遇到问题我可能在这里遗漏了一些明显的东西因为我对编程相当陌生但我会解释到目前为止我所做的事情这阻止
如何检查程序是否在 Windows 上的 Ubuntu 上的 Bash 中运行，而不仅仅是普通的 Ubuntu？

非常简单确定您所使用的操作系统的通常位置似乎与 Ubuntu for Windows 上的普通 Ubuntu 相同例如uname a与本机 GNU Linux 安装相同并且 etc os version与 Ubuntu Trusty T
设置最大 CUDA 资源

我想知道是否可以设置 CUDA 应用程序的最大 GPU 资源例如如果我有一个 4GB GPU 但希望给定的应用程序只能访问 2GB 如果它尝试分配更多就会失败理想情况下这可以在进程级别或 CUDA 上下文级别上设置不目前没有允
如何在 Anaconda 中使用 Python Dbus 绑定

我正在尝试在 Anaconda python 环境上安装 dbus 但我很挣扎这是我收到的错误消息 e gateway python Python 3 5 4 Anaconda custom 64 bit default Oct 13 2

随机推荐

ChatGPT在编程方面的用例：节省时间并提高工作效率

除非您一直住在树林里的小屋里远离电网否则您可能听说过ChatGPT AI 聊天机器人于 2022 年 11 月发布并引起了不小的轰动这引出了一个问题这项激动人心的新技术究竟能为您您的企业和您的行业做什么 ChatGPT 在各个领域
山洪灾害监测预警系统解决方案

一方案背景山洪灾害是指山丘地区由降雨引起的洪水泥石流和滑坡灾害近年来我国突发性局部性极端强降雨引发的山洪灾害导致大量人员伤亡占洪涝灾害死亡总人数的比例趋上升趋势群死群伤事件时有发生山洪灾害严重制约山区和丘陵地区经济发展人
webpack

一背景随着前端的项目逐渐扩大必然会带来的一个问题就是性能尤其在大型复杂的项目中前端业务可能因为一个小小的数据依赖导致整个页面卡顿甚至奔溃一般项目在完成后会通过webpack进行打包利用webpack对前端项目性能优化是一个
Spring源码深度解析：三、容器的刷新 - refresh()

一前言文章目录 Spring源码深度解析文章目录我们先通过Spring源码的整体流程来了解Spring的工作流程是什么接着根据这个工作流程一步一步的阅读源码二 Spring容器的启动 public class Test pub
QT页面旋转涉及源码修改

QT页面旋转涉及源码修改 qlinuxfbscreen cpp qlinuxfbscreen h qt页面旋转在源码中直接搜索这两个文件名称直接替换内容即可 qlinuxfbscreen cpp Copyright C 2016 The
Mongo进阶--存储原理

存储引擎 Storage wiredTiger引擎 3 0新增引擎官方宣称在read insert和复杂的update下具有更高的性能所以后续版本我们建议使用wiredTiger 所有的write请求都基于文档级别的lock 因此
GitHub 供应链安全已支持 Dart 开发者生态

通过 Dart 和 GitHub 团队的共同努力自 10 月 7 日起 GitHub 的 Advisory Database 安全咨询数据库 Dependency Graph 依赖项关系图和 Dependabot 依赖更新机器人开始支
MySQL 时间减法

select date sub curdate interval 1 SECOND 减一秒 select date sub curdate interval 1 MINUTE 减一分钟 select date sub curdate int
linux远程telnet和ss都连不上,CentOS7 可以ping通但是telnet无法连接上端口的问题

在一台全新的Linux上部署项目遇到了一些问题 1 安装zookeeper 启动成功正常运行本地通过telnet无法连接到zookeeper 可能原因 1 可能是端口没有起来通过ss ntl可以清楚看到 2181端口已经启动起来了
P1005 最大公约数

算法欧几里得辗转相除法 include
文件包含 78-79

web78 没有什么绕过 file php filter convert base64 encode resource flag php构建这个伪协议之后可以得到flag 首先这是一个file关键字的get参数传递 php 是一种协议名称
2020年中国研究生数学建模竞赛B题

降低汽油精制过程中的辛烷值损失模型一背景汽油是小型车辆的主要燃料汽油燃烧产生的尾气排放对大气环境有重要影响为此世界各国都制定了日益严格的汽油质量标准见下表汽油清洁化重点是降低汽油中的硫烯烃含量同时尽量保持其辛烷值欧盟和
JavaScript的一些设计原则

1 单一职责原则 SRP 单一职责原则通常指一个类只有一种功能但是JavaScript是一门面向对象的语言没有类的概念所以单一职责在JavaScript中的含义是一个对象方法只有一种功能那么为什么需要单一职责原则呢是因为不
「Web3大厂」价值70亿美元的核心竞争力

经过近 5 年的研发和酝酿 Linea 团队在 7 月的巴黎 ETHCC 大会期间宣布了主网 Alpha 的上线引起了社区的广泛关注截止 8 月 4 日据 Dune 数据信息显示其主网在一周内就涌入了 100 多个生态项目跨入了超
远程桌面链接怎么用（win10电脑远程桌面连接工具怎么使用）

相信很多人都已经使用过QQ的远程协助远程协助功能可以实现好友间桌面共享还可以让好友操作自己的电脑帮助解决一些电脑问题然而很多人却忽略了Windows本身就附带的一个功能远程桌面连接其实它的功能性能等一点都不弱而且它比很多第
融云荣获「2023 中国数字生态通信领军企业」奖

融云北极星如何协助开发者排查问题和预警风险 8月17日直播课点击上方报名由 B P 商业伙伴主办的 2023 数字生态大会于 8 月 4 日在京举行融云携数智办公解决方案受邀参展并获 2023 中国数字生态通信领军企业奖关注
微信H5页面背景音乐自动播放

移动端默认是禁止背景音乐自动播放的很多需求都需要在页面加载完成的情况下同时出现背景音乐基于微信的H5页面的音频自动播放的方法网上有很多教程本次分享的只是一种思路
angular 单元测试jest

前言最近公司要求笔者开发编写项目单元测试之前使用过angular框架但是不知道原来在生成组件的时候多的内个文件 name spec ts 是用来编写angular的单元测试的下面简单介绍一下关于单元测试的一些问题单元测试代码和业务
java基础:初始化块

初始化块 1 什么是初始化块初始化块是java类中可出现的第四种成员成员变量方法构造器一个类中可以有多个初始化块 2 初始化块的作用从某种程度来看初始化块是构造器的补充初始化块总是在构造器执行之前执行系统通压根可以使用初始
CUDA 初体验

CUDA Visual Profiler CUDA编程指导 shared memory Page locked out memory C CUDA 调用 CUDA 编程介绍 CUDA 数据同步 CUDA Visual Profiler 在上