如何查看矩阵乘法的进度？

2024-01-05

我现在只需要显示矩阵乘法的中间进度。

for(unsigned int col=0; col<mtxSize; col++) {
         unsigned tmp = 0;
         for(unsigned int row=0; row<mtxSize; row++) {
             for(unsigned int idx=0; idx<mtxSize; idx++) {
                 tmp += h_A[col*mtxSize+idx] * h_B[idx*mtxSize+row];
            }
             h_Rs[col*mtxSize+row] = tmp;
             tmp = 0;
             int rate_tmp = (col*mtxSize + (row+1))*100;
             // Maybe like this...
             fprintf(stdout, "Progress : %d.%d %%\r", rate_tmp/actMtxSize, rate_tmp%actMtxSize);
             fflush(stdout);
         }
}

对于主机代码（使用CPU）来说，这很容易，因为它是按顺序处理的，所以我们可以很容易地检查。

但是对于GPU并行处理的情况，我该怎么办呢？

内核一旦运行，直到内核执行完成才返回。

所以我无法在内核执行期间检查中间数据。

我想我需要使用异步内核调用，但我不太了解。

即使使用异步内核调用，要通过处理器查看所有数据到多个块中，我是否必须编写包含一些开销的atomicAdd()（换句话说，全局内存访问）函数？

给我一些建议或提示。

我想知道 CUDA 的情况。

下面的代码演示了如何检查矩阵乘法内核的进度：

#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#define TIME_INC 100000000
#define INCS 10
#define USE_PROGRESS 1
#define MAT_DIMX 4000
#define MAT_DIMY MAT_DIMX

#define cudaCheckErrors(msg) \
    do { \
        cudaError_t __err = cudaGetLastError(); \
        if (__err != cudaSuccess) { \
            fprintf(stderr, "Fatal error: %s (%s at %s:%d)\n", \
                msg, cudaGetErrorString(__err), \
                __FILE__, __LINE__); \
            fprintf(stderr, "*** FAILED - ABORTING\n"); \
            exit(1); \
        } \
    } while (0)

__global__ void mykernel(volatile int *data){

  unsigned long time;
  for (int i = 0; i < INCS; i++){
    atomicAdd((int *)data,1);
    __threadfence_system();
    time = clock64();
    while((clock64() - time)<TIME_INC) {};
    }
  printf("progress check finished\n");
}

__global__ void matmult(float *a, float *b, float *c, unsigned int rowA, unsigned int colA, unsigned int colB, volatile int *progress){
  unsigned int row = threadIdx.x+blockDim.x*blockIdx.x;
  unsigned int col = threadIdx.y+blockDim.y*blockIdx.y;
  if ((row < rowA) && (col < colB)){
    float temp = 0.0f;
    for (unsigned int k = 0; k < colA; k++)
      temp += a[(row*colA)+k] * b[(k*colB) + col];
    c[(row*colB)+col] = temp;
#if USE_PROGRESS
    if (!(threadIdx.x || threadIdx.y)){
      atomicAdd((int *)progress, 1);
      __threadfence_system();
      }
#endif
  }
}

int main(){
// simple test to demonstrate reading progress data from kernel
  volatile int *d_data, *h_data;
  cudaSetDeviceFlags(cudaDeviceMapHost);
  cudaCheckErrors("cudaSetDeviceFlags error");
  cudaHostAlloc((void **)&h_data, sizeof(int), cudaHostAllocMapped);
  cudaCheckErrors("cudaHostAlloc error");
  cudaHostGetDevicePointer((int **)&d_data, (int *)h_data, 0);
  cudaCheckErrors("cudaHostGetDevicePointer error");
  *h_data = 0;
  printf("kernel starting\n");
  mykernel<<<1,1>>>(d_data);
  cudaCheckErrors("kernel fail");
  int value = 0;
  do{
    int value1 = *h_data;
    if (value1 > value){
       printf("h_data = %d\n", value1);
       value = value1;}}
    while (value < (INCS-1));
  cudaDeviceSynchronize();
  cudaCheckErrors("kernel fail 2");

// now try matrix multiply with progress

  float *h_c, *d_a, *d_b, *d_c;
  h_c = (float *)malloc(MAT_DIMX*MAT_DIMY*sizeof(float));
  if (h_c == NULL) {printf("malloc fail\n"); return 1;}
  cudaMalloc((void **)&d_a, MAT_DIMX*MAT_DIMY*sizeof(float));
  cudaCheckErrors("cudaMalloc a fail");
  cudaMalloc((void **)&d_b, MAT_DIMX*MAT_DIMY*sizeof(float));
  cudaCheckErrors("cudaMalloc b fail");
  cudaMalloc((void **)&d_c, MAT_DIMX*MAT_DIMY*sizeof(float));
  cudaCheckErrors("cudaMalloc c fail");

  for (int i = 0; i < MAT_DIMX*MAT_DIMY; i++) h_c[i] = rand()/(float)RAND_MAX;
  cudaMemcpy(d_a, h_c, MAT_DIMX*MAT_DIMY*sizeof(float), cudaMemcpyHostToDevice);
  cudaCheckErrors("cudaMemcpy a fail");
  cudaMemcpy(d_b, h_c, MAT_DIMX*MAT_DIMY*sizeof(float), cudaMemcpyHostToDevice);
  cudaCheckErrors("cudaMemcpy b fail");

  cudaEvent_t start, stop;
  cudaEventCreate(&start); cudaEventCreate(&stop);
  *h_data=0;
  dim3 block(16,16);
  dim3 grid(((MAT_DIMX+block.x-1)/block.x), ((MAT_DIMY+block.y-1)/block.y));
  printf("matrix multiply kernel starting\n");
  cudaEventRecord(start);
  matmult<<<grid,block>>>(d_a, d_b, d_c, MAT_DIMY, MAT_DIMX, MAT_DIMX, d_data);
  cudaEventRecord(stop);
#if USE_PROGRESS
  unsigned int num_blocks = grid.x*grid.y;
  float my_progress = 0.0f;
  value = 0;
  printf("Progress:\n");
  do{
    cudaEventQuery(stop);  // may help WDDM scenario
    int value1 = *h_data;
    float kern_progress = (float)value1/(float)num_blocks;
    if ((kern_progress - my_progress)> 0.1f) {
      printf("percent complete = %2.1f\n", (kern_progress*100));
      my_progress = kern_progress;}}
    while (my_progress < 0.9f);
  printf("\n");
#endif
  cudaEventSynchronize(stop);
  cudaCheckErrors("event sync fail");
  float et;
  cudaEventElapsedTime(&et, start, stop);
  cudaCheckErrors("event elapsed time fail");
  cudaDeviceSynchronize();
  cudaCheckErrors("mat mult kernel fail");
  printf("matrix multiply finished.  elapsed time = %f milliseconds\n", et);


  return 0;
}

与第一个内核调用相关的代码只是为了演示让内核报告其进度的基本思想。

代码的第二部分显示了 GPU 上的简单矩阵乘法示例，GPU 报告其进度。我提供了通过预处理器宏删除进度检查代码的功能，以及对矩阵乘法内核进行计时的功能。对于我这里的情况，有或没有进度代码的时间没有明显的差异。因此，虽然进度报告代码可能确实添加了some开销，与合理大小的矩阵乘法内核的范围相比，我认为它并没有增加显着的时间。

讨论了信令的其他一些用途here https://stackoverflow.com/questions/75385530/reading-global-flag-does-not-work-for-cpugpu-data-exchange-in-cuda

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

如何查看矩阵乘法的进度？的相关文章

CUDA - 为什么基于扭曲的并行减少速度较慢？

我有关于基于扭曲的并行减少的想法因为根据定义扭曲的所有线程都是同步的因此我们的想法是输入数据可以减少 64 倍每个线程减少两个元素而无需任何同步与 Mark Harris 的原始实现相同减少应用于块级数据位于共享内存上 h
CUDA全局内存事务的成本

根据 CUDA 5 0 编程指南如果我同时使用 L1 和 L2 缓存在 Fermi 或 Kepler 上则所有全局内存操作都使用 128 字节内存事务完成但是如果我仅使用 L2 则使用 32 字节内存事务第 F 4 2 章让我
如何在 gitlab-ci docker 执行器中使用 cuda

我们正在使用 gitlab 持续集成来构建和测试我们的项目最近其中一个项目添加了 CUDA 的要求以启用 GPU 加速我不想改变我们的管道 docker 和 gitlab ci 对我们来说运行良好所以我想以某种方式让 docker
Ubuntu 11.10/12.04 上的 CUDA“无兼容设备”错误

一段时间以来我一直在尝试在我的笔记本电脑上设置 Ubuntu 环境来进行 CUDA 编程我目前双启动 Windows 8 和 Ubuntu 12 04 并想在 Ubuntu 上安装 CUDA 5 该笔记本电脑配有 GeForce GT
将 GPUJPEG 项目移植到 Windows

我目前正在尝试移植 GPUJPEG 在 Sourceforge 上 http sourceforge net projects gpujpeg 库基于 CUDA 从 Unix 到 Windows 现在我被卡住了我不知道发生了什么或为什么
CUDA：如何在设备上填充动态大小的向量并将其内容返回到另一个设备函数？

我想知道哪种技术可以填充设备上的动态大小数组 int row 在下面的代码中然后返回其内容以供另一个设备函数使用为了将问题置于上下文中下面的代码尝试使用在 GPU 上运行的高斯勒让德求积来跨越勒让德多项式基组中的任意函数 incl
当我有表面声明时，如何为 sm_1X 和 sm_2X 编译 CUDA 程序

我正在编写一个使用表面重新采样并写入纹理来提高性能的库 surface
CUDA 中的广义霍夫变换 - 如何加快分箱过程？

正如标题所示我正在对并行计算机视觉技术进行一些个人研究使用 CUDA 我尝试实现 GPGPU 版本的霍夫变换我遇到的唯一问题是在投票过程中我调用atomicAdd 来防止多个同时写入操作但我似乎没有获得太多的性能效率我在网上搜索
CUDA Thrust 和 sort_by_key

我正在寻找 CUDA 上的排序算法它可以对元素数组 A 双精度进行排序并返回该数组 A 的键 B 数组我知道sort by keyThrust 库中的函数但我希望元素数组 A 保持不变我能做些什么我的代码是 void sort
如何优化这个 CUDA 内核

我已经分析了我的模型似乎该内核约占我总运行时间的 2 3 我一直在寻找优化它的建议代码如下 global void calcFlux double concs double fluxes double dt int idx blockI
CUDA Visual Studio 2010 Express 构建错误

我正在尝试在 64 位 Windows 7 上使用 Visual Studio 2010 Express 在 Windows 上开始 CUDA 编程我花了一段时间来设置环境然后我刚刚编写了我的第一个程序 helloWorld cu 目前
CUDA 常量内存是否应该被均匀地访问？

我的 CUDA 应用程序的恒定内存小于 8KB 既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化如果是如何确保所有线程同时访问同一地址既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化是的这缓存本身每
加速Cuda程序

要更改哪一部分来加速此代码代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
cuda中有模板化的数学函数吗？ [复制]

这个问题在这里已经有答案了我一直在寻找 cuda 中的模板化数学函数但似乎找不到在普通的 C 中如果我调用std sqrt它是模板化的并且将根据参数是浮点数还是双精度数执行不同的版本我想要这样的 CUDA 设备代码我的内核将真
__device__ __constant__ 常量

有什么区别吗在 CUDA 程序中定义设备常量的最佳方法是什么在 C 主机设备程序中如果我想将常量定义在设备常量内存中我可以这样做 device constant float a 5 constant float a 5 问题 1
CUDA、NPP 滤波器

CUDA NPP 库支持使用 nppiFilter 8u C1R 命令过滤图像但不断出现错误我可以毫无问题地启动并运行 boxFilterNPP 示例代码 eStatusNPP nppiFilterBox 8u C1R oDeviceS
CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int
VS 程序在调试模式下崩溃，但在发布模式下不崩溃？

我正在 VS 2012 中运行以下程序来尝试 Thrust 函数查找 include cuda runtime h include device launch parameters h include
通过 cuFFT 进行逆 FFT 缩放

每当我使用 cuFFT 绘制程序获得的值并将结果与 Matlab 的结果进行比较时我都会得到相同形状的图形并且最大值和最小值位于相同的点然而 cuFFT 得到的值比 Matlab 得到的值大得多 Matlab代码是 fs 1000 s

随机推荐

如何在Servlet 2.4版本的init()方法中获取ContextPath

我使用的是2 4版本Servlet我需要得到ContextPath通过init 在服务器启动时调用的方法所以我没有任何请求对象可以调用getContextPath 而且因为我没有Servlet版本getContextPath 方法中的Se
Ruby Net::SSH 使用变量插值更改目录

我对 Ruby 还很陌生所以如果我遗漏了一些明显的东西请原谅我问题是 Ruby 似乎没有在 Net SSH exec 中进行变量插值方法 VCL DIR usr local etc varnish host 0 0 0 0 Net
jQuery：当在错误函数中使用时，getResponseHeader 在 IE 中不起作用

我正在使用 jQuery 1 7 1 随着Ajax 表单插件 http jquery malsup com form 最新版本可用当我执行 Ajax 请求时例如 form ajaxForm success function data a
使用手套中的训练数据获取数据集的词嵌入

我最近在我的 mac 中安装了 gensim 和 glove 并尝试为我拥有的文本数据获取词嵌入但是我很难找到合适的功能我只遇到过获取两个单词之间相似性度量的方法如何使用库中存在的数据训练手套对象并使用它来获取数据集中单词的嵌入或
我应该如何在Python中使用random.jumpahead

我有一个应用程序可以将某个实验执行 1000 次多线程以便同时完成多个实验每个实验都需要大约 50 000 次 random random 调用获得真正随机的最佳方法是什么我可以将随机对象复制到每个实验中然后跳转 50 000
网站可以检测到您何时将 selenium 与 geckodriver 一起使用吗？

是否可以检测由 Selenium 和 geckodriver 控制的 Firefox 浏览器实例注意有一个chromedriver 的相应答案 https stackoverflow com questions 33225947 can
如何获取 Ant 中的 basedir 路径中最后一个文件夹的名称？

假设我的 basedir c projects myapp 1 2 我怎样才能在房产中获得 1 2 Check this http ant apache org manual Tasks basename html out
Android 完全透明的状态栏？

I ve searched the documentation but only found this Link http developer android com about versions android 4 4 html UI W
JavaScript 中的原型不好吗？

In Felix 的 Node js 风格指南 http nodeguide com style html它说不要扩展任何原型对象尤其是本地对象那里地狱里有一个特殊的地方等待着如果你不遵守这条规则本文 http howtono
整数如何存储在内存中？

当我阅读一篇有关大小端的文章时我很困惑代码如下 include
在 Centos 6.3 中使用 php-ldap

我正在尝试使用 php 构建 LDAP 界面但遇到了这个奇怪的问题我已经在我的基本 php 安装上使用 yum 安装了 php ldap 包但每当我调用 ldap connect 时它都会说该函数未定义看到 phpinfo 我可以
正则表达式逗号后面没有空格

我目前正在尝试创建一个表达式以捕获所有后面没有空格的逗号以及所有冒号我试过了 s 很接近但似乎也抓住了逗号后面没有空格的字符我也尝试过 s 它将抓取所有冒号和所有逗号其后有一个空格以及空格我希望选择的内容包含在下面的中你好
如何更改视频方向

我目前有一个 iPhone 应用程序可以让用户拍摄视频将其上传到服务器并允许其他人从该应用程序查看他们的视频从来没有遇到过视频方向的问题直到我制作一个网站来观看不同的视频以及其他内容我使用来自网络服务的视频并使用 video
无法解析模块react/lib/ReactUpdates

我正在克隆一个项目步骤是 npm i 反应本机链接当我运行它时react native run ios我有一个问题RCTWebSocket图书馆如果你稍微搜索一下这个问题很容易解决只需要删除 2 个编译器标志在Custom Co
如何从python Flask中的mongodb mlab返回包含键中特定关键字的文档[重复]

这个问题在这里已经有答案了我在 mongodb 中有这个集合我的收藏 id 5ad2079019551a2108588add brand name MAZOLA LIZA name pyd id 5ad2079019551a210858
“ng build”与“ng build --prod”不一致

我正在开发一个有角度的应用程序 Using Angular 5 2 5 角度 CLI1 6 8 当我执行命令时 ng build 我没有收到任何错误但是当我尝试生产构建时 ng build prod 我收到错误属性 someProper
Spring启动错误：java.lang.ArrayStoreException：sun.reflect.annotation.TypeNotPresentExceptionProxy

我想使用 spring boot 来启动我的应用程序但是在我在 pom xml 添加一些相关的 jar 后它返回此错误我感谢可能是由一些冲突 jar 引起的应用程序 java package com mm application i
检查日期是否是过去的Javascript

全部我使用 jQuery UI 作为日期选择器我正在尝试使用 javascript 检查用户输入的日期是否是过去的日期这是我的表单代码
计算值太大而无法求幂的马尔可夫链概率

我使用公式 exp X 作为马尔可夫链的速率因此选择一个链接相对于另一个链接的比率是 exp X1 exp X2 我的问题是有时X很大所以exp X 会超出范围double 或者给定一个 X i 数组其中一些 X i 太大以致 e
如何查看矩阵乘法的进度？

我现在只需要显示矩阵乘法的中间进度 for unsigned int col 0 col

如何查看矩阵乘法的进度？

如何查看矩阵乘法的进度？ 的相关文章

随机推荐

热门标签

如何查看矩阵乘法的进度？的相关文章