cublas 实战

2023-11-13

导言

搞了一段时间的CUDA程序，虽然也不是写不出复杂程序，但是写个矩阵乘法都要搞个半天，还要担心各种性能瓶颈。不过，还好有cublas，实现了非常多的数学运算，这下子可以好好利用一番。以后再也不用担心自己写的CUDA效率不高了。

入门

cuBLAS的官方文档再这里，不懂的函数可以查。

cublas和matlab非常像，存储数组时，默认是列优先存储，而且是从1开始的。从C转过来，非常不习惯，不过你可以自己设置。

用 cublas之前你必须还是得会基本的CUDA，比如如何管理GPU显存。这里假设你都会了。

实例一

#include <stdio.h> 
#include <stdlib.h> 
#include <math.h>
#include <cuda_runtime.h> 
#include "cublas_v2.h" 

#define M 6 
#define N 5 
#define IDX2F(i,j,ld) ((((j)-1)*(ld))+((i)-1)) 

static __inline__ 
void modify(cublasHandle_t handle, float *m, int ldm, int n, 
            int p, int q, float alpha, float beta) {
    cublasSscal(handle, n - p + 1, &alpha, &m[IDX2F(p, q, ldm)], ldm);
    cublasSscal(handle, ldm - p + 1, &beta, &m[IDX2F(p, q, ldm)], 1);
}
int main(void) {
    cudaError_t cudaStat;
    cublasStatus_t stat;
    cublasHandle_t handle;
    int i, j;
    float* devPtrA;
    float* a = 0;
    a = (float *)malloc(M * N * sizeof(*a));
    if (!a) {
        printf("host memory allocation failed");
        return EXIT_FAILURE;
    }
    for (j = 1; j <= N; j++) {
        for (i = 1; i <= M; i++) {
            a[IDX2F(i, j, M)] = (float)((i - 1) * M + j);
        }
    }
    cudaStat = cudaMalloc((void**)&devPtrA, M*N*sizeof(*a));
    if (cudaStat != cudaSuccess) {
        printf("device memory allocation failed"); return EXIT_FAILURE;
    }
    stat = cublasCreate(&handle);
    if (stat != CUBLAS_STATUS_SUCCESS) {
        printf("CUBLAS initialization failed\n");
        return EXIT_FAILURE;
    }
    stat = cublasSetMatrix(M, N, sizeof(*a), a, M, devPtrA, M);
    if (stat != CUBLAS_STATUS_SUCCESS) {
        printf("data download failed");
        cudaFree(devPtrA); 
        cublasDestroy(handle);
        return EXIT_FAILURE;
    }
    modify(handle, devPtrA, M, N, 2, 3, 16.0f, 12.0f);
    stat = cublasGetMatrix(M, N, sizeof(*a), devPtrA, M, a, M);
    if (stat != CUBLAS_STATUS_SUCCESS) {
        printf("data upload failed");
        cudaFree(devPtrA); cublasDestroy(handle);
        return</

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

caffe

CUDA

c语言

cublas 实战的相关文章

指定 NVCC 用于编译主机代码的编译器

运行 nvcc 时它始终使用 Visual C 编译器 cl exe 我怎样才能让它使用GCC编译器设置CC环境变量到gcc没有修复它我在可执行文件帮助输出中也找不到任何选项在 Windows 上 NVCC 仅支持 Visual C
为什么GK110有192个核心和4个扭曲？

我想感受一下开普勒的架构但这对我来说没有意义如果一个 warp 有 32 个线程其中 4 个被调度执行则意味着 128 个核心正在使用 64 个核心处于空闲状态白皮书中提到了独立指令那么64核是为这些指令保留的吗如果是这样
将 GPUJPEG 项目移植到 Windows

我目前正在尝试移植 GPUJPEG 在 Sourceforge 上 http sourceforge net projects gpujpeg 库基于 CUDA 从 Unix 到 Windows 现在我被卡住了我不知道发生了什么或为什么
使用 CUDA __device__ 函数时出现链接器错误 2005 和 1169（多重定义的符号）（默认情况下应内联）

这个问题与以下问题有很大关系 A 如何将CUDA代码分成多个文件 https stackoverflow com questions 2090974 how to separate cuda code into multiple files
为什么 gcc 和 NVCC (g++) 会看到两种不同的结构大小？

我正在尝试将 CUDA 添加到 90 年代末编写的现有单线程 C 程序中为此我需要混合两种语言 C 和 C nvcc 是 c 编译器问题在于 C 编译器将结构视为特定大小而 C 编译器将相同的结构视为略有不同的大小那很糟我对此感
在 cuda 的 nvcc 编译器中使用 C++20

我正在尝试使用std countr zero 函数从
“计算能力”是什么意思？ CUDA？

我是CUDA编程新手对此了解不多您能告诉我 CUDA 计算能力是什么意思吗当我在大学服务器上使用以下代码时它向我显示了以下结果 for device 0 device lt deviceCount device cudaDevic
cuda cpu功能-gpu内核重叠

我在尝试开发以练习 CUDA 的 CUDA 应用程序时遇到并发问题我想通过使用 cudaMemecpyAsync 和 CUDA 内核的异步行为来共享 GPU 和 CPU 之间的工作但我无法成功重叠 CPU 执行和 GPU 执行它与主机
cuda 共享内存 - 结果不一致

我正在尝试并行缩减以对 CUDA 中的数组求和目前我传递一个数组来存储每个块中元素的总和这是我的代码 include
CUDA Thrust 和 sort_by_key

我正在寻找 CUDA 上的排序算法它可以对元素数组 A 双精度进行排序并返回该数组 A 的键 B 数组我知道sort by keyThrust 库中的函数但我希望元素数组 A 保持不变我能做些什么我的代码是 void sort
在linux上编译一个基本的OpenCV + Cuda程序

我过去在linux上使用过opencv 但没有使用过cuda 几个月来我一直在与以下编译错误作斗争在尝试了许多解决方案后我放弃并使用 Windows 不过我真的很想在 Linux 上工作这是我用来编译 opencv gpu 网站上给
如何优化这个 CUDA 内核

我已经分析了我的模型似乎该内核约占我总运行时间的 2 3 我一直在寻找优化它的建议代码如下 global void calcFlux double concs double fluxes double dt int idx blockI
如何确定完整的 CUDA 版本 + 颠覆版本？

Linux 上的 CUDA 发行版曾经有一个名为version txt例如 CUDA Version 10 2 89 这非常有用但是从 CUDA 11 1 开始该文件不再存在我如何在 Linux 上通过命令行确定并检查 path t
CUDA 常量内存是否应该被均匀地访问？

我的 CUDA 应用程序的恒定内存小于 8KB 既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化如果是如何确保所有线程同时访问同一地址既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化是的这缓存本身每
cuda中有模板化的数学函数吗？ [复制]

这个问题在这里已经有答案了我一直在寻找 cuda 中的模板化数学函数但似乎找不到在普通的 C 中如果我调用std sqrt它是模板化的并且将根据参数是浮点数还是双精度数执行不同的版本我想要这样的 CUDA 设备代码我的内核将真
CUDA、NPP 滤波器

CUDA NPP 库支持使用 nppiFilter 8u C1R 命令过滤图像但不断出现错误我可以毫无问题地启动并运行 boxFilterNPP 示例代码 eStatusNPP nppiFilterBox 8u C1R oDeviceS
cudaMemcpy() 与 cudaMemcpyFromSymbol()

我试图找出原因cudaMemcpyFromSymbol 存在似乎 symbol func 可以做的所有事情 nonSymbol cmd 也可以做 symbol func 似乎可以轻松移动数组或索引的一部分但这也可以使用 nonSymbo
如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题总而言之我有两个数组向量我需要对一个数组向量进行排序并将更改传播到另一个数组向量中这样如果我对 arrayOne 进行排序则对于排序中的每个交换 arrayTwo 也会发生同样的情况现在我知
如何在 Caffe 中从头开始训练 ResNet101 模型？

我正在使用深度实验室 v2 https bitbucket org aquariusjay deeplab public ver2Caffe 版本以便进行语义分割我可以使用 imagenet 模型微调 ResNet101 但无法使用自定
内联 PTX 汇编代码强大吗？

我看到一些代码示例人们在 C 代码中使用内联 PTX 汇编代码 CUDA工具包中的文档提到PTX很强大为什么会这样呢如果我们在 C 代码中使用这样的代码我们会得到什么好处内联 PTX 使您可以访问未通过 CUDA 内在函数公开的指

随机推荐

springSecurity跨域CORS处理

续言之前知识追寻者写过关于springboot 的跨域处理并且介绍了跨域相关的概念具体的可以查看这篇知识追寻者springboot教程系列文章 https zszxz com category springboot article
iOS“断点”(Break Point)你不知道多强大

iOS 断点 Break Point 你不知道多强大转载自http mp weixin qq com s biz MzA4ODk0NjY4NA mid 230272985 idx 1 sn 045c98bfb2d8dd1ecf7a7321
ssh配置config文件，实现vscode免密登陆

在使用ssh连接服务器时每一次用vscode连接服务器进行开发都需要输入密码相当鸡肋对config的配置能够实现解决这个问题 step1 生成ssh密钥如果已经有了就不需要了使用以下命令一路回车即可 ssh keygen t
触发connect超时事件

触发connect超时事件有关于如何触发connect超时事件之前相当然的认为在服务器程序accpet函数前阻塞一段事件就好了这个思路是完全错误的这是我犯了的一个错误没有严格的验证自己的程序就将其发布了出来被小组的小伙伴提问时才
shell编程基础: menu drvien script template（菜单脚本模板）

前言菜单类脚本其实就是我们经常使用的交互脚本在我们安装一个app的时候最常见我们需要使用交互脚本进行一些配置在工作中写一个交互性脚本也同样重要比如我现在需要写一个数据库授权的脚本上下文是这样的我们在开发中都是使用docke
LCD和LED屏幕的工作原理总结

1 点阵取模原理之横向取模与纵向取模 1 1 针式打印机针式打印机16针是纵向排列每次打印垂直的16bit 然后右移一bit 继续下列打印字节的MSB表示最上面的点字节LSB表示最下面的点由于汉字字模的点阵是横向排列的而提供给打
实现单层神经网络

在前面我们分别使用逻辑回归和 softmax 回归实现了对鸢尾花数据集的分类逻辑回归能够实现线性二分类的任务他其实就是最简单的神经网络感知机而softmax回归则实现的是多分类任务它也可以看做是输出层有多个神经元的单层神经网络
Flink之IntervalJoin介绍

InterValJoin算子间隔流一条流去join另一条流去过去一段时间内的数据该算子将keyedStream与keyedStream转化为DataStream 再给定的时间边界内默认包含边界相当于一个窗口按指定的key对俩个K
(ESP32学习13)驱动TFTLCD（SPI接口）

本篇博文教大家ESP32 驱动TFT SPI驱动本文给大家的库直接适用于2寸 240 320 的SPI TFT 但实际上这种驱动移植适用于所有的SPI驱动的TFT屏幕底层代码把LCD初始化里面的寄存器参数改一改就适用了这些寄存器参数在
基于STM32F103循迹小车

本人小白一个利用暑假时间在家做一些小东西我这次想要跟大家分享的是基于STM32F103的循迹小车的制作两个轮子主要硬件板子 L298N 电机 4个循迹模块等话不多说先上干货 XJ c include XJ h 循迹文件 inc
KEIL下载报错——TRACE HW not present

使用st link调试遇到烧写完成之后不能进入调试状态提示TRACE HW not present 点击确认提示错误 Erron target DLL has been cancelled Debugger aborted 解决办法第
何在python里面用tkinter模块做一个GUI界面，实现button点击之后弹出新页面，新页面是一些文字内容

首先弹出新页面需要用到callback函数代码编写如下 import scapy from tkinter import root tk Tk root wm geometry 600x400 root title tk def call
ShinyApp中的表格：第三天笔记

shiny中的表格除了在shinyapp中生成图片有时还需要生成表格用于查看数据以及保存下载表格分为两类动态和静态静态的表格更有利于打印和输出pdf 而动态的表格提供了更多的交互式选项还会响应屏幕的大小来进行缩放静态表格
从材质到外观（待续）

很多地方都只有材质然后shader中最终肯定是到片元着色器也就是appearance 后处理是单独的poststage var appearance new Ceisum MaterialAppearance Cesium Mater
一次ORA-39083,ORA-01917的问题解决过程

一次ORA 39083 ORA 01917的问题解决过程今天到导数据的时候遇到了一个问题也不知道有没有其他小伙伴也遇到过按照要求导出一个用户下指定表的部分数据此时使用了expdp的tables参数指定要导出的表这里我导出的是BKG
hdu 6311 Cover

无向图的最小路径覆盖找出联通块里所有的奇度点然后两个两个的点互相连边构造成所有点都是偶度数然后就找联通块里有多少条欧拉回路如果回路中有新加的边则答案 include
分析结果循环写入csv

30户的暖气的分析结果复制粘贴下来发给队友好像是有点多了一个对话框都过不去被嫌弃了你就不能给我打包个excel 好吧 import csv with open result csv w as csvfile writer csv wr
Docker 安装运行 ElasticSearch 遇到的问题！

在创建 6 4 3版本的 ES 以后启动发现过了一会 ES 自动退出了原因好像是 ES 的默认分配的内存太大了进程被自动杀死了所以以下我来记录下这坑使用ES工具类索引时运行测试方法时报错 org elasticsearch tran
【linux--------基础Apache配置】

这里写目录标题关于Apache介绍部署简单的Apache静态网站常见问题关于Apache介绍 Apache是一个开源的Web服务器软件它是世界上最流行的Web服务器之一 Apache的全称为Apache HTTP Server 它
cublas 实战

导言搞了一段时间的CUDA程序虽然也不是写不出复杂程序但是写个矩阵乘法都要搞个半天还要担心各种性能瓶颈不过还好有cublas 实现了非常多的数学运算这下子可以好好利用一番以后再也不用担心自己写的CUDA效率不高了入门 cu

cublas 实战

导言

入门

实例一

cublas 实战 的相关文章

随机推荐

热门标签

cublas 实战的相关文章