cuda中用cublas库做矩阵乘法

2023-05-16

这里矩阵C=A*B，原始文档给的公式是C=alpha*A*B+beta*C，所以这里alpha=1，beta=0。

主要使用cublasSgemm这个函数，这个函数的第二个参数有三种类型，这里CUBLAS_OP_N求出来矩阵结果是按行排列，所以不需要转置了。

如果用CUBLAS_OP_T参数求得的结果是按列排列，做成C形式的矩阵应该还需要转置一下，并且后面跟的参数也不太一样，这个参数我就没再尝试了。

代码如下：


#include "cuda_runtime.h"
#include "cublas_v2.h"

#include <stdio.h>
#include <stdlib.h>
#include <iostream>
#include <ctime>

using namespace std;

int main()
{
    srand(time(0));
    int M = 2;            //矩阵A的行，矩阵C的行
    int N = 3;            //矩阵A的列，矩阵B的行
    int K = 4;            //矩阵B的列，矩阵C的列

    float *h_A = (float*)malloc(sizeof(float)*M*N);
    float *h_B = (float*)malloc(sizeof(float)*N*K);
    float *h_C = (float*)malloc(sizeof(float)*M*K);

    for (int i = 0; i < M*N; i++)
    {
        h_A[i] = rand() % 10;
        cout << h_A[i] << "  ";
        if ((i + 1) % N == 0)
            cout << endl;        
    }
    cout << endl;

    for (int i = 0; i < N*K; i++)
    {
        h_B[i] = rand() % 10;
        cout << h_B[i] << "  ";
        if ((i + 1) % K == 0)
            cout << endl;
    }
    cout << endl;

    float *d_A, *d_B, *d_C,*d_CT;
    cudaMalloc((void**)&d_A, sizeof(float)*M*N);
    cudaMalloc((void**)&d_B, sizeof(float)*N*K);
    cudaMalloc((void**)&d_C, sizeof(float)*M*K);

    cudaMemcpy(d_A, h_A, M*N * sizeof(float), cudaMemcpyHostToDevice);
    cudaMemcpy(d_B, h_B, N*K * sizeof(float), cudaMemcpyHostToDevice);

    float alpha = 1;
    float beta = 0;

    //C=A*B
    cublasHandle_t handle;
    cublasCreate(&handle);
    cublasSgemm(handle,
        CUBLAS_OP_N,  
        CUBLAS_OP_N,   
        K,                    //矩阵B的列数
        M,                    //矩阵A的行数
        N,                    //矩阵A的列数
        &alpha,           
        d_B,            
        K,                    
        d_A,         
        N,         
        &beta,          
        d_C,           
        K);

    cudaMemcpy(h_C, d_C, M*K * sizeof(float), cudaMemcpyDeviceToHost);

    for (int i = 0; i < M*K; i++)
    {
        cout << h_C[i] << "  ";
        if ((i+1)%K==0)
            cout << endl;
    }

    cudaFree(d_A);
    cudaFree(d_B);
    cudaFree(d_C);
    free(h_A);
    free(h_B);
    free(h_C);
    return 0;
}

结果：

转载于:https://www.cnblogs.com/tiandsp/p/9463396.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

cuda中用cublas库做矩阵乘法的相关文章

1、智能盆栽初步了解

第一个 xff1a 最好养的植物 Click and Grow智能盆栽 2014年03月14 http www pcpop com doc 0 991 991784 shtml 对于现在的人来说 xff0c 家里种个花啊 xff01 种个草
Linux下添加静态路由表设置网关出现SIOCADDRT: Network is unreachable的问题分析

场景 xff1a route add default gw 192 168 4 1 route SIOCADDRT Network is unreachable 解释 xff1a 1 先ping一下网关 xff0c 但是ping的通不代表一
spring4笔记----报错publicid systemid之间要有空格的解决方法

lt xml version 61 34 1 0 34 encoding 61 34 GBK 34 gt lt beans xmlns xsi 61 34 http www w3 org 2001 XMLSchema instance 34
深入理解Redis的scan命令

熟悉Redis的人都知道 xff0c 它是单线程的因此在使用一些时间复杂度为O N 的命令时要非常谨慎可能一不小心就会阻塞进程 xff0c 导致Redis出现卡顿有时 xff0c 我们需要针对符合条件的一部分命令进行操作 xff0c
react中key的作用

背景 xff1a 如果为父节点添加多个相同的子节点时 xff0c 不添加key属性 xff0c 会报错但同时也会渲染出dom xff0c 渲染出dom其实是证明能从差异对象中渲染出真实dom xff0c 但报错的原因是因为这种写法会影响渲染
redis-cluster集群模式下使用pipeline，mget，mset批量操作

2019独角兽企业重金招聘Python工程师标准 gt gt gt 前言 xff1a Redis在3 0版正式引入了集群这个特性 xff0c 扩展变得非常简单然而当你开心的升级到3 0后 xff0c 却发现有些很好用的功能现在工作不了了
MacOS任意降级（完美教程）

2019独角兽企业重金招聘Python工程师标准 gt gt gt 有道是前人栽树后人乘凉通过搜索引擎各种查阅关于Mac系统的降级方法愚钝的笔者终于成功降级 xff08 其实大部分时间都浪费在下载 xff0c 哭 xff09 虽费了一番
人工智能让生活更美好

人 I 工 I 智 I 能 I到 I来科 I技 I大 I门打 I 开提起人工智能你会想到什么阿尔法围棋浪潮天梭象棋甚至会想到大白吧啦啦啦史密斯电影我机器人科技一直推动社会的变化技术的飞速更迭与人类移动网络化的行为
Pixhawk飞行模式的讨论

手动模式 offboard 地面站操控的区别使用遥控操纵的模式 Simple and Super Simple 选项加了这个选项之后 xff0c 它的磁力计会记录飞机解锁时 xff0c 朝向就是无人机的前方每个飞行模式的旁边都有一个
抖音橱窗怎么添加自己的商品？抖音橱窗上架商品教程

抖音商品橱窗功能一出来就受到了大家的喜爱 xff0c 能在娱乐的同时增加收入是件双赢的事今天小蕙 xff08 renzheng234 xff09 教大家在抖音商品橱窗如何添加自己店铺的商品 xff1f 首先我们要明白 xff1a 商品橱窗
新款 2018款macbook Pro 装双系统教程

首个阅读量将破万的文章 xff0c 感谢支持防止无良爬虫 xff0c 开头附上原文链接 xff1a http www cnblogs com xueyudlut p 7498115 html 分割线苹果笔记本的确高大上 xff0c 外观
MATLAB对于文本文件(txt)数据读取的技巧总结(经典中的经典)

振动论坛原版主eight 的经典贴 http www chinavib com thread 45622 1 1 html MATLAB 对于文本文件 txt 进行数据读取的技巧总结经典中的经典由于本帖内容较多 xff0c 部分转自他
一个止传SWF的好网站

SwfCabin 是一個免費swf空間 xff0c 最初建立的構想在於如何在網路上將swf檔分享給別人使用者可以將swf檔上傳到 SwfCabin 然後獲得一個連結 xff0c 其他人便可以在該頁面看到您所上傳的swf檔案上傳檔案時
SqlServer教程：经典SQL语句集锦

SQL分类 xff1a DDL 数据定义语言 CREATE xff0c ALTER xff0c DROP xff0c DECLARE DML 数据操纵语言 SELECT xff0c DELETE xff0c UPDATE xff0c INS
matlab练习程序（获取鼠标坐标）

还是一个函数的使用ginput clear all close all clc img 61 ones 200 200 imshow img x y 61 ginput 这里鼠标左键点击一次 x y 添加一个值 xff0c 点四次就有四个值
收到了免费的Visual Studio 2005 EE

昨天 xff0c 收到了Micorsoft寄来的MSDN开发精选 xff08 5 xff09 xff0c 其中就包含了SQL Server 2005 Express Edition和Visual c 2005 EE xff0c xff0c
H3C交换机SNMP配置详解

H3C交换机SNMP配置 1 启动关闭SNMP Agent服务在系统视图模式下 xff1a 启用 xff1a snmp agent 关闭 xff1a undo snmp agent 注 xff1a 缺省情况下snmp agent是关闭的
ppp的chap认证完全配置

网络环境 xff1a CHAP认证命令 xff1a cisco config interface s0 0 cisco config if encapsulation ppp cisco config if ppp authenticati
MAVLink认识、使用、自定义

对mavlink的认识 MAVLink是针对小型飞行器 xff08 MAV xff09 的一个lightweight header only message marshalling library 由头文件构成的信息编组库它被封装成C结构
WHY数学图形可视化工具(开源)

WHY数学图形可视化工具软件下载地址 http files cnblogs com WhyEngine WhyMathGraph zip 源码下载地址 http pan baidu com s 1jG9QKq6 软件的开发语言是C 43

随机推荐

docker学习笔记16：Dockerfile 指令 ADD 和 COPY介绍

一 ADD指令 ADD指令的功能是将主机构建环境 xff08 上下文 xff09 目录中的文件和目录以及一个URL标记的文件拷贝到镜像中其格式是 xff1a ADD 源路径目标路径如 xff1a test FROM ubuntu
无限“递归”的python程序

如果一个函数直接或者间接调用了自己 xff0c 那么就形成了递归 xff08 recursion xff09 xff0c 比如斐波那契数列的一个实现 def fib n if n lt 61 2 return 1 else return f
FreeRTOS 二值信号量，互斥信号量，递归互斥信号量

以下转载自安富莱电子 xff1a http forum armfly com forum php 本章节讲解 FreeRTOS 任务间的同步和资源共享机制 xff0c 二值信号量二值信号量是计数信号量的一种特殊形式 xff0c 即共享资源
替代vnc图像远程工具NOMACHINE

最近再做关于oracle rac集群的实验难免要在图像界面下进行操作以前都用的是vnc 但是vnc貌似比较占资源而已图像质量不是很好今天无意发现了一个替代VNC的好工具NOMACHINE 它的官方网址是 http www nomach
antd-design LocaleProvider国际化

1 LocaleProvider 使用 React 的 context 特性 xff0c 只需在应用外围包裹一次即可全局生效 import LocaleProvider from 39 antd 39 import zh CN from 3
python 读取文件、并以十六进制的方式写入到新文件

usr bin env python infile 61 file 34 in mp3 34 34 rb 34 outfile 61 file 34 out txt 34 34 wb 34 def main while 1 c 61 inf
perl的内置函数scalar

scalar可以求数组的长度 xff0c 但是 xff0c 在scalar的说明里面并没有这一项 Forces EXPR to be interpreted in scalar context and returns the value o
sqlalchemy批量删除数据、全量删除

问题 xff1a sqlalchemy如何批量删除多条数据解决 xff1a 使用参数synchronize session 61 False xff0c 或for循环方法 xff1a users 61 self db query Use
经典的同态滤波算法的优化及其应用参数配置。

同态滤波 xff0c 网络上有很多文章提到过这个算法 xff0c 我们摘取百度的一段文字简要的说明了该算法的核心 xff1a 同态滤波是一种减少低频增加高频 xff0c 从而减少光照变化并锐化边缘或细节的图像滤波方法关于该算法 xff0c
Trajectory following with MAVROS OFFBOARD on Raspberry Pi

原文链接 Trajectory following with MAVROS OFFBOARD on Raspberry Pi Jaeyoung Lim August 10 2016 404warehouse Small Projects B
职位介绍之嵌入式开发工程师

笔者电子信息专业硕士毕业 xff0c 获得过多次电子设计大赛大学生智能车数学建模国奖 xff0c 现就职于南京某半导体芯片公司 xff0c 从事硬件研发 xff0c 电路设计研究对于学电子的小伙伴 xff0c 深知入门的不易 xff0
Elementui el-dialog 组件我又学会了一种新的用法

1 新建弹窗Form vue文件将visible属性设置为true lt template gt lt div gt lt el dialog title 61 34 提示 34 visible 61 34 true 34 width 6
webpack系列——实现一个行内样式px转vw的loader

需求自从有了postcss来处理css文件 xff0c 我们可以快速进行网站适配的开发 xff0c 只需要改改参数 xff0c 样式按照设计稿的px写 xff0c webpack编译自动转换成rem或者vw等但是 xff0c 标签内的p
Scrapy爬虫 - 获取知乎用户数据

2016 04 10 Scrapy爬虫获取知乎用户数据安装Scrapy爬虫框架关于如何安装Python以及Scrapy框架 xff0c 这里不做介绍 xff0c 请自行网上搜索初始化安装好Scrapy后 xff0c 执行 scra
百度云下载的压缩吧损坏问题解决

有时用百度云下载压缩包回来之后会出现损坏不能解压的问题 xff0c 比如 xff1a 1 使用网页的批量下载 xff0c 此时百度云会压缩成一个包 xff0c 格式为zip xff0c 而下载下载回来之后用WinRAR解压就会出现CRC校验
理解BPDU Guard的意义（BPDU Guard在全局配置与接口配置上的区别）

BPDU Guard xff08 BPDU保护 xff09 xff0c 简单的讲它的意义就是一个不该接收 BPDU的端口 xff0c 比如被启动了 portfast的端口 xff0c 一旦收到 BPDU报文 xff0c 那么 BPDU保护功
frida hook java原生算法同时打印调用堆栈

coding UTF 8 import frida sys jsCode 61 34 34 34 function showStacks Java perform function send Java use 34 android util
步步为营 .NET 设计模式学习笔记十六、Facade(外观模式)

概述在软件开发系统中 xff0c 客户程序经常会与复杂系统的内部子系统之间产生耦合 xff0c 而导致客户程序随着子系统的变化而变化那么如何简化客户程序与子系统之间的交互接口 xff1f 如何将复杂系统的内部子系统与客户程序之间的依赖解
tld 标签元素

每个自定义标签都必须在tld文件中声明 xff0c tld文件只不过是一个XML文件根元素是 lt taglib gt xff0c 它包含一个或者多个 lt tag gt 标签 xff0c 该元素用来声明定制标签 TLD 文件中的元素标签
cuda中用cublas库做矩阵乘法

这里矩阵C 61 A B xff0c 原始文档给的公式是C 61 alpha A B 43 beta C xff0c 所以这里alpha 61 1 xff0c beta 61 0 主要使用cublasSgemm这个函数 xff0c 这个函数

cuda中用cublas库做矩阵乘法

cuda中用cublas库做矩阵乘法 的相关文章

随机推荐

热门标签

cuda中用cublas库做矩阵乘法的相关文章