一个简单的CUDA程序以及一些总结

2023-11-02

尝试些了自己第一个CUDA程序,结果问题果然很多,先把问题程序框架贴上来。(这个程序是有错误的!)

#include <stdio.h>
#include <stdlib.h>
#include <cutil.h>
#include <cutil_inline.h>

struct PStruct
{
        int PSize;
        float *PMatrix;
};

__global__ void KernelStruct(PStruct *pstruct)
{
        int PSize=pstruct->PSize;
        int Idx=threadIdx.x;
        if (Idx<PSize)
        {
                pstruct->PMatrix[Idx]=pstruct->PMatrix[Idx]+1;
        }
}

int main()
{
        int i;
        PStruct CPU_Struct,GPU_Struct;
        //初始化CPU
        int PSize=10;
        CPU_Struct.PSize=PSize;
        CPU_Struct.PMatrix=(float*)malloc(PSize*sizeof(float));
        for (i=0;i<PSize;i++)
        {
                CPU_Struct.PMatrix[i]=i;
        }

        //初始化GPU
        GPU_Struct.PSize=PSize;
        cutilSafeCall(cudaMalloc((void**)&GPU_Struct.PMatrix,sizeof(float)*PSize));
        cutilSafeCall(cudaMemcpy(GPU_Struct.PMatrix,CPU_Struct.PMatrix,sizeof(float)*PSize,cudaMemcpyHostToDevice));
        
        //核函数
        dim3 grim(PSize,1,1);
        KernelStruct <<<1,grim>>>(&GPU_Struct);

        //拷贝到CPU
        cudaMemcpy(CPU_Struct.PMatrix,GPU_Struct.PMatrix,sizeof(float)*PSize,cudaMemcpyDeviceToHost);

        //打印
        FILE *pFile=fopen("Example.txt","w");
        for (i=0;i<PSize;i++)
        {
                fprintf(pFile,"PMatrix[%d]%f\n",i,CPU_Struct.PMatrix[i]);
        }

        //释放
        cudaFree(GPU_Struct.PMatrix);
        free(CPU_Struct.PMatrix);

        return 0;
}
过程有点悲剧,就直接总结一下问题:

1:数据分配到底是在CPU还是GPU上的问题。其实这个问题很简单,但是自己一直搞混淆了。用malloc分配的就在host上,用cudamalloc分配的就在device上。在CPU上只        能用host上的函数与数据,在GPU上只能用device上的函数与数据。但是CPU和GPU上的通信可以用cudamemcpy等函数通过设置后面的参数得到,也可以通过CPU上的指      针访问GPU上的数据。

2:最重要的是自己一直认为PStruct和PMatrix是一个东西,这个是所有悲剧产生的根源,被各种鄙视无语。在上面的例子中,GPU_Struct是PStruct的一个实例,所以其肯定是      在CPU上的,但是注意这时候其只是包含了一个int类型的数据和一个float类型的地址,这点非常重要,只是float类型的地址在CPU上。后面用cudamalloc给GPU_Struct的        PMatrix分配内存时,得到的空间是在GPU上,但是其地址是在CPU上

3:最后一点,自己多想问题多总结吧,自己离一个独立的个体还差很远。


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

一个简单的CUDA程序以及一些总结 的相关文章

  • Windows系统使用Docker安装Mysql配置详情步骤

    1 开始到结束的全部命令 1 拉去镜像 docker pull mysql 8 0 2 查看镜像 docker images 3 安装容器 lower case table names 1防止大小写错误 命令 docker run itd
  • 超详细的js知识树状图~数组、函数、对象

    前言 学习任何新知识 最重要的永远都是搭建属于自己的知识框架 随后学习的细碎知识点往框架里面填入 最后形成一棵属于自己的知识大树 本系列的博客专注更新总结好的思维导图 希望可以帮助大家快速理清知识结构 注意 本系列文章是拿来建立知识体系 知
  • redis与mysql的区别

    1 在类型上 mysql是关系型数据库 而redis是缓存数据库 2 在作用上 mysql用于持久化的存储数据到硬盘 而redis用于存储使用较为频繁的数据到缓存中 内存 redis用于存储使用较为频繁的数据到缓存中 读取速度快 3 mys
  • 不要错过项目汇报的合理时间

    http blog vsharing com itdays A908850 html 原创 不要错过项目汇报的合理时间 今天想谈谈项目管理中经常要写的项目汇报的问题 项目汇报可以是给老板看的 也可以是给用户看的 不管给谁看的 报告的及时性是
  • 上海万得信息技术 2014笔试题 性格测试 武汉

    看清前面的A B C D哦 后面19题开始都是D C B A 把选好的写下 看哪个选的多 最终就偏向什么性格 比如A选的最多就是A性格 1 关于人生观 我的内心其实是 A 希望能够有尽量多的人生体验 所以会有非常多样化的想法 B在小心合理的
  • 使用DBeaver加载自定义连接驱动jar

    使用DBeaver加载自定义驱动jar 点击数据库 驱动管理器 新建
  • C++ Vector用法(带例程)

    介绍 vector是可变大小数组的序列容器 vector是连续存储的 与数组存储相同 区别是大小是动态改变的 可随机访问 因此vector访问速度快 vector在末尾删除添加元素时相对高效 若在其他任意位置添加删除元素则效率更低 使用 1
  • Window系统下如何生成ssh key以及如何在码云中添加公钥

    前言 本篇文章是以window系统和码云为例讲解如何在window系统下生成ssh key 然后在码云中添加公钥 然后可以远程仓库的ssh地址克隆远程git仓库代码 一 首先在window下生成ssh key 1 首先要在我们的电脑下安装g
  • 码字必备:18 款优秀的 Markdown 写作工具

    现在是 2015 年底 自 2004 年 John Gruber1创造 Markdown 语言以来 已经过去了 11 年 在这 11 年里 Markdown 语言从程序员圈子中逐渐扩散开来 成为了越来越多的电脑写作者第一选择 随着使用人群的
  • go-zero&go web集成redis实战

    前言 上一篇 go zero go web集成JWT和cobra命令行工具实战 从零开始基于go zero搭建go web项目实战 03集成redis实战 源码仓库地址 源码 https gitee com li zheng treasur
  • 请确保在bios菜单中启用了磁盘的控制器

    进入 BIOSS 然后看看 启动里面是不是把硬盘启动关了 是的话 打开就好了
  • 目标检测入门:帧差法,光流法和背景减法

    概述 运动目标检测是指当监控场景中有活动目标时 采用图像分割的方法从背景图像中提取出目标的运动区域 运动目标检测技术是智能视频分析的基础 因为目标跟踪 行为理解等视频分析算法都是针对目标区域的像素点进行的 目标检测的结果直接决定着智能视觉监
  • C语言-位段详解

    1 位段的定义 位段是定义结构体 或联合体 中的成员变量所占的空间 单位是bit 含有位段的结构体 联合体 称为位段结构 2 位段的意义 能够节省空间 比如性别 2个bit位可以表示2 2 4种可能性 不需要一个整形32个bit位 3 位段
  • idea中快捷键Ctrl+Shift+F冲突

    Ctrl Shift F在idea中的作用是全文或全项目搜索某个词的使用 windows系统自带的微软输入法中简繁体切换的快捷键也是Ctrl Shift F 会导致冲突 如果对简繁体切换需求没那么大 建议将输入法的快捷键关闭 具体操作为 在
  • 三阶矩阵求特征值的快速算法

    一般的三阶矩阵求特征值其实是解析不了的 因为特征方程对应的是三次方程 对于一般的三次方程 是很难求解的 要想方程有三个整数根 并且能够不用完全暴力展开三阶行列式这样的矩阵实际是很特殊的 1 某一行有两个0的情况是最好算的情况 分块上 下三角
  • 2023.7.13

    代码讲解01 PTA 7 38 等边三角形面积 数学基础对于程序设计能力而言很重要 对于等边三角形面积 请选择合适的方法计算之 输入格式 测试数据有多组 处理到文件尾 每组测试输入1个实数表示等边三角形的边长 输出格式 对于每组测试 在一行
  • 开源考试系统

    项目介绍 学之思开源考试系统是一款 java vue 的前后端分离的考试系统 主要优点是开发 部署简单快捷 界面设计友好 代码结构清晰 支持web端和微信小程序 能覆盖到pc机和手机等设备 支持多种部署方式 集成部署 前后端分离部署 doc
  • 为什么推荐编程初学者学习C(C++)/Python?

    人类走进信息化时代 掌握计算机编程是一项不错的技能 培养逻辑思维 解决现实中实际问题的能力 学会将计算机作为人类思想和能力的延展性工具 计算机行业寒冬 但AI和互联网仍然是未来发展的大趋势 学习C语言和Python的区别在哪 为什么选这俩
  • (CVPR2019)图像语义分割(18) DANet-集成双路注意力机制的场景分割网络

    论文地址 Dual Attention Network for Scene Segmentation 工程地址 github链接 1 介绍 该论文提出新型的场景分割网络DANet 利用自注意力机制进行丰富语义信息的捕获 在带有空洞卷积的FC
  • 详解BGP 双平面

    拓扑描述 上平面为A 面 AS1 下平面为B 面 AS2 左边用户群 AS3 右边用户群 AS4 组成两个平面的原因 两个城市之间的数据交互 分为业务流量和办公流量 于此同时 希望业务流量走 上面 办公流量走下面 流量的组成会很清晰 同时两

随机推荐

  • 用windows系统做服务器配置,windows系统做服务器配置

    windows系统做服务器配置 内容精选 换一换 迁移前 您需要设置目的端服务器 该目的端用来接收源端的数据 同时您也可以使用该目的端进行迁移测试和启动目的端 只有 迁移阶段 gt 迁移实时状态 为时才可设置目的端 进入 主机迁移服务 页面
  • Windows10神州网信政府版的配置修改

    Windows10神州网信政府版初始安装完成后 在有些界面上呈现 某些设置已隐藏或由你的组织管理 这就意味着有很多属性并不能由使用者修改 这对用户来说很不不方便 下面是经常用到的一些属性修改 1 修改屏幕保护属性 按Win键 R键调出运行框
  • 排序算法之分治排序

    归并排序是基于分治法实现的 归并排序将待排序的元素序列分为两个长度相等的子序列 为每一个子序列排序 然后再将它们合并成一个序列 合并两个子序列的过程称为两路归并 在执行两路归并算法时 先把待归并元素序列L1复制到辅助数组L2中 再从L2归并
  • Selenium隐藏浏览器特征

    Selenium隐藏浏览器特征 Selenium特征 1 CDP 2 stealth min js 3 undetected chromedriver 4 操作已开启的浏览器 4 常见的隐藏Selenium特征的方法 4 1 修改navig
  • hadoop集群优化(四):开启历史任务服务器

    文章目录 说明 分享 操作 修改配置 同步配置 启动历史服务器 查看jobHistory 总结 说明 hadoop支持历史服务器功能 默认关闭 开启后 通过web可查看完成运行的MapReduce做的的信息记录 如Map和Reduce使用情
  • Python进阶学习(一)

    背景 在编程语言的大背景下 Python普遍被认为是一门易上手的脚本语言 而随着Python的应用越来越广泛 仅仅停留在会跑Python程序是不够的 本篇专栏主要记录一些高阶的用法以及Python语言的一些机制 Python语言掌握需要具备
  • matlab改进秃鹰算法IBES 可直接运行 包括23个测试函数 提供与原算法对比~Matlab

    文章目录 效果一览 文章概述 部分源码 参考资料 效果一览 文章概述 matlab改进秃鹰算法IBES 可直接运行 包括23个测试函数 提供与原算法对比 Matlab 部分源码 清空环境变量 warning off 关闭报警信息 close
  • 威联通qnap SMB速度慢 只有30M、50M的解决方法

    首先 保证NAS与电脑处于千兆以上的局域网中 其次 然后就没有然后了 mmp 研究了一晚上 客服一问三不知 补充一下 有可能这个方法改完无效 这时候你先把 限制匿名用户访问 选择启动 默认是启动严格 然后把否决文件再勾上 然后再取消掉 目前
  • GESP C++ 四级样题卷

    一 单选题 每题 2 分 共 30 分 1 在 C 中 指针变量的大小 单位 字节 是 A 2 B 4 C 8 D 与编译器有关 答案 D 解析 在大多数现代的 32 bit 和 64 bit 的 C 编译器中 指针变量的大小通常是 4 字
  • iOS进阶—Runtime源码解析:动态方法解析

    GitHub参考 PS 参考GitHub分享的objc runtime master代码 及Runtime003代码 iOS进阶 目录 接上文iOS进阶 Runtime源码解析 消息发送 查看Runtime源码 No implementat
  • JS 统计字符串

    function getLength val var str new String val var bytesCount 0 for var i 0 n str length i lt n i var c str charCodeAt i
  • 用watch监听this.$store数据的变化

    如监听this store state username的值 在watch对象中写 watch store state username 你需要执行的代码
  • ES版本升级后出现Trying to create too many scroll contexts. Must be less than or equal to: [500]异常

    从一个异常说起 I O dispatcher 79 WARN RestClient request POST http xx xx xxx xxx 8080 index search scroll 600s returned 1 warni
  • C++13-STL模板-栈stack

    C 13 STL模板 栈stack 在线练习 http noi openjudge cn https www luogu com cn 大纲要求 3 算法模板库中的函数 min max swap sort 4 栈 stack 队列 queu
  • 在线代理检测网站

    20210203 很久之前 写代理的代码的时候 记录过几个测试代理的网站 后来也就直接放在书签里吃灰了 这里直接把这个几个网站记录在这里 http www xdaili cn monitor http proxies site digger
  • C++封装篇 类对象的定义

    1 对象的实例化 在c 中类是一个模板 对象的实例化其实就是计算机根据一个类的设计制造出多个对象的过程 对象实例化有两种方式 从栈实例化 从堆实例化 2 从栈实例化 class TV public char name 20 电视机的铭牌 i
  • 完整的模糊推理系统介绍以及matlab中从零实现(下篇)

    模糊推理系统从零实现 在完整的模糊推理系统介绍以及matlab中从零实现 上篇 中 我们对一个完整的模糊推理系统所涉及到的知识点做了一个细致地展述 进而 我们可以根据实际需要设计一个属于自己的模糊推理系统 主要涉及到以下几个方面的参数设置
  • ARM架构介绍

    概览 Arm 架构为处 器或内核 称为处 单元PE 的设计提供了基础 Arm架构已经集成到许多片上系统 SoC 设备中 比如智能手机 微型计算机 嵌入式设备 服务器甚至超级计算机 Arm架构为软件开发人员提供了通用指令集和工作流程 也称为编
  • 电子技术基础(三)__第2章放大电路原理__英文简称

    静态分析 又称为直流分析 用于求出电路的直流工作状态 即l输入信号 一 先看几个英文符号 集电极及发射极间电压 简称管压降 发射结电压降 二 接着看 加上Q点的英文简称 Q点 放大电路的静态工作点 上述简称对应有 另外还有2个 这4个值 称
  • 一个简单的CUDA程序以及一些总结

    尝试些了自己第一个CUDA程序 结果问题果然很多 先把问题程序框架贴上来 这个程序是有错误的 include