CUDA流任务并行

2023-11-20

CUDA流表示一个GPU操作队列，并且该队列中的操作将以指定的顺序执行。可以将每个流视为GPU的一个任务，并且这些任务可以并行执行，即相同流顺序执行，不同流并行执行；不同流并行执行时不同流所要执行的任务要没有依赖关系；当不手动创建流时，cuda将会默认一个流操作。

在硬件选择上，这里有一个概念，支持设备重叠功能，支持设备重叠功能的 GPU 能够在执行一个 CUDA C 核函数的同时，还能在设备和主机之间执行复制操作；这在流并行过程中很重要，我们假设有流A和流B，设备重叠就会允许流A在复制过程中同时流B进行核函数计算，这会大大加快速度；

cudaDeviceProp   prop;
int  whichDevice;
cudaGetDevice(&whichDevice);
cudaGetDevice(&prop, whichDevice);
if(prop.deviceOverlap){
   std::cout<<"the device  will handle overlaps"<<std::endl;
}

我们知道cudaMemcpy与CPU操作是同步的，为了实现设备重叠，cuda提供了cudaMemcpyAsync用于数据拷贝操作,它是异步的，不会等待复制完成就会执行程序的下一步；

但注意，cudaMemcpyAsync仅对分页锁定的主存储器有效，如果传入指向可分页存储器的指针，那么将返回一个错误；

页锁定的主机内存由cudaHostAlloc()分配。页锁定的主机内存也称为固定内存或不可分页内存，它的重要属性就是：操作系统将不会对这块内存分页并交换到磁盘上，从而确保了该内存始终驻留在物理内存中。因此，操作系统能够安全的使用应用程序访问该内存的物理地址，因为这块内存将不会被破坏或者重新定位。事实上，当使用可分页内存进行复制时，复制操作将执行两遍，第一遍从可分页内存复制到一块“临时的”页锁定内存，然后再从这个页锁定内存复制到GPU上。因此，当在GPU和主机间复制数据时，这种差异会使也锁定主机内存的性能比标准可分页内存的性能要高大约2倍。然而，我们也不能进入另一个极端：查找每一个malloc调用并将其替换为cudaHostAlloc调用。固定内存是一把双刃剑，当使用固定内存是，你将失去虚拟内存的所用功能。特别是，应用程序中使用每个页锁定内存时都需要分配物理内存，因为这些内存不能交换到磁盘上。这意味着，与使用标准的malloc调用相比，系统将更快的耗尽内存（概念选自《GPU高性能编程CUDA实战》）。

从上，页锁定内存不仅在主机与设备之间复制数据快，而且在流并行中扮演着重要的作用；

多个CUDA流宽度优先而非深度优先

深度优先就是程序按顺序把一个流的操作添加之后再添加下一个流操作,如下：

for(int i =0; i< FULL_DATA_SIZE; i+= 2*N){
    cudaMemcpyAsync(dev_a0, host_a + i, N*sizeof(int),cudaMemcpyHostToDevice, stream0);
    cudamemcpyAsync(dev_b0, host_b + i, N*sizeof(int),cudaMemcpyHostToDevice, stream0);
    kernel<<<N/256,256,0,stream0>>>(dev_a0, dev_b0,dev_c0);
    cudaMemcpyAsync(host_c + i, dev_c0, N*sizeof(int),cudaMemcpyDeviceToHost, stream0);
    cudaMemcpyAsync(dev_a1, host_a + i + N, N*sizeof(int),cudaMemcpyHostToDevice, stream1);
    cudamemcpyAsync(dev_b1, host_b + i + N, N*sizeof(int),cudaMemcpyHostToDevice, stream1);
    kernel<<<N/256,256,0,stream1>>>(dev_a1, dev_b1,dev_c1);
    cudaMemcpyAsync(host_c + i + N, dev_c1, N*sizeof(int),cudaMemcpyDeviceToHost, stream1);
}

先添加stream0再添加stream1操作,按流模型来说，因为这里的拷贝操作还是核函数都是异步的，stream0和stream1并行计算，速度应该比用单个流提了不少，但是却不然，为什么呢？这就涉及到GPU的硬件调度：

在硬件中并没有流的概念，而是包含一个或多个引擎（主机到设备，设备到主机可能是分开的两个引擎）来执行内存复制操作，以及一个引擎来执行核函数。这些引擎彼此独立的对操作进行排队；

也就是说内存复制和核函数在GPU上是不同的引擎在执行，那么在同一流上核函数和复制操作相邻时，就会发生一个现象：两个操作在不同的引擎上，但是流模型又要保证同一流上两个程序执行的先后顺序，那么怎么办？cuda驱动程序为了保证硬件的执行单元不破坏流之间的依赖性，将前一个操作阻塞，等待完成后，再继续执行后一个；

所以为了高效利用CUDA流，提出了流宽度优先的概念，即将两个流之间的操作交叉添加：

for(int i =0; i< FULL_DATA_SIZE; i+= 2*N){
    cudaMemcpyAsync(dev_a0, host_a + i, N*sizeof(int),cudaMemcpyHostToDevice, stream0);
    cudaMemcpyAsync(dev_a1, host_a + i + N, N*sizeof(int),cudaMemcpyHostToDevice, stream1);
    cudamemcpyAsync(dev_b0, host_b + i, N*sizeof(int),cudaMemcpyHostToDevice, stream0);
    cudamemcpyAsync(dev_b1, host_b + i + N, N*sizeof(int),cudaMemcpyHostToDevice, stream1);
    kernel<<<N/256,256,0,stream0>>>(dev_a0, dev_b0,dev_c0);
    kernel<<<N/256,256,0,stream1>>>(dev_a1, dev_b1,dev_c1);
    cudaMemcpyAsync(host_c + i, dev_c0, N*sizeof(int),cudaMemcpyDeviceToHost, stream0);
    cudaMemcpyAsync(host_c + i + N, dev_c1, N*sizeof(int),cudaMemcpyDeviceToHost, stream1);
}

http://www.mamicode.com/info-detail-1770665.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA流任务并行的相关文章

SpringBoot：多数据源配置——注解+AOP

maven依赖
Redis系列之发布订阅

前言通过Redis可以实现简单的消息 Redis为我们提供了一个发布订阅的功能下面我们来认识下Redis的发布订阅发布订阅模型发布者将消息发布发布到channel频道上所有订阅了channel频道的客户端都会接收到消息如下图相
把思科端口速率改为不协商_端口汇聚—TRUNK技术介绍

一概述随着网络技术的不断发展和应用网络的速度越来越快网络的应用也越来越复杂因此在很多实际应用中网络速度就成为各种网络应用的瓶颈所在通过升级来提高网络速度是解决问题的一个有效的手段比如从10M以太网到100M以太网以至于1000
Tic-Tac-Toe（三子连）（总结规律）

Time Limit 1000 mSec Memory Limit 262144 KB Problem Description Kim likes to play Tic Tac Toe Given a current state and
基于灰度的模板匹配（带旋转角度）

原图选择模板旋转180度进行识别继续旋转依然可以识别代码 Searching the best matching of a template in an image with rotation dev close window r
STM32使用各传感器demo

先挖个坑待整理语音播报部分 1 VS1053语音模块 2 JQ8400语音模块智能小车部分 3 寻迹模块 4 避障模块 5 舵机驱动 6 超声波模块 7 L298N模块 8 蓝牙JD31模块兼容HC 05 9 红外模块 10 MPU
使用golang+antlr4构建一个自己的语言解析器（一）

Antlr4 简介 ANTLR 全名 ANother Tool for Language Recognition 是基于LL 算法实现的语法解析器生成器 parser generator 用Java语言编写使用自上而下 top down
如何查看Tomcat版本信息

一简单暴力的 1 打开tomcat路径下的lib文件夹找到catalina jar 用解压工具打开找到 MANIFEST MF 打开就可以看到了二进入tomcat 安装路径进入bin文件夹对于version bat点击运行后会
STM32野火教程学习

野火教程学习全套200集视频教程和1000页PDF教程请到秉火论坛下载 www firebbs cn 野火视频教程优酷观看网址 http i youku com firege 第4章初识STM32 零死角玩转STM32 F429系列 h
LaTeX 命令和代码结构简介

目录 LaTeX LaTeX LATE X 命令和环境命令参数环境分组 LaTeX LaTeX
【Linux应用】磁盘IO读写测试工具-FIO详解

1 FIO简介 FIO是Linux下开源的一款IOPS测试工具主要用来对磁盘进行压力测试和性能验证它可以产生许多线程或进程来执行用户特定类型的I O操作通过编写作业文件类似于k8s的yaml 或者直接命令去执行测试动作相当于是一个
linux 使用systemctl 启动服务报错: Error: No space left on device

By default Linux only allocates 8192 watches for inotify which is ridiculously low And when it runs out the error is als
uni-app开发微信小程序数据 \n 换行符失效问题

前言使用uni app开发微信小程序时使用text显示字符串字符串带 n 需要在 n处直接换行 1 本地字符串可以直接换行显示 2 后台返回字符串直接换行失效原因渲染时 n 直接被当成字符串处理了根本不识别效果图实现 1
pikachu靶场 RCE、File Inclusion

目录 exec ping exec eval File Inclusion local File Inclusion remote exec ping 输入正常的ip地址看到正常回显测试带管道符能不能正常执行发现可以命令可以接各种命
C++中经常有set和get函数，那么他们有什么作用呢

C 中经常有set和get函数 set和get函数的作用由于成员变量我们一般设置为私有在类外部不能直接访问所以我们需要设计公有的set 函数和get 函数来访问它 set 函数是指修改私有成员变量的值的那类函数 get 函数是指输出
vue中用高德地图根据经纬度在地图上显示一个定位点

在 Vue 中使用高德地图显示定位点你需要做以下几件事在项目中安装高德地图的 npm 包 npminstall save amap js api 在 main js 中引入高德地图的库并初始化 import AMapfrom amap
JSP——JavaBean的使用实例（求圆的面积）

JSP页面通过表单输入圆半径并提交给该页面表单提交后 JSP页面将计算圆面积和周长的任务交给一个JavaBean去完成 1 建立如下目录结构文件 2 Circle java 文件 package sun hebtu 求圆面积的Circle
JSP+ssm计算机毕业设计米哈游原神角色伤害计算系统xbn3e【源码、数据库、LW、部署】

项目运行项目含有源码文档程序数据库配套开发软件软件安装教程环境配置 Jdk1 8 Tomcat7 0 Mysql HBuilderX Webstorm也行 Eclispe IntelliJ IDEA Eclispe MyEcl
ROS2报错 AttributeError: type object ‘type‘ has no attribute ‘_TYPE_SUPPORT‘

问题描述今天在用python写ROS2编写发布者和订阅者然后需要用到自己的写的接口在写完之后使用colcon build并没有报错并且可以使用ros2 interface show my interface指令查看到自己定义的接口
用 IDEA+EmmyLua 来写神途脚本

1 安装IntelliJ IDEA 下载地址 Download IntelliJ IDEA The Capable Ergonomic Java IDE by JetBrains 推荐安装 2022 1 4 版本可使用社区版 2 安装 l

随机推荐

QT二维码生成和解析&Demo

目录一前言二相关知识三效果展示四主要源码简析五源码Demo 一前言本文主要介绍二维码生成和解析的相关知识和例程二相关知识二维码生成主要用到的是开源的二维码QR码编码库qrencode 需要使用到的库文件为下面
七段码（建图+搜索+并查集）

思路 step1 邻接表建图相邻为1 不相邻为0 题目就等价为在图中求连通子图的个数 step2 深度搜索每条边并存储下来 step3 对选择的边用并查集保存下来然后看father i i的个数等于1 表示连通否则表示不连通易错
【SpringCloud】整合Consul+OpenFeign实现微服务+负载均衡（下）

一代码由于篇幅有限代码见上一篇文章 https blog csdn net forest long article details 129287941 分别启动Consul Service provider Service consu
QString::arg() 函数

例 setWindowTitle tr 1 2 arg shownName arg tr Spreadsheet QString arg 函数用第一个arg 调用会替换 1 第2个arg 调用会替换 2 上面的例子其实可以写作 setWin
H5.小程序都适用的瀑布流做法

1 HTML代码 div style display flex padding top 0 2rem div class card main left div div
常用设计模式及例子（五）

13 策略模式 strategy 策略模式定义了一系列算法并将每个算法封装起来使他们可以相互替换且算法的变化不会影响到使用算法的客户需要设计一个接口为一系列实现类提供统一的方法多个实现类实现该接口设计一个抽象类可有可无属于
java实现音频文件的播放

实现思路 1 首先获取音频文件的地址然后通过IO流读取音频文件加缓冲区实现Player类的对象 2 Player类主要用于播放器的初始化以及通过它来实现一些音视频文件的播放这个类需要手动去网上下载然后添加路径到我们Eclipse
关于.net连接字符串

今天在看David Sceppa的 ADO NET 技术内幕里面对 net连接字符串的描述很简单让人一看就懂一看能理解连接字符串是什么连接字符串是由一系列用分号隔开的 name value 组合 strConn Setting1
centos 通过yum安装nginx

通过yum安装nginx 菜鸟一枚不知道为什么nginx这个东西不在初始话的yum镜像里面也不想通过编译方式安装nginx 看着闹心那么怎么通过yum方式安装nginx呢添加nginx包镜像地址 rpm ivh http nginx
python---函数名的使用

函数名的多种用法函数名当作变量名赋值函数名当作函数的实参函数名当作函数的返回值函数名当作容器类型的元素函数名当作变量名赋值 def index print from function index print index res i
android调用系统指纹设置页面录入指纹

在做指纹登录时有时候会遇到设备并未录入指纹需要提示用户去开启如果需要自动跳转到系统的指纹设置页面录入指纹那就需要调用系统组件由于google加入指纹支持是在6 0 而国内很多厂商很早便加入了指纹支持所以在这方面碎片化很严重需
火影手游为什么服务器维护,火影忍者手游安装失败解决方法游戏闪退进不去怎么办...

本文4399阿尔法将告诉大家火影忍者手游安装失败的原因以及解决方法还会告诉大家游戏闪退进不去怎么办等等下面就跟着小编一起来看看吧 gt gt gt gt gt 更多游戏攻略进入4399火影忍者手游专区 lt lt lt lt lt 问
65nm芯片流片费用_每年流片超40款客户芯片，国内第一的IP供应商芯原科创板上市获受理...

文 Lee 图源网络集微网消息 9月20日上交所受理了芯原微电子上海股份有限公司以下简称芯原科创板上市申请芯原选择的上市标准为科创板上市规则 2 1 2中的第四项预计市值不低于人民币30亿元且最近一年营业收入不低
vscode配置clangd和clang-format

vscode安装和配置如何安装和配置vscode以搭建c 开发环境可以查看我的另一篇博客 Windows上最轻量的vscode C 开发环境搭建在这篇博客中详细介绍了如何安装vscode以及应该安装哪些插件这里不再赘述 vscod
第14届蓝桥杯C++B组省赛

文章目录 A 日期统计 B 01 串的熵 C 冶炼金属 D 飞机降落 E 接龙数列 F 岛屿个数 G 子串简写 H 整数删除 I 景区导游 J 砍树今年比去年难好多 Update 2023 4 10 反转了炼金二分没写错可以AC了 U
1051. 复数乘法 (15)

复数可以写成 A Bi 的常规形式其中A是实部 B是虚部 i是虚数单位满足i2 1 也可以写成极坐标下的指数形式 R e Pi 其中R是复数模 P是辐角 i是虚数单位其等价于三角形式 R cos P isin P 现给定两个复数的R和
【机器学习】【逻辑回归】Logistic函数/Sigmoid函数的详细公式推导

sigmoid函数的数学公式 sigmoid函数的因变量x取值范围是到但是sigmoid函数的值域是 0 1 不管x取什么值其对应的sigmoid函数值一定会落到 0 1 范围内漂亮的logistic 曲线 sigmoid函数对应的图
Python timeit模块的使用

Python timeit模块的使用 Python 中的 timeit 模块可以用来测试一段代码的执行耗时如一个变量赋值语句的执行时间一个函数的运行时间等 timeit 模块是 Python 标准库中的模块无需安装直接导入就可以使用
java readvalue_Java XmlMapper.readValue方法代碼示例

本文整理匯總了Java中com fasterxml jackson dataformat xml XmlMapper readValue方法的典型用法代碼示例如果您正苦於以下問題 Java XmlMapper readValue方法的具體
CUDA流任务并行

CUDA流表示一个GPU操作队列并且该队列中的操作将以指定的顺序执行可以将每个流视为GPU的一个任务并且这些任务可以并行执行即相同流顺序执行不同流并行执行不同流并行执行时不同流所要执行的任务要没有依赖关系当不手动创建流时 cu

CUDA流任务并行

多个CUDA流宽度优先而非深度优先

CUDA流任务并行 的相关文章

随机推荐

热门标签

CUDA流任务并行的相关文章