cudaMalloc会同步主机和设备吗？

2024-01-23

我知道 cudaMemcpy 将同步主机和设备，但是 cudaMalloc 或 cudaFree 怎么样？

基本上我想在多个 GPU 设备上异步内存分配/复制和内核执行，我的代码的简化版本如下所示：

void wrapper_kernel(const int &ngpu, const float * const &data)
{
 cudaSetDevice(ngpu);
 cudaMalloc(...);
 cudaMemcpyAsync(...);
 kernels<<<...>>>(...);
 cudaMemcpyAsync(...);
 some host codes;
}

int main()
{
 const int NGPU=3;
 static float *data[NGPU];
 for (int i=0; i<NGPU; i++) wrapper_kernel(i,data[i]);
 cudaDeviceSynchronize();
 some host codes;
}

然而，GPU 是按顺序运行的，并且找不到原因。

尝试使用cudaStream_t对于每个 GPU。下面是来自 CUDA 示例的 simpleMultiGPU.cu。

 //Solver config                                                          
TGPUplan      plan[MAX_GPU_COUNT];
//GPU reduction results                                                                                   
float     h_SumGPU[MAX_GPU_COUNT];

....memory init....

//Create streams for issuing GPU command asynchronously and allocate memory (GPU and System page-locked)                             for (i = 0; i < GPU_N; i++)
{
    checkCudaErrors(cudaSetDevice(i));
    checkCudaErrors(cudaStreamCreate(&plan[i].stream));
    //Allocate memory                                                                                                                    checkCudaErrors(cudaMalloc((void **)&plan[i].d_Data, plan[i].dataN * sizeof(float)));
    checkCudaErrors(cudaMalloc((void **)&plan[i].d_Sum, ACCUM_N * sizeof(float)));
    checkCudaErrors(cudaMallocHost((void **)&plan[i].h_Sum_from_device, ACCUM_N * sizeof(float)));
    checkCudaErrors(cudaMallocHost((void **)&plan[i].h_Data, plan[i].dataN * sizeof(float)));

    for (j = 0; j < plan[i].dataN; j++)
    {
        plan[i].h_Data[j] = (float)rand() / (float)RAND_MAX;
    }
}

....kernel, memory copyback....

and here's http://developer.download.nvidia.com/CUDA/training/cuda_webinars_multi_gpu.pdf一些使用多 GPU 的指南。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

cudaMalloc会同步主机和设备吗？的相关文章

MPI+CUDA 与纯 MPI 相比有何优势？

加速应用程序的常用方法是使用 MPI 或更高级别的库例如在幕后使用 MPI 的 PETSc 并行化应用程序然而现在每个人似乎都对使用 CUDA 来并行化他们的应用程序或使用 MPI 和 CUDA 的混合来解决更雄心勃勃更大的问题感兴
如何在 Visual Studio 2010 中设置 CUDA 编译器标志？

经过坚持不懈的得到error identifier atomicAdd is undefined 我找到了编译的解决方案 arch sm 20旗帜但是如何在 VS 2010 中传递这个编译器标志呢我已经尝试过如下Project gt P
如何并行从数组中删除零值

如何使用 CUDA 并行有效地从数组中删除零值有关零值数量的信息是预先可用的这应该可以简化这项任务重要的是数字必须保持源数组中的顺序当被复制到结果数组时 Example 该数组将例如包含以下值 0 0 19 7 0 3 5 0 0
Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部主上下文被压入堆栈事实上这似乎是不一致的我编写了这个程序在具有单个设备的机器上运行 i
cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
如何运行和理解CUDA Visual Profiler？

我已经设置了 CUDA 5 0 并且我的 CUDA 项目运行良好但我不知道如何使用 Visual Profiler 分析我的 CUDA 项目如何运行它我还需要安装更多吗又该如何做呢我的电脑使用Window 7 64位 CUDA 5
CUDA 5.0错误LNK2001：cuda方法无法解析的外部符号

我的链接器有错误 1 gt ManifestResourceCompile 1 gt All outputs are up to date 1 gt kernel cu obj error LNK2001 unresolved extern
PyInstaller 是否包含 CUDA

我正在开发一个Python脚本我使用Python 3 7 3 它使用tensorflow gpu 1 14 0 并使用PyInstaller 3 5将此脚本转换为可执行文件我使用的是 CUDA 10 0 和 cuDNN 7 6 1 我的
有条件减少 CUDA

我需要总结一下100000值存储在数组中但带有条件有没有办法在 CUDA 中做到这一点以快速产生结果任何人都可以发布一个小代码来做到这一点吗我认为要执行条件约简您可以直接将条件引入为乘法0 假或1 真加数换句话说假设您希
cudaDeviceScheduleBlockingSync 和 cudaDeviceScheduleYield 之间有什么区别？

正如这里所说如何减少 CUDA 同步延迟延迟 https stackoverflow com questions 11953722 how to reduce cuda synchronize latency delay 等待设备结果有
Bank 在字长方面存在冲突

我读过一些关于共享内存的好文章但我对银行冲突有初步疑问据说如果线程 1 和线程 2 从存储体 0 访问字 0 则不存在存储体冲突但如果他们访问不同的单词就会出现银行冲突但我的问题是不同的单词如何可以驻留在一个银行中由于bank
为什么 cuCtxCreate 返回旧上下文？

我已经安装了 CUDA SDK 4 2 64 CUDA工具包4 2 64 CUDA 驱动程序 4 2 64 我检查了 windows 中的每个 nvcuda dll 所有这些都是 4 2 版本但是当我使用驱动程序 api 创建上下文并使用
CUDA 8 编译错误 -std=gnu++11

我正在尝试转换一些代码以使用 CUDA 并且我认为我遇到了兼容性问题我们使用CMake 这些是我使用的 gcc 和 CUDA 版本 gcc version gcc Ubuntu 5 4 0 6ubuntu1 16 04 5 5 4 0 2
使用 GPU 进行 Matlab 卷积

我用gpuArray尝试了matlab的卷积函数conv2 convn 例如 convn gpuArray rand 100 100 10 single gpuArray rand 5 single 并将其与 cpu 版本 convn ra
为什么 cudaGLSetGLDevice 失败，即使它是在 main 函数的第一行中调用的

我想使用 OpenGL 和 CUDA 之间的互操作性我知道正如一些教程所说第一步是选择设备但是当我在主函数的第一行中调用 cudaGLSetGLDevice 0 时程序退出并显示信息 cudaSafeCall 运行时 API 错
无法编译cuda_ndarray.cu：libcublas.so.7.5：无法打开共享对象文件

我正在尝试在 aws 实例中导入 theano 库以使用 GPU 我已经使用 boto 编写了一个 python 脚本来自动执行 aws 设置该脚本本质上会从我的本地计算机对实例执行 ssh 然后启动一个 bash 脚本其中我执行 py
如何在没有 nvcc 的情况下在编译时获取 CUDA 工具包版本？

我在 cpp 文件中对 cuSPARSE 库进行了一些调用这些调用在旧工具包中不可用为了支持使用旧工具包的系统我想使用编译器指令编译不同的代码部分特别是我想使用旧工具包的 CSR 格式矩阵和新工具包的 BSR 格式矩阵来求解稀疏三

随机推荐

无法自动装配。存在多个“DataSource”类型的 bean

我正在尝试通过以下方式自动连接数据库 Autowired private DataSource dataSource 我的数据源中有一个application yml spring profiles active dev spring pr
ASP.NET -> WCF 服务需要 Windows 身份验证

我的任务是构建一个基本的管理应用程序该应用程序需要一个 ASP NET 前端该前端使用 WCF 与许多后端服务进行通信一项要求是应用程序的用户使用 Windows 身份验证进行身份验证如果应用程序逻辑包含在 ASP NET 应用程序
如何改变CKEditor的编辑器大小？

由于它是一个 textarea 我在 html 属性中尝试了 cols 50 但它不起作用另外我从上一个问题中找到了答案他说我可以通过添加来做到这一点 CKEDITOR instances myinstance resize 1000
“JqueryStatic”类型的值不可调用

我正在开发一个打字稿项目当我调用时编辑器显示 JqueryStatic 类型的值不可调用我安装了 jquery definetelyTyped 包并且还引用了 jquery d ts 文件 Resharper 9 0 不支持 Ty
如何使用zxing条码扫描库解码EAN128条码

我正在尝试使用 zxing 条码扫描库读取 EAN128 条码我在 Xamarin 共享项目中使用它如下所示 private async void OnButtonForBarcodeReadPressed object sender
为什么 pfpd.add_font() 中没有加载字体？

我正在尝试将 pfpdf 库中的字体添加到生成的 pdf 文件中但将 DejaVuSans ttf 移动到 data 目录后无法再找到字体这是一个简化的代码 from fpdf import FPDF import os pdf FP
如何计算 DFT 中每个 bin 的能量？

我正在测试我对离散傅里叶变换的了解我现在测试的是如何使用DFT计算波的中心频率为此我使用以下代码创建正弦数据 create a 100 Hz wave with a sampling rate of 512 samples per s
将 Q_GADGET 中的 Q_INVOKABLE 公开给 QML

我最初的目标是在 QML 中提供枚举的名称该名称可以通过 QMetaEnum 和 QVariant 的 toString 提供这两者在 QML 中都不可用 Stack Overflow 上的文章展示了如何将 Q INVOKABLE 添加
针对数据类型的张量流警告

我已经在Python 3 7 4 64位中安装了tensorflow和numpy 当我尝试导入它时我收到以下警告 home user local lib python3 7 site packages tensorflow python
处理用户身份验证（通过 Facebook）和应用程序内的安全通信

也许下面的内容听起来有点奇怪我有一些错误的假设所以我希望你能原谅这一点只是简单介绍一下我们想要实现的目标现在我们正在开发一个应用程序需要一个存储用户特定数据例如图像评论等的后端由于我们想要摆脱所有的用户身份验证并且我们也
Android Studio 3.0 RC 2

Error failed linking references Error java util concurrent ExecutionException java util concurrent ExecutionException co
foreach中内联运算和运算前计算的区别

我让它变得简单因为我在谷歌上没有找到任何东西也许是因为我也不知道搜索什么这有什么区别 foreach var x in g GetList code 和这个 IEnumerable list g GetList foreach var
PostgreSQL 聚合函数超出范围

我正在尝试创建一个函数来找到交集tsrange 但我无法让它工作 CREATE AGGREGATE intersection tsrange SFUNC STYPE tsrange 您的尝试有两个修改首先我认为您不能使用运算符作为 SF
C编程-将数字分成数字并将它们保存在列表（数组）中[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想将数字分成数字并将它们保存在 C 中左侧带有零的 5 元素数组中例如如果有一个像 234 这样的数字我想创建一个数组 0 0
如何在浏览器url中隐藏spring mvc web应用程序名称？

我在 eclipse 中有一个 spring mvc 3 x Web 应用程序其中资源项目工件名称是 webapp 所以 http localhost 8080 webapp将使用 tomcat 7 和 eclipse IDE 加载主主页
使用 Keras 的 python 生成器线程安全

我正在使用 Keras 进行一些机器学习并使用此生成器来生成数据和标签 def createBatchGenerator driving log batch size 32 batch images np zeros batch size
是否可以将 MIPS 寄存器名称与 GAS（GNU 汇编器）一起使用？

如果我使用寄存器名称我会得到 Error illegal operands add t0 zero zero 如果我使用寄存器号 8代替 t0 and 0代替 zero 有用我使用的是 binutils 2 17 GNU 汇编器不直接支
无法在 Youtube API v3 中下载隐藏式字幕

我使用 Youtube API v3 中给出的 PHP 示例代码 https developers google com youtube v3 docs captions download https developers google c
如何使用 document.getElementByName 和 getElementByTag？

document getElementById frmMain elements 我可以这样用吗 document getElementByName frmMain elements or document getElementBytag
cudaMalloc会同步主机和设备吗？

我知道 cudaMemcpy 将同步主机和设备但是 cudaMalloc 或 cudaFree 怎么样基本上我想在多个 GPU 设备上异步内存分配复制和内核执行我的代码的简化版本如下所示 void wrapper kernel co

cudaMalloc会同步主机和设备吗？

cudaMalloc会同步主机和设备吗？ 的相关文章

随机推荐

热门标签

cudaMalloc会同步主机和设备吗？的相关文章