多GPU基本使用

2024-01-03

例如，我如何使用两个设备来改进以下代码的性能（向量之和）？是否可以“同时”使用更多设备？如果是，我如何管理向量在不同设备的全局内存上的分配？

#include <stdio.h>
#include <stdlib.h>
#include <math.h>
#include <time.h>
#include <cuda.h>

#define NB 32
#define NT 500
#define N NB*NT

__global__ void add( double *a, double *b, double *c);

//===========================================
__global__ void add( double *a, double *b, double *c){

    int tid = threadIdx.x + blockIdx.x * blockDim.x; 

    while(tid < N){
        c[tid] = a[tid] + b[tid];
        tid += blockDim.x * gridDim.x;
    }

}

//============================================
//BEGIN
//===========================================
int main( void ) {

    double *a, *b, *c;
    double *dev_a, *dev_b, *dev_c;

    // allocate the memory on the CPU
    a=(double *)malloc(N*sizeof(double));
    b=(double *)malloc(N*sizeof(double));
    c=(double *)malloc(N*sizeof(double));

    // allocate the memory on the GPU
    cudaMalloc( (void**)&dev_a, N * sizeof(double) );
    cudaMalloc( (void**)&dev_b, N * sizeof(double) );
    cudaMalloc( (void**)&dev_c, N * sizeof(double) );

    // fill the arrays 'a' and 'b' on the CPU
    for (int i=0; i<N; i++) {
        a[i] = (double)i;
        b[i] = (double)i*2;
    }

    // copy the arrays 'a' and 'b' to the GPU
    cudaMemcpy( dev_a, a, N * sizeof(double), cudaMemcpyHostToDevice);
    cudaMemcpy( dev_b, b, N * sizeof(double), cudaMemcpyHostToDevice);

    for(int i=0;i<10000;++i)
        add<<<NB,NT>>>( dev_a, dev_b, dev_c );

    // copy the array 'c' back from the GPU to the CPU
    cudaMemcpy( c, dev_c, N * sizeof(double), cudaMemcpyDeviceToHost);

    // display the results
    // for (int i=0; i<N; i++) {
    //      printf( "%g + %g = %g\n", a[i], b[i], c[i] );
    //  }
    printf("\nGPU done\n");

    // free the memory allocated on the GPU
    cudaFree( dev_a );
    cudaFree( dev_b );
    cudaFree( dev_c );
    // free the memory allocated on the CPU
    free( a );
    free( b );
    free( c );

    return 0;
}

先感谢您。米歇尔

自从 CUDA 4.0 发布以来，您所询问的类型的多 GPU 计算相对容易。在此之前，您需要使用多线程主机应用程序，每个 GPU 有一个主机线程以及某种线程间通信系统，以便在同一主机应用程序中使用多个 GPU。

现在可以对主机代码的内存分配部分执行类似的操作：

double *dev_a[2], *dev_b[2], *dev_c[2];
const int Ns[2] = {N/2, N-(N/2)};

// allocate the memory on the GPUs
for(int dev=0; dev<2; dev++) {
    cudaSetDevice(dev);
    cudaMalloc( (void**)&dev_a[dev], Ns[dev] * sizeof(double) );
    cudaMalloc( (void**)&dev_b[dev], Ns[dev] * sizeof(double) );
    cudaMalloc( (void**)&dev_c[dev], Ns[dev] * sizeof(double) );
}

（免责声明：在浏览器中编写，从未编译，从未测试，使用风险自负）。

这里的基本思想是你使用cudaSetDevice当您在设备上执行操作时，可以在设备之间进行选择。因此，在上面的代码片段中，我假设了两个 GPU，并在每个设备上分配了内存 [第一个设备上的 (N/2) 个双倍，第二个设备上的 N-(N/2) 个]。

从主机到设备的数据传输可以简单如下：

// copy the arrays 'a' and 'b' to the GPUs
for(int dev=0,pos=0; dev<2; pos+=Ns[dev], dev++) {
    cudaSetDevice(dev);
    cudaMemcpy( dev_a[dev], a+pos, Ns[dev] * sizeof(double), cudaMemcpyHostToDevice);
    cudaMemcpy( dev_b[dev], b+pos, Ns[dev] * sizeof(double), cudaMemcpyHostToDevice);
}

（免责声明：在浏览器中编写，从未编译，从未测试，使用风险自负）。

代码的内核启动部分可能类似于：

for(int i=0;i<10000;++i) {
    for(int dev=0; dev<2; dev++) {
        cudaSetDevice(dev);
        add<<<NB,NT>>>( dev_a[dev], dev_b[dev], dev_c[dev], Ns[dev] );
    }
}

（免责声明：在浏览器中编写，从未编译，从未测试，使用风险自负）。

请注意，我在内核调用中添加了一个额外的参数，因为可能会使用不同数量的要处理的数组元素来调用内核的每个实例。我会将其留给您来完成所需的修改。但是，同样，基本思想是相同的：使用cudaSetDevice选择一个给定的 GPU，然后以正常方式在其上运行内核，每个内核都有自己独特的参数。

您应该能够将这些部分组合在一起以生成简单的多 GPU 应用程序。还有很多其他功能可以在最新的 CUDA 版本和硬件中使用来协助多个 GPU 应用程序（例如统一寻址、点对点设施更多），但这应该足以让您入门。 CUDA SDK 中还有一个简单的多 GPU 应用程序，您可以查看更多想法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

多GPU基本使用的相关文章

寻找 CUDA 中的最大值

我正在尝试在 CUDA 中编写代码来查找最大值对于给定的一组数字假设您有 20 个数字并且内核在 2 个块每块 5 个线程上运行现在假设 10 个线程同时比较前 10 个值并且thread 2找到最大值因此线程 2 正在更新
CUDA程序导致nvidia驱动程序崩溃

当我超过大约 500 次试验和 256 个完整块时我的 monte carlo pi 计算 CUDA 程序导致我的 nvidia 驱动程序崩溃这似乎发生在 monteCarlo 内核函数中任何帮助都会受到赞赏 include
CUDA 中的广义霍夫变换 - 如何加快分箱过程？

正如标题所示我正在对并行计算机视觉技术进行一些个人研究使用 CUDA 我尝试实现 GPGPU 版本的霍夫变换我遇到的唯一问题是在投票过程中我调用atomicAdd 来防止多个同时写入操作但我似乎没有获得太多的性能效率我在网上搜索
为什么numba cuda调用几次后运行速度变慢？

我正在尝试如何在 numba 中使用 cuda 然而我却遇到了与我预想不同的事情这是我的代码 from numba import cuda cuda jit def matmul A B C Perform square matrix m
在linux上编译一个基本的OpenCV + Cuda程序

我过去在linux上使用过opencv 但没有使用过cuda 几个月来我一直在与以下编译错误作斗争在尝试了许多解决方案后我放弃并使用 Windows 不过我真的很想在 Linux 上工作这是我用来编译 opencv gpu 网站上给
CUDA线程执行顺序

我有一个 CUDA 程序的以下代码 include
CUDA 估计 2D 网格数据的每块线程数和块数

首先我要说的是我已经仔细阅读了所有类似的问题确定每个块的线程和每个网格的块 https stackoverflow com questions 4391162 cuda determining threads per block blo
Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx
设置最大 CUDA 资源

我想知道是否可以设置 CUDA 应用程序的最大 GPU 资源例如如果我有一个 4GB GPU 但希望给定的应用程序只能访问 2GB 如果它尝试分配更多就会失败理想情况下这可以在进程级别或 CUDA 上下文级别上设置不目前没有允
“分页文件太小，无法完成此操作”尝试训练 YOLOv5 对象检测模型时出错

我有大约 50000 个图像和注释文件用于训练 YOLOv5 对象检测模型我在另一台计算机上仅使用 CPU 训练模型没有问题但需要太长时间因此我需要 GPU 训练我的问题是当我尝试使用 GPU 进行训练时我不断收到此错误 OSE
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部主上下文被压入堆栈事实上这似乎是不一致的我编写了这个程序在具有单个设备的机器上运行 i
TensorRT 多线程

我正在尝试使用 python API 来使用 TensorRt 我试图在多个线程中使用它其中 Cuda 上下文与所有线程一起使用在单个线程中一切正常我使用 docker 和 tensorrt 20 06 py3 图像 onnx 模型和
Tensorflow：docker 镜像和 -gpu 后缀

在具有 GPU 支持的 Tensorflow 的 Docker 映像中例如 tensorflow tensorflow 2 2 0 gpu 安装的python包是tensorflow gpu 如图所示pip freeze 安装任何依赖于的
__device__ __constant__ 常量

有什么区别吗在 CUDA 程序中定义设备常量的最佳方法是什么在 C 主机设备程序中如果我想将常量定义在设备常量内存中我可以这样做 device constant float a 5 constant float a 5 问题 1
CUDA、NPP 滤波器

CUDA NPP 库支持使用 nppiFilter 8u C1R 命令过滤图像但不断出现错误我可以毫无问题地启动并运行 boxFilterNPP 示例代码 eStatusNPP nppiFilterBox 8u C1R oDeviceS
NV_path_rendering替代方案[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我刚刚观看了 Siggraph 2012 的一个非常令人印象深刻的演示 http nvidia fullviewmedia com sig
VS 程序在调试模式下崩溃，但在发布模式下不崩溃？

我正在 VS 2012 中运行以下程序来尝试 Thrust 函数查找 include cuda runtime h include device launch parameters h include
CUDA 中指令重放的其他原因

这是我从 nvprof CUDA 5 5 获得的输出 Invocations Metric Name Metric Description Min Max Avg Device Tesla K40c 0 Kernel MyKernel do

随机推荐

使用数组查询sqlite数据库android

我如何使用字符串数组来查询 sqlite 数据库我不断收到异常 SQliteException 绑定或列索引超出范围 String names new String values size values is an Arraylist S
为什么 EF 返回代理类而不是实际实体？

当我想要实际的实体类时我在实体框架返回代理时遇到问题我第一次运行代码时一切都运行正常没有代理但之后的每次迭代我的一个 DbSet 总是返回代理而不是实际类型我在每次迭代后都会处理上下文所以我不明白为什么第一次它有效而之后每
如何使 Win32/MFC 线程同步循环？

我是 Windows 中多线程的新手所以这可能是一个微不足道的问题确保线程按步执行循环的最简单方法是什么我尝试传递一个共享数组Events 到所有线程并使用WaitForMultipleObjects在循环结束时同步它们但这会在一个
对reportlab heisenbug 进行故障排除

使用Django 1 4 Python 2 7 reportlab 开源版本生成pdf 到目前为止一切都进展顺利以前的 pdf 生成如 http 请求返回下载生成的 pdf 文件是在 Django 1 3 上进行的并且不向公众
如何使用 Rails 重定向到外部网站？

我希望当鼠标悬停在链接上时您会看到该链接看起来像这样 http www website com redirect to linkID2 http www website com redirct to linkID2 也许不完全一样但尝试
将 CGGradient 添加为 UILabel 的子图层会隐藏标签的文本

我想添加渐变作为标签的背景我使用以下代码来实现这一目标但问题是虽然标签上出现渐变颜色但文本不可见请帮忙 lblPatientDetail text PatientsDetails lblPatientDetail textColo
在 Spring Security Java Config 中创建多个 HTTP 部分

使用 Spring Security XML 配置您可以定义多个 HTTP 元素来为应用程序的不同部分指定不同的访问规则中给出的示例8 6 高级命名空间配置 http docs spring io spring security sit
从外部按钮清除与 Angular Bootstrap UI 选项卡集中的文本区域关联的 ng-model

我用过 Angular Bootstrap uitabset创建两个选项卡并且两个选项卡都有textareas与一个相关联ng model 我在外面有一个清晰的按钮tabset我想清除ng model of the textArea当用户按
惯性滚动时如何同步两个元素的滚动偏移

我需要使一个元素的滚动偏移量与另一个元素实际上是窗口保持同步但在 Mobile Safari iPad 上滚动的惯性滚动阶段我遇到了麻烦我有几个 divposition fixed overflow hidden我需要保持它们
保存 ModelForm 时重复的键值违反唯一约束

我的观点 py class UserProfileFormView View def post self request args kwargs userform UserForm request POST prefix users use
如何确定给定字体的字符串的大小

我有一个小表单显示一些进度信息我很少需要显示相当长的消息并且我希望能够在需要时调整此表单的大小以便此消息适合表单那么我如何知道字符串有多宽S将以字体呈现F 这取决于所使用的渲染引擎您基本上可以在 GDI 和 GDI 之间切换可
module.config 内的 AngularJS 依赖注入值

尝试为模块设置一些辅助值尝试过服务和价值但没有帮助 var finance angular module finance finance services value helpers templatePath function name
如何更改 Android EditText 键盘颜色？

In iOS TextField有一个属性叫做Appeareance可以有一个Dark价值它将改变KEYBOARD颜色不是文本字段本身但在 Android 中我找不到合适的颜色EditText https developer andr
如果其中一个返回 true，是否有办法阻止 boost::signal 调用其插槽？

我正在使用 boost 库我的问题是关于 boost signals 的我有一个信号可能会调用许多不同的插槽但只有一个插槽与调用匹配因此我希望该特定插槽返回 true 并且调用将停止是否可以有效率吗如果效率不高你们能建议我一
assetlinks.json 中的应用程序链接意图过滤器在 Android 上不起作用

我的应用程序定义了意图过滤器来处理来自我的网站的 URL 由以下定义
一个列表，简单的左浮动，不同的单元格大小

我有一个很好的挑战给你这里有下一个代码实例 http inturnets com test test html http inturnets com test test html
如何在 javax.ws.rs.core.Response 中设置响应主体

有一个需要实现的 REST API 端点用于获取一些信息并将后端请求发送到另一台服务器并且来自后端服务器的响应必须设置为最终响应我的问题是如何在 javax ws rs core Response 中设置响应主体 Path analyt
Angular rxjs Observable.interval() 无法在 Chrome 的后台选项卡上正确触发

我正在编写带有通过 RxJs observables 实现的间隔计时器的 Angular2 应用程序并且刚刚注意到当选项卡处于后台时 Chrome 浏览器中 Observable interval 和 Observable timer 的
减少多维数组的维度

我无法迭代这一系列产品信息并获得每个项目的回显谷歌电子商务跟踪代码的所需结果如何将维度减少一简而言之怎么转这个 Array array gt Array 0 gt Array product id gt 7 prod count g
多GPU基本使用

例如我如何使用两个设备来改进以下代码的性能向量之和是否可以同时使用更多设备如果是我如何管理向量在不同设备的全局内存上的分配 include

多GPU基本使用

多GPU基本使用 的相关文章

随机推荐

热门标签

多GPU基本使用的相关文章