如何选择在哪个 GPU 上运行作业？

2023-12-09

在多 GPU 计算机中，如何指定 CUDA 作业应在哪个 GPU 上运行？

例如，在安装 CUDA 时，我选择安装NVIDIA_CUDA-<#.#>_Samples然后运行了几个实例nbody模拟，但它们都运行在一个 GPU 0 上； GPU 1 完全空闲（使用watch -n 1 nvidia-dmi）。检查CUDA_VISIBLE_DEVICES using

echo $CUDA_VISIBLE_DEVICES

我发现这个没有设置。我尝试使用设置它

CUDA_VISIBLE_DEVICES=1

然后运行nbody再次，但它也转到 GPU 0。

我看了相关问题，如何选择指定GPU来运行CUDA程序？, but deviceQuery命令不在 CUDA 8.0 bin 目录中。此外 $CUDA_VISIBLE_DEVICES$ ，我看到其他帖子提到了环境变量$CUDA_DEVICES但这些都没有设置，我也没有找到如何使用它的信息。

虽然与我的问题没有直接关系，但使用nbody -device=1我能够让应用程序在 GPU 1 上运行，但使用nbody -numdevices=2未在 GPU 0 和 1 上运行。

我正在使用 bash shell、CentOS 6.8、CUDA 8.0、2 个 GTX 1080 GPU 和 NVIDIA 驱动程序 367.44 运行的系统上对此进行测试。

我知道使用 CUDA 编写时，您可以管理和控制要使用的 CUDA 资源，但是在运行编译的 CUDA 可执行文件时，如何从命令行管理它？

该问题是由于没有设置CUDA_VISIBLE_DEVICESshell 中的变量正确。

指定 CUDA 设备1例如，您可以设置CUDA_VISIBLE_DEVICES using

export CUDA_VISIBLE_DEVICES=1

CUDA_VISIBLE_DEVICES=1 ./cuda_executable

前者为当前 shell 的生命周期设置变量，后者仅为该特定可执行调用的生命周期设置变量。

如果您想指定多个设备，请使用

export CUDA_VISIBLE_DEVICES=0,1

CUDA_VISIBLE_DEVICES=0,1 ./cuda_executable

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

NVIDIA

如何选择在哪个 GPU 上运行作业？的相关文章

无法从静态初始化代码启动 CUDA 内核

我有一个在其构造函数中调用内核的类如下所示标量场 h include
使用常量内存打印地址而不是cuda中的值

我试图在代码中使用常量内存并从内核分配常量内存值而不是使用 cudacopytosymbol include
如何在 gitlab-ci docker 执行器中使用 cuda

我们正在使用 gitlab 持续集成来构建和测试我们的项目最近其中一个项目添加了 CUDA 的要求以启用 GPU 加速我不想改变我们的管道 docker 和 gitlab ci 对我们来说运行良好所以我想以某种方式让 docker
将 GPUJPEG 项目移植到 Windows

我目前正在尝试移植 GPUJPEG 在 Sourceforge 上 http sourceforge net projects gpujpeg 库基于 CUDA 从 Unix 到 Windows 现在我被卡住了我不知道发生了什么或为什么
如何在 CUDA 应用程序中构建数据以获得最佳速度

我正在尝试编写一个简单的粒子系统利用 CUDA 来更新粒子位置现在我定义的粒子有一个对象该对象的位置由三个浮点值定义速度也由三个浮点值定义更新粒子时我向速度的 Y 分量添加一个常量值以模拟重力然后将速度添加到当前位置以得出新
某些子网格未使用 CUDA 动态并行执行

我正在尝试 CUDA 5 0 GTK 110 中的新动态并行功能我遇到了一个奇怪的行为即我的程序没有返回某些配置的预期结果不仅是意外的而且每次启动都会出现不同的结果现在我想我找到了问题的根源似乎当生成太多子网格时某些子网格由
用于类型比较的 Boost 静态断言

以下问题给我编译器错误我不知道如何正确编写它 struct FalseType enum value false struct TrueType enum value true template
当我有表面声明时，如何为 sm_1X 和 sm_2X 编译 CUDA 程序

我正在编写一个使用表面重新采样并写入纹理来提高性能的库 surface
CUDA 中的广义霍夫变换 - 如何加快分箱过程？

正如标题所示我正在对并行计算机视觉技术进行一些个人研究使用 CUDA 我尝试实现 GPGPU 版本的霍夫变换我遇到的唯一问题是在投票过程中我调用atomicAdd 来防止多个同时写入操作但我似乎没有获得太多的性能效率我在网上搜索
多个进程可以共享一个 CUDA 上下文吗？

这个问题是 Jason R 的后续问题comment https stackoverflow com questions 29964392 multiple cuda contexts for one device any sense co
CUDA Thrust 和 sort_by_key

我正在寻找 CUDA 上的排序算法它可以对元素数组 A 双精度进行排序并返回该数组 A 的键 B 数组我知道sort by keyThrust 库中的函数但我希望元素数组 A 保持不变我能做些什么我的代码是 void sort
使 CUDA 内存不足

我正在尝试训练网络但我明白了我将批量大小设置为 300 并收到此错误但即使我将其减少到 100 我仍然收到此错误更令人沮丧的是在 1200 个图像上运行 10 epoch 大约需要 40 分钟有什么建议吗错了我怎样才能加快这
如何确定完整的 CUDA 版本 + 颠覆版本？

Linux 上的 CUDA 发行版曾经有一个名为version txt例如 CUDA Version 10 2 89 这非常有用但是从 CUDA 11 1 开始该文件不再存在我如何在 Linux 上通过命令行确定并检查 path t
Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
NvCplGetThermalSettings 返回 false

问题您好我正在尝试使用 Delphi 获取 nividia gtx 980 的 GPU 温度我看过C 问题他的解决方案是不使用nvcpl dll 我认为这不是正确的解决方案因为 nivida 有完整的文档说明如何处理 API 见下
Pytorch CUDA 错误：没有内核映像可用于在带有 cuda 11.1 的 RTX 3090 设备上执行

如果我运行以下命令 import torch import sys print A sys version print B torch version print C torch cuda is available print D torc
Yocto for Nvidia Jetson 由于 GCC 7 而失败 - 无法计算目标文件的后缀

我正在尝试将 Yocto 与 meta tegra 一起使用 https github com madisongh meta tegra https github com madisongh meta tegra 为 Nvidia Jets
使用 CUDA 进行逐元素向量乘法

我已经在 CUDA 中构建了一个基本内核来执行逐元素两个复向量的向量向量乘法内核代码插入如下 multiplyElementwise 它工作正常但由于我注意到其他看似简单的操作如缩放向量在 CUBLAS 或 CULA 等库中进行了
TensorRT 多线程

我正在尝试使用 python API 来使用 TensorRt 我试图在多个线程中使用它其中 Cuda 上下文与所有线程一起使用在单个线程中一切正常我使用 docker 和 tensorrt 20 06 py3 图像 onnx 模型和
错误：NVIDIA-SMI 失败，因为无法与 NVIDIA 驱动程序通信

NVIDIA SMI 抛出此错误 NVIDIA SMI 失败因为无法与 NVIDIA 通信司机确保安装了最新的 NVIDIA 驱动程序并且跑步我清除了 NVIDIA 并按照提到的步骤重新安装了它here https askubun

随机推荐

create-react-app 和节点服务器的 ECONNREFUSED 错误

我正在使用 create react app 因此没有自定义 webpack 和节点服务器构建 MERN 应用程序我正在使用 nodemon 重新启动后端上的更改问题是大约一半的时间似乎我的前端尝试在 nodemon 重新启动节点服务器
jQuery .click() 不起作用？

我在 html 表中生成了一组按钮如下所示然后我想在单击时调用该函数 each childData function key item var packPath key replace g Replace underscore with
根据第一个非零将数字舍入到最接近的“nth”

我想将 Double 舍入到小数点后最接近的非零数字例如 x 0 002341 rounded 0 002 x 0 000048123 rounded 0 00005 对于基数 gt 0 的情况应该这样执行 x 1 000234 rou
将列表向量转换为向量向量

我的 txt 文件中有以下数据 1 John Smith 123 Here Street 456 4567 2 Sue Jones 43 Rose Court Street 345 7867 3 Fan Yuhong 165 Happy L
创建转弯导航 iPhone 应用程序

我正在尝试构建一个像 TomTom 或 Mapquest 这样的路线导航应用程序并且我正在寻找一些入门帮助以获取可用选项和许可如果有从技术上讲我认为通过 Core Location 在地图上绘制当前位置或地址相当容易但我有一些更
null 在此代码中如何工作？ [复制]

这个问题在这里已经有答案了 null 在此代码中如何工作为什么它不打印对象 class Test1 public void doStuff Object o System out println In Object public void
使用 MongoDB / Meteor 更新数组中的特定元素

users voted user id AQG8ECLdBRJ4jwPMG score down 想知道我将如何更新users votedfield 是一个数组对象我需要更新一个特定的对象我知道index该对象所在的位置我只需要弄清楚
如何正确关闭 ODP.net 连接：dispose() 或 close()？

这是我的powershell代码 void System Reflection Assembly LoadFile C DLL Oracle ManagedDataAccess dll OracleConnexion New Object
nginx 未知指令“auth_jwt”

我想在我的 nginx 上设置 jwt auth 但出现此错误 nginx emerg unknown directive auth jwt in usr local etc nginx nginx conf 我的 nginx 版本 ngi
以编程方式确定 UNC 路径中的可用空间

是否有用于从 UNC 路径确定 NAS 存储上的可用空间的编程 API 我查看了 WMI 文档并不清楚这是否可行如果有代码示例和相关 API 调用的参考我们将不胜感激在 Windows API 中获取FreeDiskSpaceEx
饼图透明度，多个饼图

我想将两个饼图堆叠在一起这里的想法是将其中一个变小这样您就只能看到后面饼图的外环我尝试使用 chartCalProgres BackColor Color Transparent chartCalProgres ChartAreas
android.net.wifi.WifiManager 中缺少方法

在网站上androidjavadoc com 一个方法startScanActive被列在类中WifiManager这使得执行主动 Wi Fi 扫描成为可能它一直在这里讨论最近也是然而当我尝试在 Eclipse 中使用该方法时找不到
为什么 TFontDialog 提供的字体比 Screen.Fonts 少？

我想知道为什么 TFontDialog 提供的字体比 Screen Fonts 少例如 Arial 字体 Comic 字体等不会在 TFontDialog 中显示 TFontDialog 给出的字体列表似乎与 WordPad 相同而 S
掌握 Node JS 多线程的替代方案

如果我理解正确的话 Node JS 是非阻塞的所以它不会等待数据库或其他进程的响应而是转移到其他东西并稍后检查而且它是单线程的那么这一切是否意味着给定的 Node JS 进程可以充分有效地利用单个 CPU 核心但它不会使用机器上的
如何在运行时以最小的开销共享全局常量？

我正在使用 C 11 我不允许使用像 boost 等外部库我必须只使用 STL 我有许多事件必须将其标识为字符串常量我不允许使用枚举或整数或任何其他数据类型例如事件名称1 事件名称2 some other event name3
从 EmitterProcessor 移动到 Sinks.many()

已经使用有一段时间了create an EmitterProcessor内置sink如下 EmitterProcessor
非常非常简单的 C++ 程序中的“未定义引用”错误

我有一个简单的程序我完全从示例中复制了它http www learncpp com cpp tutorial 19 header files 因为我正在学习如何使用多个文件制作 C 程序程序可以编译但构建时出现以下错误 tmp ccm
kCFStreamErrorDomainSSL，在 iOS 9 中通过 HTTPS 通过 IP 地址连接到服务器时为 -9802

我们有一个通过 HTTPS 连接到我们的服务器的 iOS 应用程序当使用新的 iOS 9 SDK 构建应用程序并在 iOS 9 下运行时会出现以下错误 NSURLSession NSURLConnection HTTP load fai
Scala 中是否有类型变量 'm forSome { type m[O] <: UpperBound[O] }` 的简写？

Problem trait UpperBound O trait High F O lt UpperBound O def canEqual that Any that isInstanceOf High def high h High 无
如何选择在哪个 GPU 上运行作业？

在多 GPU 计算机中如何指定 CUDA 作业应在哪个 GPU 上运行例如在安装 CUDA 时我选择安装NVIDIA CUDA lt gt Samples然后运行了几个实例nbody模拟但它们都运行在一个 GPU 0 上 GPU

如何选择在哪个 GPU 上运行作业？

如何选择在哪个 GPU 上运行作业？ 的相关文章

随机推荐

热门标签

如何选择在哪个 GPU 上运行作业？的相关文章