如何使用Slurm访问集群中不同节点上的GPU？

2024-06-20

我可以访问由 Slurm 运行的集群，其中每个节点都有 4 个 GPU。

我有一个需要 8 个 GPU 的代码。

那么问题是，如何在每个节点只有 4 个 GPU 的集群上请求 8 个 GPU？

这就是我尝试通过以下方式提交的工作sbatch:

#!/bin/bash
#SBATCH --gres=gpu:8              
#SBATCH --nodes=2               
#SBATCH --mem=16000M              
#SBATCH --time=0-01:00

但后来我收到以下错误：

sbatch: error: Batch job submission failed: Requested node configuration is not available

然后我将设置更改为此并再次提交：

#!/bin/bash
#SBATCH --gres=gpu:4              
#SBATCH --nodes=2               
#SBATCH --mem=16000M              
#SBATCH --time=0-01:00  
nvidia-smi

结果显示只有 4 个 GPU，而不是 8 个。

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 375.66                 Driver Version: 375.66                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla P100-PCIE...  Off  | 0000:03:00.0     Off |                    0 |
| N/A   32C    P0    31W / 250W |      0MiB / 12193MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  Tesla P100-PCIE...  Off  | 0000:04:00.0     Off |                    0 |
| N/A   37C    P0    29W / 250W |      0MiB / 12193MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   2  Tesla P100-PCIE...  Off  | 0000:82:00.0     Off |                    0 |
| N/A   35C    P0    28W / 250W |      0MiB / 12193MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   3  Tesla P100-PCIE...  Off  | 0000:83:00.0     Off |                    0 |
| N/A   33C    P0    26W / 250W |      0MiB / 12193MiB |      4%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

Thanks.

Slurm 不支持你所需要的。它只能分配给您的作业 GPU/节点，而不能分配给您的作业 GPU/集群。因此，与 CPU 或其他消耗性资源不同，GPU 不是消耗性的，并且绑定到托管它们的节点。

如果您对此主题感兴趣，有一项研究工作将 GPU 转变为可消耗资源，请查看这张纸 http://dx.doi.org/10.1109/SBAC-PAD.2014.49。在那里您将了解如何使用 GPU 虚拟化技术来实现这一点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

GPU

clustercomputing

slurm

如何使用Slurm访问集群中不同节点上的GPU？的相关文章

Websphere 7集群部署

我们有一个 J2EE 应用程序作为 EAR 文件部署在 WAS 7 中为了使应用程序可用性尽可能高需要部署在 3 个集群中我们有一个 Quartz Scheduler 类其工作是每天凌晨 2 00 将数据从一个数据库上传到另一个数
使 CUDA 内存不足

我正在尝试训练网络但我明白了我将批量大小设置为 300 并收到此错误但即使我将其减少到 100 我仍然收到此错误更令人沮丧的是在 1200 个图像上运行 10 epoch 大约需要 40 分钟有什么建议吗错了我怎样才能加快这
如何更改 apache Spark Worker 每个节点的内存

我正在配置 Apache Spark 集群当我运行具有 1 个主服务器和 3 个从服务器的集群时我在主监视器页面上看到以下内容 Memory 2 0 GB 512 0 MB Used 2 0 GB 512 0 MB Used 6 0 G
在集群上运行时插入符号中发生错误

我正在运行train函数于caret http cran r project org web packages caret index html在集群上通过doRedis http cran r project org web packag
无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx
“分页文件太小，无法完成此操作”尝试训练 YOLOv5 对象检测模型时出错

我有大约 50000 个图像和注释文件用于训练 YOLOv5 对象检测模型我在另一台计算机上仅使用 CPU 训练模型没有问题但需要太长时间因此我需要 GPU 训练我的问题是当我尝试使用 GPU 进行训练时我不断收到此错误 OSE
Tensorflow：docker 镜像和 -gpu 后缀

在具有 GPU 支持的 Tensorflow 的 Docker 映像中例如 tensorflow tensorflow 2 2 0 gpu 安装的python包是tensorflow gpu 如图所示pip freeze 安装任何依赖于的
白色像素簇提取

我正在研究指纹毛孔提取项目并陷入毛孔白色像素簇提取的最后阶段我有两个输出图像我们可以从中获取毛孔但不知道该怎么做这两个图像的尺寸不同 image1 的尺寸为 240 320 image2 的尺寸为 230 310 这是我的图像
无法满足显式设备规范“/device:GPU:0”，因为没有匹配的设备

我想在我的 Ubuntu 14 04 机器上使用 TensorFlow 0 12 作为 GPU 但是当将设备分配给节点时我收到以下错误 InvalidArgumentError see above for traceback Canno
如何读取 GPU 负载？

我正在编写一个程序用于监控计算机的各种资源例如CPU使用率等我还想监控 GPU 使用情况 GPU 负载而不是温度 using System using System Collections Generic using System
将 nvidia 运行时添加到 docker 运行时

我正在运行虚拟机GCP配备特斯拉 GPU 并尝试部署一个PyTorch基于应用程序使用 GPU 加速我想让 docker 使用这个 GPU 可以从容器访问它我设法在主机上安装了所有驱动程序并且该应用程序在那里运行良好但是当我尝试在
如何在GPU支持下运行python代码

我创建了一个 Flask 服务用于接受以相机 URL 作为参数的请求用于在相机框架中查找对象桌子椅子等我已经在 Flask 中编写了用于接受 POST 请求的代码 app route rest detectObjects meth
XGBoostError：[10：10：03] /workspace/src/tree/updater_gpu_hist.cu：1407：gpu_hist 中的异常：NCCL 失败

PROJECT Nvidia 开发者项目 https developer nvidia com blog gradient boosting decision trees xgboost cuda 在 Google Colab 环境中 MY
用于计算邻居列表的最佳 GPU 算法

给定 3D 中数千个点的集合我需要获取落在某个截止值以欧几里得距离而言内的每个粒子的邻居列表并且如果可能的话从最近到最远排序在 CUDA 或 OpenCL 语言中哪种 GPU 算法最快我所知道的最快的 GPU MD 代码之一
GridGain - 通过 Grid.startNodes API 使用 SSH 以编程方式打开节点

我正在使用 Grid startNodes java util Collection java util Map boolean int int 如此处定义 http gridgain com api javadoc org gridgai
设备内存刷新cuda

我正在运行一个 C 程序其中调用了两次 cuda 主机函数我想清理这两个调用之间的设备内存有没有办法可以刷新 GPU 设备内存我使用的是计算能力为2 0的Tesla M2050 如果你只想将内存归零那么cudaMemset可能是最
OpenCV 2.4.3rc 和 CUDA 4.2：“OpenCV 错误：没有 GPU 支持”

我在这张专辑中上传了几张截图 https i stack imgur com TELST jpg https i stack imgur com TELST jpg 我正在尝试在 Visual Studio 2008 中的 OpenCV 中
Windows Azure 虚拟机配备什么类型的显卡？

我正在考虑在 Windows Azure 虚拟机上运行一些图形密集型程序但不确定它们有什么样的硬件所有虚拟机都具有相同的 GPU 吗您对此有何体验 Azure 虚拟机中的 GPU 可能非常基本并且很可能不具备执行密集图形操作所需的处
如何修复 slurm 中的“slurmd.service：无法打开 PID 文件”错误

尽管 SLURM 在作业提交运行和排队方面工作得很好但我遇到了下面的一个小错误 sudo systemctl status slurmd Jun 12 10 20 40 noki System Product Name systemd
Simpson 的 Thrust 集成代码在两台使用 NVC++ 的机器上输出不同的结果

我写了一个数值积分代码 include

随机推荐

在命令行上卸载 Android SDK 的选定部分

这与卸载旧的 Android SDK 版本 https stackoverflow com questions 15182377 uninstall old android sdk versions 除非我想在无头 Linux CI 服务
条件在反应本机生产中失败，但在开发中有效

我创建了一个反应本机应用程序我需要通过它进行比较如果属实就会执行死刑问题是该条件适用于 React Native 开发模式而不适用于 React Native 生产版本我使用 firebase 作为数据库也使用 redux
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
如何检查 Android 中的同步设置

我正在构建一个 Android 应用程序我需要检查设备中注册的每个单独帐户的同步设置我知道我可以通过 ContentResolver 类来做到这一点但我遇到了一些问题我已设法获取设备上所有帐户的列表但我不知道在运行时从哪里获取特定
Javascript 纪元时间（以天为单位）

我需要以天为单位的纪元时间迄今为止我已经看到过有关如何翻译它的帖子但几天后就没有了我对纪元时间很不好我怎么能得到这个我需要以天为单位的纪元时间我将解释为您想要自纪元以来的天数纪元本身是第 0 天或第 1 天的开始无论您如
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
Jquery 验证不能正确验证数字？

我在使用 jquery 非侵入式验证验证数字时遇到问题我使用的版本是 ASP NET MVC 3 jQuery 1 9 1 jQuery 用户界面 1 10 1 JQuery 验证 1 11 0 我试图验证的输入是
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
Safari 支持 JavaScript window.onerror 吗？

我有一个附加到 window onerror 的函数 window onerror function errorMsg url line window alert asdf 这在 firefox chrome 和 IE 中工作正常但在 s
如何在不声明 32 个插槽的情况下将 32 个按钮的 pressed() 信号连接到单个函数？

我有一个小部件里面有 32 个按钮我需要将每个按钮的 Pressed 信号连接到一个插槽以便调用一个函数该函数的参数取决于我按下的按钮现在我通过以 on QPushButtonName pressed 的形式添加 32 个插槽来做
Android - 以编程方式选择菜单选项

有没有办法以编程方式选择菜单选项基本上我希望视图中的按钮能够执行与按特定菜单选项相同的操作我正在考虑尝试调用 onOptionsItemSelected MenuItem item 但我不知道要为菜单项添加什么是的有一种方法可以选
没有用于警告的设置器/字段 Firebase 数据库检索数据填充列表视图

我只是想将 Firebase 数据库中的数据填充到我的列表视图中日志显示正在检索数据但适配器不会将值设置为列表中单个列表项中的文本它只说没有二传手场地插入值这让我觉得我的设置器没有正确制作但 Android Studio 自动
3 操作数 imul 指令在 ia-32 汇编中到底起什么作用？

我正在阅读说明 imul 0xffffffd4 ebp ebx 4 eax 我对它到底在做什么感到困惑我明白那个imul乘法但我无法弄清楚语法我知道并且更喜欢 Intel MASM 语法所以我将使用它请注意操作数的顺序在 AT
找不到符号 NOTIFICATION_SERVICE？

package com test app import android app Notification import android app NotificationManager import android app PendingIn
将记录批量插入到 Active Record 表中

我发现我的Model create 当我一次添加大量记录时语句需要很长时间才能运行看着ActiveRecord 导入 https github com zdennis activerecord import wiki但它不适用于哈希数组
如何更改此 jquery 插件的时区/时间戳？

我正在使用这个名为 timeago 的插件在这里找到 timeago yarp com 它工作得很好只是它在似乎不同的时区运行我住在美国东部费城时区当我将准确的 EST 时间放入 timeago 插件时比如 2011 05 28
通过系统应用程序以编程方式静默安装 apk（无需 root）

我有带有 android sharedUserId android uid system UID 1000 的系统级应用程序设备未root INSTALL PACKAGES 权限包含在清单中我可以静默安装下载的 apk 吗我已经发现这
AES 128 CBC 蒙特卡罗测试

我正在 AES 128 CBC 上执行 MCT 如中所述http csrc nist gov groups STM cavp documents aes AESAVS pdf http csrc nist gov groups STM ca
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
如何使用Slurm访问集群中不同节点上的GPU？

我可以访问由 Slurm 运行的集群其中每个节点都有 4 个 GPU 我有一个需要 8 个 GPU 的代码那么问题是如何在每个节点只有 4 个 GPU 的集群上请求 8 个 GPU 这就是我尝试通过以下方式提交的工作sbatch bi

如何使用Slurm访问集群中不同节点上的GPU？

如何使用Slurm访问集群中不同节点上的GPU？ 的相关文章

随机推荐

热门标签

如何使用Slurm访问集群中不同节点上的GPU？的相关文章