我们使用 SLRUM 在节点之间共享 CPU 和 GPU 资源。
有时 GPU 作业无法提交,因为有人提交了满的 CPU 作业。
这样的话,就浪费了GPU资源。
我该如何制定政策来避免这种冲突?
例如,是否可以限制 GPU 作业节点上的最大 CPU 作业数?
(节点资源:48个CPU核,4个GPU卡,-->限制CPU作业最多44个,以保留4个GPU作业。)
有时用于执行此操作的配置是具有两个(重叠)分区,一个包含所有节点(CPU 分区),另一个仅包含 GPU 节点(GPU 分区)。
然后你设置MaxCPUsPerNode
CPU 分区为 44,GPU 分区为 4。
然后,GPU 作业必须提交到 GPU 分区,而仅 CPU 作业必须提交到 CPU 分区(可以是默认设置)。这可以通过“资源限制”或“作业提交”插件来强制执行
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)