我有一个前端和两个计算节点
所有都有相同的 slurm.conf 文件,其结尾为(有关详细信息,请参阅:https://gist.github.com/avatar-lavventura/46b56cd3a29120594773ae1c8bc4b72c https://gist.github.com/avatar-lavventura/46b56cd3a29120594773ae1c8bc4b72c):
NodeName=ebloc2 NodeHostName=ebloc NodeAddr=54.227.62.43 CPUs=1
PartitionName=debug Nodes=ebloc2 Default=YES MaxTime=INFINITE State=UP
NodeName=ebloc4 NodeHostName=ebloc NodeAddr=54.236.173.82 CPUs=1
PartitionName=debug Nodes=ebloc4 Default=YES MaxTime=INFINITE State=UP
slurmctld
:只检查第一个写入的节点信息,不检查第二个写入的节点信息。当我尝试发送作业时,我收到以下错误,它仅处理第一个写入节点的 IP,当我运行时sudo slurmd
在第一个节点上它起作用。
Error:
slurmctld: debug2: slurm_connect failed: Connection refused
slurmctld: debug2: Error connecting slurm stream socket at 54.227.62.43:6821: Connection refused
slurmctld: debug2: slurm_connect failed: Connection refused
slurmctld: debug2: Error connecting slurm stream socket at 54.227.62.43:6821: Connection refused
问题:我在第一个订单中提到的计算节点接收作业,但我在第二个订单中提到的计算节点却没有。我该如何解决它。
slurmctld 日志(https://gist.github.com/avatar-lavventura/4ec8c1b15e0ada4aa4bd0414e2b1ffb4 https://gist.github.com/avatar-lavventura/4ec8c1b15e0ada4aa4bd0414e2b1ffb4)
感谢您的宝贵时间和帮助。
在配置文件中,尝试删除ControlAddr=127.0.0.1
;或替换为 IP 地址ebloc
. This 127.0.0.1
地址基本上意味着“我自己”并且ControlAddr
被使用slurmd
连接到控制器。
也删除NodeHostName=localhost NodeAddr=127.0.0.1
为了同样的原因。
并确保ebloc
and ebloc1
and ebloc2
确实是什么hostname -s
这些机器上的回报。
还要确保没有防火墙阻止这些计算机之间任何方向的 Slurm 端口,并且 SELinux 已禁用或允许。确保slurmd
运行,以及munge
.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)