slurm:如何连接前端和计算节点?

2024-06-04

我有一个前端和两个计算节点

所有都有相同的 slurm.conf 文件,其结尾为(有关详细信息,请参阅:https://gist.github.com/avatar-lavventura/46b56cd3a29120594773ae1c8bc4b72c https://gist.github.com/avatar-lavventura/46b56cd3a29120594773ae1c8bc4b72c):

NodeName=ebloc2 NodeHostName=ebloc NodeAddr=54.227.62.43 CPUs=1
PartitionName=debug Nodes=ebloc2 Default=YES MaxTime=INFINITE State=UP

NodeName=ebloc4 NodeHostName=ebloc NodeAddr=54.236.173.82 CPUs=1
PartitionName=debug Nodes=ebloc4 Default=YES MaxTime=INFINITE State=UP

slurmctld:只检查第一个写入的节点信息,不检查第二个写入的节点信息。当我尝试发送作业时,我收到以下错误,它仅处理第一个写入节点的 IP,当我运行时sudo slurmd在第一个节点上它起作用。

Error:

slurmctld: debug2: slurm_connect failed: Connection refused
slurmctld: debug2: Error connecting slurm stream socket at 54.227.62.43:6821: Connection refused
slurmctld: debug2: slurm_connect failed: Connection refused
slurmctld: debug2: Error connecting slurm stream socket at 54.227.62.43:6821: Connection refused

问题:我在第一个订单中提到的计算节点接收作业,但我在第二个订单中提到的计算节点却没有。我该如何解决它。

slurmctld 日志(https://gist.github.com/avatar-lavventura/4ec8c1b15e0ada4aa4bd0414e2b1ffb4 https://gist.github.com/avatar-lavventura/4ec8c1b15e0ada4aa4bd0414e2b1ffb4)

感谢您的宝贵时间和帮助。


在配置文件中,尝试删除ControlAddr=127.0.0.1;或替换为 IP 地址ebloc. This 127.0.0.1地址基本上意味着“我自己”并且ControlAddr被使用slurmd连接到控制器。

也删除NodeHostName=localhost NodeAddr=127.0.0.1为了同样的原因。

并确保ebloc and ebloc1 and ebloc2确实是什么hostname -s这些机器上的回报。

还要确保没有防火墙阻止这些计算机之间任何方向的 Slurm 端口,并且 SELinux 已禁用或允许。确保slurmd运行,以及munge.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

slurm:如何连接前端和计算节点? 的相关文章

随机推荐

  • Jsoup - 隐藏的div类?

    我正在尝试爬取 div 类 但到目前为止我尝试过的一切都失败了 我正在尝试抓取元素 a href div class s buttons button s buttons buttonAlt s buttons buttonSlashBac
  • 表被指定两次作为 INSERT 的目标和单独的数据源

    我做了这个查询 但它给了我错误 就像标题中一样 INSERT INTO data waktu vaksinasi id binatang id vaksin tanggal vaksin status vaksin VALUES 1 1 S
  • Next.JS 中止获取路由组件:“/login”

    我正在开发一个用于每页身份验证的 useUser Hook 我已经正常实现了 useUser 挂钩 因此重定向工作正常 但我收到上述错误 中止获取路由组件 login 我该如何修复 useUserHook 来解 决它 useUser tsx
  • 使用 xamarin 和 c# 更改 android 上的cultureinfo

    我调用自定义方法来动态地将当前文化信息切换为法语 fr 像这样 但在调用该方法后 我的 Android 应用程序仍然使用默认区域性 en 但在调试模式下 区域性似乎没问题 我的文件夹没问题 我两者都有 并且字符串值已配置 文件夹 resou
  • 活动管理:同一列中的多个操作,类似于查看、编辑、删除

    我正在使用 active admin gem 为我的 ruby on Rails 应用程序提供一个管理控制台 我遇到一个问题 我想对索引页面上的每个项目进行多个自定义操作 就像查看 编辑 删除一样 但是 当添加自定义操作时 仅显示最后一个而
  • 在 Objective-C 中检查 Json 响应的空值

    AT null EA null AD2 OP null AdsLst EMs null ND MN null FN Sony LN J ZP 23456 CT 1 PP 0 cId 161464 Pos null WPExt null OS
  • sqlalchemy.exc.ArgumentError:无法从字符串解析 rfc1738 URL

    我正在学习 Flask Web 微框架 在数据库初始化后我运行flask db init I run flask db migrate 将我的模型类迁移到数据库 但出现错误 我在 Windows 10 上工作 数据库是 MySQL 扩展安装
  • 安装 ngAnimate 模块不起作用

    我似乎无法让 ng animate 在现有的 1 2 应用程序中工作 我已遵循 API 中的检查列表 但它没有应用适当的动画类 我觉得我在安装过程中一定错过了一些愚蠢的事情 这是我所做的 1 我正在此处的文档头部加载 Angular 和 A
  • $Error 变量为 $Null 但 $_ 在 Catch 中包含错误

    我有 PS 模块 其中包含许多用于各个功能的脚本 还有一个 库 脚本 其中包含许多辅助函数 这些函数由模块中使用的函数调用 我们调用外部函数ReadWeb 并且它使用辅助函数ParseXML 本周我在内部助手中遇到了错误处理问题ParseX
  • 是否有适用于 >= Delphi 2007 的 Delphi 混淆器

    我曾经使用 Pythia 来混淆我的 D6 程序 但 Pythia 似乎不再适用于我的 D2007 这是 Pythia 的链接 自 2007 年初以来没有更新 http www the interweb com serendipity in
  • 有什么方法可以让hashCode/equals与类的业务定义保持一致?

    Object javadocs 和 Josh Bloch 告诉我们很多关于 hashCode equals 应该如何实现的内容 好的 IDE 会正确处理各种类型的字段 关于这一切的一些讨论here https stackoverflow c
  • BLE (iBeacons) 三边测量

    我是德国富特旺根大学的学生 我已经进入最后一个学期了 现在正在写论文 我对 iBeacons 及其背后的技术非常感兴趣 我当前的项目是将信标技术与 GPS 无线定位 GSM 和 NFC 等其他技术进行比较 对于我的论文 我将创建不同的用例并
  • SQL Server 全文的自定义断字器

    有谁知道如何为 SQL Server 2005 创建自定义分词系统 我更喜欢用 C 编写它 我需要能够搜索 c f 等术语 但 字符是英语 英国 分词器组件中的分词器 不能以任何其他方式更改 我发现以下文章提供了不完整的示例 缺少 IWor
  • Navicat 中的 MySQL 视图 - 如何定义“主键”?

    当我在 Navicat 中定义视图时 经常会收到以下消息 xxx 没有主键 对此表的更新将使用以下伪语句完成 UPDATE xxx SET ModifiedFieldsAndValues WHERE AllFieldsAndOldValue
  • 如何检查Azure SQL数据库中是否已存在数据库用户

    我的新客户计划使用 Azure 托管 SQL 数据库服务 我正在使用 dacpac 来部署数据库 在 dacpac 中 我有一个部署后脚本 用于创建 sql 用户 如下所示 IF NOT EXISTS SELECT name FROM sy
  • C++ 中的 Base64 解码片段

    是否有免费提供的 C 中的 Base64 解码代码片段 这是我的修改最初编写的实现雷内 尼芬格 http www adp gmbh ch cpp common base64 html 我为什么要修改它 好吧 因为我认为我应该使用存储在其中的
  • 将数据追加到 UITableView 的正确方法,swift

    我正在尝试使用两种方式将新数据添加到 UITableView 第一种方式 func insertData appendMessages Message var currentCount self messeges count var ind
  • Python-矩阵中相同列/行的列表

    我有一个矩阵 A 和一个索引列表 比如说l 0 3 4 5 有没有一种简单的方法来访问 A 对应于这些行和列的 4x4 子矩阵 即A l l A l 访问 l 中行的所有列 A l 1 4 访问中的行l和前四列A 但我找不到访问的方法l以这
  • 从其他形式的方法获取值

    我遇到一个问题 我以与主窗体不同的形式检索方法中的值 这是我的代码 这是我想要检索值的主要形式 private void EstimationComp Click object sender EventArgs e PaintingFend
  • slurm:如何连接前端和计算节点?

    我有一个前端和两个计算节点 所有都有相同的 slurm conf 文件 其结尾为 有关详细信息 请参阅 https gist github com avatar lavventura 46b56cd3a29120594773ae1c8bc4