运行多个工作守护进程 SLURM

2023-12-01

我想在一台机器上运行多个工作守护进程。按照达米安弗朗索瓦的回答关于slurm 集群的最少计算机数量是多少可以办到。问题是目前我只能在一台机器上执行 1 个工作守护进程。例如

当我跑步时

sudo slurmd -N linux1 -cDvv
sudo slurmd -N linux2 -cDvv

当我运行 linux 2 时,linux 1 出现故障。是否可以在一台机器上运行多个工作守护进程? 这是我的slurm.conf file


由于您的意图似乎只是测试 Slurm 的行为,因此我建议您使用前端模式,您可以在同一台机器中创建虚拟计算节点。

在他们的FAQ,您有更多详细信息,但基本上您必须配置您的安装才能使用此模式:

./configure --enable-front-end  

并配置节点slurm.conf

NodeName=test[1-100] NodeHostName=localhost

在该指南中,他们还解释了如何通过更改端口在同一节点中启动多个真实的守护进程,但出于我的测试目的,这是没有必要的。

祝你好运!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

运行多个工作守护进程 SLURM 的相关文章

  • 什么分布式消息队列支持百万级队列?

    我正在寻找一个分布式消息队列 它将支持数百万个队列 每个队列每秒处理数十条消息 消息会很小 几十个字节 而且我不希望队列变得很长 每个队列最多有几十条消息 但是当系统运行时 队列应该保持相当长的状态空的 我不确定集群中有多少个节点 可能取决
  • 节点集群工作人员内存使用情况

    有谁知道是否有一种独立于平台的方法来获取工作人员的内存使用情况 我希望它会像这样工作 console log App process memoryUsage process memoryUsage cluster on online fun
  • 节点如何知道哪些节点已经看到集群当前状态?

    我正在阅读 akka 文档 并在理解他们的实现方式时遇到了一些麻烦Gossip 文档在这里 http doc akka io docs akka 2 4 common cluster html Gossip Protocol 让我困惑的部分
  • Kubernetes 集群未将外部 IP 公开为

    这是我的 service yaml 代码 kind Service apiVersion v1 metadata name login spec selector app login ports protocol TCP name http
  • 自动完成后端

    这是一个面试问题 设计一个自动完成的分布式后端 我会回答如下 自动完成是按给定后缀在字典中进行搜索 这本词典可能应该被组织为trie 该词典是根据最常见的查询构建的 但这是另一回事了 现在我假设字典不会经常更改 例如每天一次而不是每毫秒一次
  • 连接Redis集群失败

    我已经设置了 Redis 集群谷歌计算引擎 http console developers google com by 点击部署 https cloud google com solutions redis click to deploy
  • paxos 与 raft 进行领导者选举

    读完paxos和raft paper后 我有以下困惑 paxos论文仅描述了单个日志条目的共识 相当于raft算法中的领导者选举部分 在raft的leader选举中 paxos的方式相对于简单的随机超时方式有什么优势呢 一个常见的误解是原始
  • 大规模分布式系统中的日志文件

    我在网格和 HPC 领域做了很多工作 对于分布在数百 或在某些情况下数千 服务器上的系统 我们面临的最大挑战之一是分析日志文件 当前日志文件本地写入每个刀片上的磁盘 但我们也可以考虑使用 UDP Appender 等发布日志信息并集中收集
  • 网络断开后,raft follower如何重新加入?

    我在木筏上遇到了问题 在论文 寻找一种可理解的共识算法 扩展版 中写道 要开始选举 追随者会增加其当前的 任期并过渡到候选状态 第 5 2 节 它还说 AppendEntries RPC 和 RequestVot RPC 中的接收者应为 R
  • 与共享数据相比,消息传递的性能损失

    最近有很多关于不使用锁和使用 Erlang 等消息传递方法的讨论 或者关于使用不可变的数据结构 例如函数式编程与 C Java 中的比较 但我关心的是以下几点 AFAIK Erlang 不保证消息传递 消息可能会丢失 如果还要担心消息丢失
  • 集群环境下的Spring Singleton

    正如中所讨论的this https stackoverflow com questions 1194129 singleton in cluster environmentpost 不适合使用单例聚集的环境 因为不同 JVM 中有多个单例对
  • 在 Spark 执行器节点上安装 Python 依赖项的最简单方法?

    据我所知 您可以将单个文件作为 Python Spark 程序的依赖项发送 但是成熟的库 例如 numpy 呢 Spark 是否有办法使用提供的包管理器 例如 pip 来安装库依赖项 或者这必须在 Spark 程序执行之前手动完成 如果答案
  • 使用 COMPS 构建 C/C++ 应用程序时出错:硬编码路径

    我正在尝试构建一个使用 C C 绑定开发的 COMPASs 应用程序 当我构建应用程序时 出现以下错误 您知道我该如何解决这个问题吗 xxxx xxx c increment gt buildapp increment BSC Barcel
  • 如何更改 apache Spark Worker 每个节点的内存

    我正在配置 Apache Spark 集群 当我运行具有 1 个主服务器和 3 个从服务器的集群时 我在主监视器页面上看到以下内容 Memory 2 0 GB 512 0 MB Used 2 0 GB 512 0 MB Used 6 0 G
  • 在集群上运行时插入符号中发生错误

    我正在运行train函数于caret http cran r project org web packages caret index html在集群上通过doRedis http cran r project org web packag
  • 在分布式 dask 中,我们如何为每个工作人员选择 --nthreads 和 --nprocs ?

    我们如何选择 nthreads and nprocsDask 中每个工人的分布情况 我有 3 个工作线程 2 个工作线程有 4 个核心 每个核心有一个线程 1 个工作线程有 8 个核心 根据输出lscpu每个worker上的Linux命令
  • 是否可以仅从复制因子为 3 的 Cassandra 集群中的单个节点读取数据?

    我知道 Cassandra 有不同的读取一致性级别 但我还没有看到一种一致性级别允许仅从一个节点按键读取数据 我的意思是 如果我们有一个复制因子为 3 的集群 那么我们在读取时总是会询问所有节点 即使我们选择一致性级别 1 我们也会询问所有
  • 集群应用程序服务器中的 JMS 主题订阅者如何接收消息?

    假设我创建了一个带有一个订阅者 PropertiesSubscriber 的 JMS 主题 PropertiesTopic PropertiesSubscriber 运行在负载平衡的应用程序服务器集群中 如下图所示 替代文本 http ww
  • 通过分布式数据库聚合作业优化网络带宽

    我有一个分布式 联合数据库 结构如下 数据库分布在三个地理位置 节点 每个节点集群有多个数据库 关系数据库是 PostgreSQL MySQL Oracle 和 MS SQL Server 的混合体 非关系数据库是 MongoDB 或 Ca
  • slurm:如何连接前端和计算节点?

    我有一个前端和两个计算节点 所有都有相同的 slurm conf 文件 其结尾为 有关详细信息 请参阅 https gist github com avatar lavventura 46b56cd3a29120594773ae1c8bc4

随机推荐

  • jquery数据表排序忽略空值

    我正在使用数据表和 jQuery 来制作漂亮的可排序表 我现在想要对行进行排序 该值是一个数值 但它也可能不可用 所以此时我将回显破折号 现在 当我对此列进行排序时 所有带有破折号的行都位于顶部 然后显示值为 1 3 6 8 10 的行 如
  • 获取 Point 两侧的 LineString 上的顶点

    我有一个匀称的LineString并定义了一个匀称的Point沿着LineString 我怎样才能找到顶点LineString哪个位于该点的两侧 将线分成两部分 找到线段LineString重点在哪里 然后将顶点分成两组LineString
  • 如何在mysql存储过程中生成5个随机数

    如何生成 5 个唯一的随机数 现在我有类似的东西 declare v counter integer declare v random integer declare v result varchar 10 select FLOOR 1 r
  • FixThreadPool 与 CachedThreadPool:两害相权取其轻

    我有一个程序可以生成线程 5 150 来执行一堆任务 最初 我使用了一个FixedThreadPool因为这个类似的问题建议它们更适合寿命较长的任务 并且由于我对多线程的了解非常有限 我考虑了线程的平均寿命 几分钟 长寿 但是 我最近添加了
  • 如何使用 Java 列出存储桶中的所有 AWS S3 对象

    使用 Java 获取 S3 存储桶中所有项目的列表的最简单方法是什么 List
  • 安装factoextra时rbind(info, getNamespaceInfo(env, "S3methods")) 出错

    我正在尝试在 Windows 上使用本地源 tar 球安装 factoextra 包 我可以用同样的方式安装其他软件包 没有问题 但是 在安装 factoextra 时 我收到与 S3methods 相关的错误 我尝试使用本地 Window
  • 如何使用 css 模糊图像,同时在图像上显示文本(悬停)

    可以 然后呢 我有个问题 我想要一张悬停时模糊的图片 同时让文字出现在它上面 我找到了一种简单的方法来模糊图像并显示文本 但不能同时显示两者 事实上 将两个代码合并在一起可以使图片看起来一点也不模糊 我认为这是因为文本实际上覆盖了图像 并且
  • WPF 中的网格表

    我需要创建一个网格 应该是可编辑的我应该设置行数和列数 例如 mygrid RowCount 3 mygrid ColumnCount 3 它应该是这样的 如何将二维数组绑定到DataGrid 您可以使用 WPF DataGrid 控件 它
  • 将 JSON 文件加载到 BigQuery 表时如何管理/处理架构更改

    我的输入文件如下所示 Id 1 Address Street MG Road City Pune Id 2 Address City Mumbai Id 3 Address Street XYZ Road Id 4 Id 5 PhoneNu
  • PostgreSQL - 不一致的复制权限错误

    我在 Windows 7 32 位计算机上使用 EnterpriseDB pgAdmin III v 1 12 1 来处理远程 Linux 服务器上的 PostgreSQL 数据库 我以用户 postgres 身份登录 这允许我访问 PGD
  • 在 JSF 模板内进行过滤是个好主意吗?

    我必须说的第一件事是 我从未在 Java Web 应用程序上使用 Web 过滤器 所以这可能是一个愚蠢的想法 我正在尝试创建一种方法 可以检查用户的权限 并在用户是否可以访问某些页面时授予其访问权限 为了更好的解释 我将举一个例子 您应该想
  • 我在尝试将 python 与 mysql 链接时遇到错误

    TypeError init takes 1 positional argument but 5 were given 这是错误 我将分享以下脚本 import pymysql print DATABASE CONNECTION SAMPL
  • 为什么 eclipse 不重新编译对我的 Java 类所做的最后更改?

    我有一个简单的文件 只有 1 行 在 main 中打印 Hello World 我执行它并在 eclipse 控制台上打印 Hello World 现在当我将字符串更改为 再见世界 它仍然打印 你好世界 事实上 如果我通过将 println
  • 带有签名的图像未按预期定位

    我正在开发一个 SwiftUI 项目 我想将签名图像叠加在另一个图像之上 并允许用户操纵签名图像的位置 比例和旋转 但是 我在签名图像的定位方面遇到了问题 并且它没有出现在我期望的位置 我尝试设置用于拖动 缩放和旋转签名图像的手势 但它的行
  • 如何使用ajax在javascript中调用java类方法?

    我有一个java类 package MyPackage import java sql Connection import java sql DriverManager import java sql ResultSet import ja
  • Woocommerce 获取购物车项目元

    我的产品页面上有一个 自定义字段 我想将其添加到 Woocommerce 购物车页面中的产品标题上方 这是自定义字段数据 我用这个 PHP 代码让它在单个产品卡上工作 add action woocommerce after shop lo
  • 如何在 Windows 计算机上从命令提示符运行 PHP 程序?

    I m a PHP开发人员按职业 我正在使用一个联想 Ideapad 笔记本电脑运行于Windows 10 家庭单语言 64 位操作系统 我也安装了XAMPP 控制面板 v3 2 2在地点 C xampp 执行PHP程序 in a 网页浏览
  • 如何将操作应用到选定的多个 Outlook 项目?

    代码here仅适用于一件物品 如何修改它来运行DisplayItemMetadata 参见代码 对于每个选定的项目 更新 尝试执行以下操作 For Each individualItem In Application ActiveExplo
  • 如何在 Windows 上更新 winpython 中的 scipy?

    我已经安装了 winpython 我想将 scipy 更新到版本 0 14 我怎样才能做到这一点 我应该完全重新安装 winpython 吗 EDIT 如果我跑pip install upgrade scipy来自WinPython Com
  • 运行多个工作守护进程 SLURM

    我想在一台机器上运行多个工作守护进程 按照达米安弗朗索瓦的回答关于slurm 集群的最少计算机数量是多少可以办到 问题是目前我只能在一台机器上执行 1 个工作守护进程 例如 当我跑步时 sudo slurmd N linux1 cDvv s