SLURM 中两个作业数组之间的一对一依赖关系

2023-12-06

服务器刚刚从 CONDOR 切换到 SLURM，所以我正在学习并尝试将我的提交脚本翻译为 SLURM。

我的问题如下，我有两个工作数组。第二个依赖于第一个。目前，我喜欢以下内容

events1=$(sbatch --job-name=events --array=1-3 --output=z-events-%a.stdout myfirst.sh)
jobid_events1=`echo ${events1} | sed -n -e 's/^.*job //p' `
echo "The job ID of the events is "${jobid_events1}

postevents1=$(sbatch --job-name=postevents --dependency=afterany:${jobid_events1} --array=1-3 mysecond.sh)
jobid_postevents1=`echo ${postevents-cftables1} | sed -n -e 's/^.*job //p' `
echo "The job ID post-event calculations is "${jobid_postevents1}

这是第二个作业数组事后1仅在第一个作业数组的每个元素之后开始events1已完成。然而，我真正想要的是i- 第二个作业数组的第一个元素仅取决于i-第一个作业数组的第一个元素（实际上，两个数组始终具有相同的大小）。我知道对于 CONDOR，这可以通过使用 DAG 来完成。

我意识到我可以手动打破第二个作业数组并单独进行匹配。但是，由于我必须破坏第二个作业数组，因此如果第三个作业依赖于第二个作业数组的所有元素，对我来说会变得越来越不方便。

Edit：根据达米安·弗朗索瓦的答案，关键词后校正就是我一直在寻找的。我有一个后续问题。

不过，乍一看，“成功完成”确实很有道理。但是，如果其中一个任务（在第一个作业数组中）未成功完成，是否必须手动删除第二个数组中的相应任务？如果是这样，那么可能会变得复杂的是，如果第一个作业数组中的任何任务失败，则依赖于第二个作业数组的任务部分完成的任何进一步作业都将挂在那里（这在我的实践中很常见）。在这种情况下，如何实现“afterany”选项？

提前谢谢了！

从 16.05 版本开始，Slurm 有一个选项--dependency=aftercorr:job_id[:jobid...]

该作业数组的任务可以在相应的指定作业中的任务 ID 已成功完成（运行到完成，退出代码为零）。

它可以满足您的需要。

然而它有你所描述的缺点；如果第一个数组中的相应作业崩溃，第二个数组中的作业将无限期地等待。您有多种行动方案，但没有一个是完美的：

如果可以从提交脚本中检测到作业崩溃，并且崩溃是随机的，您可以简单地使用以下命令重新排队作业scontrol requeue $SLURM_JOB_ID以便它再次运行。
否则，您可以在第二个数组中的作业末尾添加一段 Bash 代码，该代码将检查第一个数组中的任何作业是否仍在队列中，如果没有，则取消第二个数组中的所有剩余作业;像这样的东西（未经测试）[[ $(squeue --noheader --name events | wc -l) == 0 ]] && scancel $SLURM_JOB_ID
最后，最后一个选择是使用成熟的工作流程系统。看this以获得简短的介绍和指导。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

slurm

SLURM 中两个作业数组之间的一对一依赖关系的相关文章

当集群（slurm）取消作业时 Snakemake 挂起

也许答案对很多人来说都是显而易见的但我很惊讶我找不到关于这个主题的问题这对我来说是一个主要问题我将不胜感激的提示当在 slurm 管理的集群上提交作业时如果队列管理器取消该作业例如由于资源或时间不足 snakemake 似乎不
运行多个工作守护进程 SLURM

我想在一台机器上运行多个工作守护进程按照达米安弗朗索瓦的回答关于slurm 集群的最少计算机数量是多少可以办到问题是目前我只能在一台机器上执行 1 个工作守护进程例如当我跑步时 sudo slurmd N linux1 cDvv s
是否可以强制 SLURM 只能访问作业的运行文件夹而不更改任何其他文件？

我观察到当我运行 SLURM 作业时它可以在其他文件夹路径上创建文件也可以删除它们通过 SLURM 作业他们可以访问其他文件夹文件并对其进行更改这似乎很危险 sbatch run sh run sh bin bash SBAT
访问数组作业的任务 ID

我通常使用类似以下内容来提交数组作业 bin bash sbatch lt
多分区作业的批处理脚本？

我正在开发一个项目该项目在大型计算集群的两个不同分区上运行程序我想使用批处理脚本来运行它但搜索后仍然不清楚是否如何从单个批处理脚本中在两个不同的分区上分配和运行程序这就是我想做的事情 bin bash SBATCH partit
SLURM：如何查看已完成的作业全名？

sacct n例如返回所有作业名称被修剪的 QmefdYEri 问如何查看作业的完整名称而不是其精简版本 sacct n 1194 run sh debug root 1 COMPLETED 0 0 1194 batch batch r
Slurm：为什么在 sbatch 中使用 srun？

在 sbatch 脚本中您可以直接启动程序或脚本例如可执行文件myapp 但在许多教程中人们使用srun myapp反而尽管阅读了有关该主题的一些文档我不明白其中的区别以及何时使用这些语法我希望这个问题足够精确 SO的第一个问题
同一脚本但具有不同输入字符串参数的 SLURM sbatch 作业数组并行运行

我的问题与this one https stackoverflow com questions 41900600 slurm sbatch job array for the same script but with different i
如何使用 SLURM 通过 CUDA 在 GPU 网格上运行多个作业

我一直致力于使用 CUDA 加快作业的处理时间通常这会相当简单但是我遇到了一个相当有趣的问题我们使用 slurm 来安排我们的作业通过添加 CUDA 代码并启用它的编译它使单个作业时间减少了一半当查看 GPU 上的负载时就会出现
如何确保 slurm 中的 python 提交脚本位于发出 sbatch 命令的位置？

我有一个运行的 python 提交脚本sbatch using slurm sbatch batch py 当我这样做时事情无法正常工作因为我认为 batch py进程没有继承正确的环境变量因此而不是运行batch py从哪里sba
在 slurm 上使用 python 的多处理

我正在尝试在 slurm 上运行一些并行代码其中不同的进程不需要进行通信我天真地使用了 python 的 slurm 包然而我似乎只在一个节点上使用CPU 例如如果我有 4 个节点每个节点有 5 个 cpu 那么我只会同时运行
如何获取 SLURM 数组作业中失败和已完成作业的计数

我正在使用 slurm 运行多个数组作业对于给定的数组作业 ID 假设为 885881 我想列出失败作业和已完成作业的计数像这样的事情 Input
slurm：如何在另一个用户下提交作业并防止读取其他用户的文件？

基于以下thread https stackoverflow com q 44540590 2402577 我正在尝试向另一个用户发送作业我登录的身份是main user 并且 slurm 作业通过以下方式提交main user那可以做r
--ntasks 或 -ntasks 在 SLURM 中起什么作用？

我正在使用SLURM http slurm schedmd com 使用一些计算集群它有 ntasks or n 我显然已经阅读了它的文档 http slurm schedmd com sbatch html http slurm sch
SLURM 对可执行文件进行多个并行调用

我有一个可执行文件需要多个选项和多个文件输入才能运行可以使用可变数量的核心来调用可执行文件来运行例如可执行文件 a b c file fileA file fileB file fileZ cores X 我正在尝试创建一个 sba
是否可以提交一系列不同的工作来进行 slurm ？

例如我有一个名为myScript那个过程one输入文件我有一个文件名列表也就是说我需要运行 myScript
SLURM：如何在同一计算节点或不同节点上并行运行不同的可执行文件？

Goal 了解如何通过 sbatch 作业提交来运行共同调度或执行可执行文件应用程序使用 srun 或 mpirun 研究代码片段 bin bash SBATCH job name LEBT SBATCH partition ang
SLURM sacct 显示“batch”和“extern”作业名称

我已将作业提交到 SLURM 队列该作业已运行并完成然后我使用以下命令检查已完成的作业sacct命令但是查看 sacct 命令的结果我注意到了我没有预料到的其他结果 JobID JobName State NCPUS Timelim
slurm：如何连接前端和计算节点？

我有一个前端和两个计算节点所有都有相同的 slurm conf 文件其结尾为有关详细信息请参阅 https gist github com avatar lavventura 46b56cd3a29120594773ae1c8bc4
利用 SLURM 上的所有 CPU

我想在集群上运行作业不同节点上有不同数量的 CPU 我不知道哪些节点将分配给我正确的选项是什么以便作业可以在所有节点上创建与 CPU 一样多的任务 bin bash l SBATCH p normal SBATCH N 4 SBATC

随机推荐

Swift：如何向封闭的 CGPath 添加点？

我想让 SKSpriteNodes 沿着字母轮廓移动我有很多封信但这里有一个例子我希望精灵遵循红线我发现这个答案主要涵盖了我的问题获取在 iOS UIFont 中追踪字符的路径答案来自于这个良好且有效的示例代码 let font
为什么我们在 Objective-C 或 C 语言中使用双指针和三指针？

我很困惑何时要采用单指针何时应采用双指针下面的结构中到底做了什么 struct objc class Class isa Class super class const char name long version long info
使用php转换字符串/数组格式

我正在从插件 eventscalendar wordpress 手动读取数据库条目数据库中存储有用户定义的字段自定义字段请原谅我的无知但我在关联数据存储的格式时遇到了麻烦 a 1 s 3 key s 6 extern 所以最后我需要
Jobtracker API 错误 - 调用 localhost/127.0.0.1:50030 因本地异常而失败：java.io.EOFException

我正在尝试使用 Java 连接我的 jobtracker 下面显示的是我试图执行的程序 public static void main String args throws IOException Configuration conf ne
如何使用 Linq (C#) 分隔所有连续对象

我有一个List
实现 TRIE 数据结构

嗨我正在用 C 实现 trie 但是我在 insert trie 函数中遇到错误我无法弄清楚为什么根节点没有得到更新请在这件事上给予我帮助 include
使用智能指针或原始指针

在下面的代码中有一个Grid其中包含points 同样地 Element and Face也有points但我想让他们指出points in Grid 我应该使用智能指针还是原始指针如果我使用智能指针我应该使用std unique pt
unix shell 脚本中的前一天日期

我想声明一个名为 val1 的变量以 yyyymmdd 格式保存前一天的日期任何帮助都会很棒 val1 date Y m d date yesterday 应该可以解决问题
我可以（以及如何）使用 vs 2008 将 .net 4 定位为目标吗？

VS2010 beta 2 在我的机器上速度很慢不过我想开始使用 net 4 我的 vs 2008 解决方案的目标可以是 net 4 beta 2 吗如何不你不能你至少需要 Visual Studio 2010 才能面向 net
iOS模拟器无法运行

我在使用最新的 iOS 模拟器时遇到了严重问题我使用的是 macbook pro Mountain Lion OS 和 xCode 4 4 1 这是最新的操作系统和最新的 xCode 当我运行示例代码来测试 iOS 模拟器时模拟器将打开
非法尝试使用文本/字节主变量 - 插入 TEXT 列

尝试通过 Dapper 插入表文本列并从 Informix 收到错误 Illegal attempt to use Text Byte host variable 我写了一个小程序来模拟这个但仍然遇到问题我们当前无法使用 Infor
如何替换文本文件中每隔两次出现的单词

在一个名为sample txt 我有以下文字从前有一只乌龟和一只兔子兔子跑得快乌龟跑得慢兔子常常嘲笑乌龟有一次兔子和乌龟赛跑乌龟答应了兔子的请求兔子过于自信了兔子想赢得比赛兔子跑得很快然后兔子累了兔子想休息一下于是
获取所有可能答案的 R 频率计数

我已经开始使用 R 并且仍在寻找语法方面的方法我正在寻找具有 0 到 10 和 NA 值的缩放变量的频率 Id lt c 1 2 3 4 5 ClassA lt c 1 NA 3 1 1 ClassB lt c 2 1 1 3 3 R l
为什么我在 python 中得到 httplib.BadStatusLine ？

if theurl startswith http theurl theurl 7 head theurl theurl find tail theurl theurl find response code 0 import httplib
为什么 GCM 不在 Android 设备中提供推送通知？

我是 android 新手正在为 gcm 推送通知做一个演示应用程序我已经开发了所有这些代码并且 GCM 推送通知正在我的环境中的设备上出现但是当我在其他网络设备中测试此代码时会获取注册 ID 但服务器端在向云发送消息时会得到不匹
创建新的 Visual Studio 项目，添加文件并运行它 - 命令行

有没有办法在不使用 IDE 的情况下创建新的 Visual Studio 项目而是使用命令提示符我正在开发一个将生成小型 C 程序的项目因此我想创建一个新项目将该 C 文件添加到该项目中编译并运行它所有这些都仅使用命令提示符批
SwiftUI - 导航视图打开后退按钮和半灰屏/奇怪的行为

I am trying to add navigation view to my app but it is causing issues My main UI is an infinitely swipe able carousel of
CORS 预检选项请求出现 403 错误。怎么修？

我的项目是创建一个输入页面用于在其中输入一些文本并将其发送到 mysql phpmyadmin 我正在使用 spring boot 2 1 4 和 Angular 7 预先感谢您的调查爱我专注于 GraphController jav
从 Typescript 1.6.2 中的内置数组扩展的类在使用 [] 运算符时不会更新长度

正如我所读应该可以在 ts 1 6 中扩展内置类型here TypeScript 1 6 添加了对扩展计算构造函数的任意表达式的类的支持这意味着现在可以在类声明中扩展内置类型一些例子 Extend built in types cla
SLURM 中两个作业数组之间的一对一依赖关系

服务器刚刚从 CONDOR 切换到 SLURM 所以我正在学习并尝试将我的提交脚本翻译为 SLURM 我的问题如下我有两个工作数组第二个依赖于第一个目前我喜欢以下内容 events1 sbatch job name events a

SLURM 中两个作业数组之间的一对一依赖关系

SLURM 中两个作业数组之间的一对一依赖关系 的相关文章

随机推荐

热门标签

SLURM 中两个作业数组之间的一对一依赖关系的相关文章