多分区作业的批处理脚本？

2023-12-10

我正在开发一个项目，该项目在大型计算集群的两个不同分区上运行程序。我想使用批处理脚本来运行它，但搜索后，仍然不清楚是否/如何从单个批处理脚本中在两个不同的分区上分配和运行程序。这就是我想做的事情

#!/bin/bash
#SBATCH --partition=<WHAT GOES HERE? I want to perform 100 processes on partition "batch" and 1 process on partition "gpu". I will alternate between the 2 during my jobs execution>
#SBATCH --ntasks=<100 on batch, 1 on gpu>
#SBATCH --mem-per-cpu=2G
#SBATCH --time=4-00:00:00
#SBATCH --exclude=nodeynode[003,016,019,020-023,026-030,004-015,017-018,020,024,031]
#SBATCH --job-name="lorem_ipsum"

filenames=("name1" "name2" "name3")

srun -p gpu python gpu_init.py
wait

for i in {0..100}
do
    for name in "${filenames[@]}"
    do
    srun -p batch pythonexecutable &
    done
srun -p gpu python gpu_iter.py
wait
done

对 bash 错误表示歉意，我通常用 python 编写脚本，但我不能在这里，因为我在 bash 脚本（未显示）中切换 python 模块（不同版本）。我看到您实际上可以将分区列表放入批处理脚本的标头中，但从我读到的内容来看，实际上只是告诉调度程序从列表中分配任何可用分区，而不是多个分区。

Thanks!

Slurm 作业仅限于一个分区，因此对于您的情况，有多种操作方案：

提交两个作业数组--array=1..100并将您的提交脚本分成一个部分batch分区和另一部分gpu分区并将两个数组链接起来--depedendcy=aftercorr:<job_id of the 'batch' job array>
use salloc创建分配gpu分区，然后显式使用 SSH 到该节点来运行python gpu_iter.py在提交脚本中（如果集群配置允许）
修改gpu_iter.py这样它就可以收到信号（使用 UNIX 信号）它必须运行，然后休眠直到下一个信号，并使用scancel发出信号gpu工作从内部batch每次迭代的工作。

Update：根据这张票，现在可以通过以下方式完成异构工作.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

slurm

多分区作业的批处理脚本？的相关文章

error while loading shared libraries: libhwloc.so.5: cannot open shared object file: No such file or

部署Slurm的过程中计算节点执行 slurmd C 命令后报错 root node2 slurmd C slurmd error while loading shared libraries libhwloc so 5 cannot
如何获取分配给多 GPU 节点上的 SLURM 作业的 GPU ID？

当我使用选项 gres gpu 1 向具有两个 GPU 的节点提交 SLURM 作业时如何获取为该作业分配的 GPU ID 是否有用于此目的的环境变量我使用的 GPU 都是 nvidia GPU 谢谢您可以通过环境变量获取GPU id
当集群（slurm）取消作业时 Snakemake 挂起

也许答案对很多人来说都是显而易见的但我很惊讶我找不到关于这个主题的问题这对我来说是一个主要问题我将不胜感激的提示当在 slurm 管理的集群上提交作业时如果队列管理器取消该作业例如由于资源或时间不足 snakemake 似乎不
运行多个工作守护进程 SLURM

我想在一台机器上运行多个工作守护进程按照达米安弗朗索瓦的回答关于slurm 集群的最少计算机数量是多少可以办到问题是目前我只能在一台机器上执行 1 个工作守护进程例如当我跑步时 sudo slurmd N linux1 cDvv s
slurm 集群的最少计算机数量是多少

我想设置一个SLURM集群我至少需要多少台机器我可以从两台机器开始一台仅是客户端一台既是客户端又是服务器吗正如 Carles 所写如果您愿意您可以只使用一台计算机同时运行控制器 slurmctld 和工人 slurmd 守
多分区作业的批处理脚本？

我正在开发一个项目该项目在大型计算集群的两个不同分区上运行程序我想使用批处理脚本来运行它但搜索后仍然不清楚是否如何从单个批处理脚本中在两个不同的分区上分配和运行程序这就是我想做的事情 bin bash SBATCH partit
SLURM：如何查看已完成的作业全名？

sacct n例如返回所有作业名称被修剪的 QmefdYEri 问如何查看作业的完整名称而不是其精简版本 sacct n 1194 run sh debug root 1 COMPLETED 0 0 1194 batch batch r
使用多个节点运行 slurm 脚本，使用 1 个任务启动作业步骤

我正在尝试使用批处理脚本启动大量作业步骤不同的步骤可以是完全不同的程序并且每个步骤都需要一个 CPU 首先我尝试使用 multi prog论证srun 不幸的是当以这种方式使用分配给我的工作的所有 CPU 时性能会大幅下降运行时间
R 并行作业挂起

我正在运行网站上写的 Snow test R 脚本 https hpcf umbc edu other packages how to run r programs on maya https hpcf umbc edu other pac
如何在 slurm 作业期间监控资源？

我正在我们的大学集群普通用户无管理员权限上运行作业该集群使用 SLURM 调度系统我有兴趣绘制随时间推移即作业运行时的 CPU 和内存使用情况我知道关于sacct and sstat我正在考虑将这些命令包含在我的提交脚本中
同一脚本但具有不同输入字符串参数的 SLURM sbatch 作业数组并行运行

我的问题与this one https stackoverflow com questions 41900600 slurm sbatch job array for the same script but with different i
SLURM 集群中出现错误 - 检测到 1 个 oom-kill 事件：如何改进正在运行的作业

我在 SLURM 集群中工作同时运行多个进程在多个输入文件上并使用相同的 bash 脚本在作业结束时进程被终止这是我得到的错误 slurmstepd error Detected 1 oom kill event s in st
如何使用 SLURM 通过 CUDA 在 GPU 网格上运行多个作业

我一直致力于使用 CUDA 加快作业的处理时间通常这会相当简单但是我遇到了一个相当有趣的问题我们使用 slurm 来安排我们的作业通过添加 CUDA 代码并启用它的编译它使单个作业时间减少了一半当查看 GPU 上的负载时就会出现
如何确保 slurm 中的 python 提交脚本位于发出 sbatch 命令的位置？

我有一个运行的 python 提交脚本sbatch using slurm sbatch batch py 当我这样做时事情无法正常工作因为我认为 batch py进程没有继承正确的环境变量因此而不是运行batch py从哪里sba
Slurm 多处理 Python 作业

我有一个 4 节点 Slurm 集群每个节点有 6 个核心我想提交一个利用多重处理的测试 Python 脚本它会生成打印正在运行的节点的主机名的进程如下所示 def print something print gethostname
SLURM 对可执行文件进行多个并行调用

我有一个可执行文件需要多个选项和多个文件输入才能运行可以使用可变数量的核心来调用可执行文件来运行例如可执行文件 a b c file fileA file fileB file fileZ cores X 我正在尝试创建一个 sba
SLURM：如何在同一计算节点或不同节点上并行运行不同的可执行文件？

Goal 了解如何通过 sbatch 作业提交来运行共同调度或执行可执行文件应用程序使用 srun 或 mpirun 研究代码片段 bin bash SBATCH job name LEBT SBATCH partition ang
awk 在循环中使用时不打印任何内容[重复]

这个问题在这里已经有答案了我有一堆使用 file 1 a 1 txt 格式的文件如下所示 A 1 B 2 C 3 D 4 并使用以下命令添加包含每个文件名称的新列 awk print FILENAME NF t 0 file 1 a 1
如何修复 slurm 中的“slurmd.service：无法打开 PID 文件”错误

尽管 SLURM 在作业提交运行和排队方面工作得很好但我遇到了下面的一个小错误 sudo systemctl status slurmd Jun 12 10 20 40 noki System Product Name systemd
如何使用Slurm访问集群中不同节点上的GPU？

我可以访问由 Slurm 运行的集群其中每个节点都有 4 个 GPU 我有一个需要 8 个 GPU 的代码那么问题是如何在每个节点只有 4 个 GPU 的集群上请求 8 个 GPU 这就是我尝试通过以下方式提交的工作sbatch bi

随机推荐

启动超时并被终止

我使用 Tesla 2075 cc 2 0 和 CUDA 4 2 我正在非显示器上运行我的程序GPU 特斯拉我收到错误 the launch timed out and was terminated 非显示 GPU 上是否会出现此错误而
如何在 Vue.js 应用程序中使用 vuex 存储从子组件（设置页面）设置值？

我正在尝试创建一个设置组件它将选定的值保存到存储中以便所有其他组件都可以使用这些值来更改其外观设置视图 vue 其中一项设置你也可以看到在代码笔上 p themeColor p
Azure Data Lake Analytics：使用 U-SQL 合并重叠的持续时间

我想使用 U SQL 从放置在 Azure Data Lake Store 中的 CSV 数据中删除重叠的持续时间并合并这些行数据集包含每个记录的开始时间和结束时间以及几个其他属性这是一个例子 Start Time End Time
AdMob 插页式广告与 Viewpager - 关闭后的问题

当 viewpager 片段被滑动更改时我已经实现了 AdMob 插页式广告根据几个条件主要是时间驱动通过在 viewpager 侦听器中的 onPageSelected 中调用以下代码在滑动期间加载请求的插页式广告 Share
根据用户选择“是”或“否”更改内的 URL

我有一份简短的调查问卷我想将 18 岁及以上的人发送到 1 个链接将 18 岁以下的人发送到另一个链接第一个问题唯一被过滤的问题是您年龄超过 18 岁吗根据用户是否单击是或否我希望更改其中的 URLhref 这是我到目
尾部斜杠导致 404，我可以使用 htaccess 修复吗？

违规网址是不起作用 http alltheragefaces com face surprise wut Works http alltheragefaces com face surprise wut 我对这些类型的 URL 的 hta
如何在 GTK 中的其他小部件上渲染具有透明背景的文本？

我希望在其他 gtk 小部件如 GtkImage 或 GtkButton 等上渲染具有透明半透明背景或无背景的文本主要目标是在后台的 Gtk Widget 尤其是 GtkImage 上显示文本我可以使用 pangocairo
UITableView 行分隔符对于 iOS 9 中的替代单元格可见

I am facing issue for UITableView line separator Line is visible for alternative rows 将高度为 1 的 UIView 添加到单元格将给出解决方案但这不是
（可选）启动活动并使用来自 Android 服务的通知。仅在某个应用程序存在时启动或通知

我在自己的应用程序中重用了一项服务它既是绑定又是启动服务因为它进行了很多我感兴趣的有用数据采集一切正常但我注意到一个问题这段代码抛出异常 Intent dialogIntent new Intent dialogInten
Opencover 可以与 TypeMock 隔离器一起使用吗？

我正在寻找一个 NET 覆盖工具并且一直在尝试 PartCover 但取得了不同程度的成功我看到开盖旨在取代 PartCover 但到目前为止我无法将其与 TypeMock Isolator 链接因此我的模拟测试在收集覆盖信息时通过
如何着手创建一款赛道游戏？ [关闭]

Closed 这个问题需要多问focused 目前不接受答案我计划在 Android 中制作赛车游戏我已经使用不同的移动技术创建了许多应用程序但我对游戏应用来说几乎是初学者所以我的问题是如何在 android 中制作赛道我应该如何
Android 中的 SQL 查询 - 搜索整个或部分字符串

我对 SQL 查询没有太多经验所以在找到问题的解决方案时遇到了一些麻烦我有一个书签列表例如 Facebook 开发者控制台 Stack Overflow 我还有他们的 URL 列表 http m facebook com https
如何通过javascript获取值translateX

使用 JavaScript 初始化内容元素 content children 0 style transform translateX 200 px scaleX 1 6 scaleY 1 2 如何获取该元素的translateX 值您可
Python 中的 NZEC 错误

这是一段简单的代码假设读取 n 个数字并打印这 n 个数字中有多少个数字可以被 k 整除 n int raw input k int raw input ans 0 while n gt 0 t int raw input if t k
Codeigniter连接查询多个条件不起作用

我想使用连接查询从数据库表中选择数据但它不起作用我的查询 this gt db gt select this gt db gt from we this gt db gt join schedule schedule itemid we
如何在Python中从一组线性方程中绘制平面？

我有一个包含三个方程的线性系统 x1 2x2 x3 0 2x2 8x3 8 4x1 5x2 9x3 9 解集是 29 16 3 它是这些平面相交处的点希望有人可以使用 Matplotlib 在 3D 空间中绘制这些平面以便清楚地可视化问
屏蔽文本框验证文本错误

我在处理从 WinForms 应用程序上的屏蔽文本框提取的日期变量时遇到一些问题尝试读取用户输入日期的代码如下 DateTime datExpDate new DateTime datExpDate DateTime txtExpDate
System.IO.DirectoryInfo.Exists 有其他选择吗

The System IO DirectoryInfo Exists如果我给出这样的 UNC 总是返回 false 192 168 0 33 Others F 仅当我从已安装的应用程序运行时才会发生这种情况否则如果路径为真它将返回 tr
应用程序文档目录的物理路径

应用程序文档目录的物理路径是什么在 Mac OS X Lion 上我知道该文件夹中的每个应用程序都有 UUID 但直到现在才在我的系统上找到它 Open 用户用户名库应用程序支持 iPhone 模拟器 4 3 2 应用程序假设使
多分区作业的批处理脚本？

我正在开发一个项目该项目在大型计算集群的两个不同分区上运行程序我想使用批处理脚本来运行它但搜索后仍然不清楚是否如何从单个批处理脚本中在两个不同的分区上分配和运行程序这就是我想做的事情 bin bash SBATCH partit

多分区作业的批处理脚本？

多分区作业的批处理脚本？ 的相关文章

随机推荐

热门标签

多分区作业的批处理脚本？的相关文章