DeepSpeed的hostfile文件

2023-11-01

一. hostfile文件

DeepSpeed多机多卡训练时,需要配置hostfile文件, hostfile文件是一个主机名(或 SSH 别名)列表,这些机器可以通过无密码 SSH 访问,并且还包括 slot counts,用于指定系统上可用的 GPU 数量。如下所示:

worker-1 slots=8
worker-2 slots=8
hostname1 slots=8
hostname2 slots=8

上述示例指定了**四个别名(别名创建看下面第二节)**为 worker-1 ,worker-2,hostname1,和hostname2 的机器,每台机器都有8个 GPU 用于训练。

可以使用 --hostfile 命令行选项指定 hostfile。如果没有指定 hostfile,则 DeepSpeed 会搜索本机器 /job/hostfile系统配置文件路径 。如果没有指定或找到 hostfile,则 DeepSpeed 查询本地计算机上的 GPU 数量,以发现可用的本地 slot 数量。

二. linux别名创建

通常使用以下任意一种方式通过 SSH 连接到远程系统。

使用 IP 地址:

ssh 192.168.225.22

或使用端口号、用户名和 IP 地址:

ssh -p 22 sk@192.168.225.22

或使用端口号、用户名和主机名:

ssh -p 22 sk@server.example.com
22 是端口号,
sk 是远程系统的用户名,
192.168.225.22 是远程系统的 IP,
server.example.com 是远程系统的主机名。

我相信大多数人都会以这种方式通过 SSH 连接到远程系统。但是,如果你通过 SSH 连接到多个不同的系统,记住所有主机名或 IP 地址,还有用户名是困难的,除非你将它们写在纸上或者将其保存在文本文件中。这时可以通过为 SSH 连接创建别名(或快捷方式)轻松解决。

2.1 使用 SSH 配置文件

创建别名的首选方法。

可以使用 SSH 默认配置文件来创建 SSH 别名。为此,编辑 ~/.ssh/config 文件(如果此文件不存在,只需创建一个):

vi ~/.ssh/config

添加所有远程主机的详细信息,如下所示:

Host worker-0
    HostName 192.168.225.22
    User ostechnix
    User sk

Host worker-1
    HostName server.example.com
    User ostechnix
    User root

Host hostname1
    HostName 192.168.225.25
    User ostechnix
    Port 2233
 
 Host hostname2
    HostName 192.168.225.25
    User ostechnix
    Port 2233

使用 SSH 配置文件在 Linux 中创建 SSH 别名
将 Host、Hostname、User 和 Port 配置的值替换为你自己的值。添加所有远程主机的详细信息后,保存并退出该文件。

现在你可以使用以下命令通过 SSH 进入系统:

ssh worker-0
ssh worker-1
ssh hostname1
ssh hostname2

三. 参考文档

1. 如何在 Linux 中创建 SSH 别名
2.【DeepSpeed 教程翻译】开始,安装细节和CIFAR-10 Tutorial
3. deepspeed多机多卡训练踏过的坑
4. deepspeed多机多卡训练

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

DeepSpeed的hostfile文件 的相关文章

随机推荐

  • java springboot 实现从数据库查询数据下载为md格式文件

    java springboot 实现从数据库查询数据下载为md格式文件 param param response 功能描述 下载文件 标题 byId getTitle 内容 byId getTextContent 格式 response s
  • 增强型PWM(EPWM)如何输出互补功能?

    1 概念 互补 两根线 输出的PWM 只有一端导通 和死区概念类似 死区时间 指在这段时间 上下都没有输出 带死区的PWM波可以防止上下两个器件同时导通 也就是说 当一个器件导通后关闭 再经过一段死区 这时才能让另一个导通 例如 红色线条的
  • nuxt百度收录

    import cheerio from cheerio export default Global page headers https go nuxtjs dev config head mode universal 修改百度收录 hoo
  • 04 ImageView中图片保存到文件

    最近做的一个小App中的一个功能 把ImageView中的图片保存为一个 jpg文件 如果设备上有SDCard 图片会被保存到SD卡上 如果没有则保存在设备的存储空间中 这里主要包含了两个要点 一是 Android文件保存时文件夹的创建 二
  • detectron2概述

    目录 detectron2框架 configs datasets README md prepare for tests sh prepare panoptic fpn py demo demo py predictor py detect
  • 关于Docker如何安装nginx

    目录 1 Nginx 1 2 安装nginx 2 容器之间相互通信 2 1 两个容器在同一网段 2 2 两个容器在不同网段 1 Nginx Nginx也是一款服务器 我们常用它做如 反向代理 负载均衡 动态与静态资源的分离的工作 反向代理
  • C语言-数据结构-栈(静态栈与动态栈)

    一 简介 在哔哩哔哩看视频学的 赫斌老师数据结构入门的内容 b站搜索 av6159200 P33 通过学习 能独立把赫斌老师教的敲出来 由于动态栈 链表阉割版 的功能很少 我并没有增加什么其它功能 但是我自己实现了静态栈 数组阉割版 还有就
  • 卸载联软UniAccess,删除UniAccess Agent记录

    UniAccess 卸载 公司假以安全上网为由 让公司员工安装所谓的 XX上网助手 实则是内嵌了联软的UniAccess监控系统 有关这个软件的用途就不用多介绍了 能找到这里的 我想已经对这个 流氓 软件有了基本的认识 话不多说 赶紧想办法
  • Kafka使用工具封装

    maven依赖
  • c# redis hashid如何设置过期时间_Redis系列(三):Redis持久化机制(RDB & AOF)

    在前两篇关于Redis的文章中 已经详细的介绍了Redis常用的数据结构相关内容 如果还没看的小伙伴可以先过一遍 Redis基本数据类型 Redis跳跃表详解 本篇文章主要介绍 Redis数据持久化机制 RDB AOF 在此之前需要先了解一
  • Spring Security 学习(一)认证与授权源码分析——一次痛苦的爬坑经历

    一点感悟 一个疏忽 花了 5h 解决了 哎 用一首歌来表达一下现在的心情 点击 不过也算摸清了Spring Security 一点基本原理 没有白费的时间 学习新知识的时候 遇到解决不了的问题一定不能心急 越是这个时候越要静下心来一步一步的
  • PLSQL连接Oracle 数据库配置详解

    1 下载instantclient basic win32 11 2 0 1 0 Oracle Instant Client Free tools and libraries for connecting to Oracle Databas
  • Unity中实时获取网格上点的位置,还有对应的面和法线

    在Unity中 可以使用Mesh类来获取一个网格上点的位置以及对应的面和法线 以下是具体步骤 步骤一 获取网格对象 在脚本中 需要先获取要操作的网格对象 可以使用以下代码 Mesh mesh GetComponent
  • java 静态块的作用域_Java语言的作用域及分类

    在java编程中 将变量声明在不同的位置就具有不同的作用域 而作用域的大小则使用 来确定 使用 可以确定定义的变量的可见性及生命周期 目前在java编程中 变量类型主要有三种 分别如下 一 成员变量 类的成员变量的作用范围同类的实例化对象的
  • Jmeter和Postman那个工具更适合做接口测试?

    软件测试行业做功能测试和接口测试的人相对比较多 在测试工作中 有高手 自然也会有小白 但有一点我们无法否认 就是每一个高手都是从小白开始的 所以今天我们就来谈谈一大部分人在做的接口测试 小白变高手也许你只差这一次深入了解 一 接口测试的目的
  • linux中比较大小的符号,linux shell中的比较符号与特殊符号介绍

    shell字符串比较 判断是否为数字 二元比较操作符 比较变量或者比较数字 注意数字与字符串的区别 整数比较 eq 等于 如 if a eq b ne 不等于 如 if a ne b gt 大于 如 if a gt b ge 大于等于 如
  • Cisco交换配置快速生成树

    文章目录 1 拓扑图 2 Sw1配置 3 Sw2配置 1 拓扑图 2 Sw1配置 进入特权模式 Switch gt en 进入全局模式 Switch conf t 修改设备名称 Switch config hostname Sw1 进入接口
  • java线程安全之死锁

    死锁图解 死锁代码演示 package DeadLock 死锁代码要会写 一般面试官要求你会写 只有会写的 才会在以后开发中注意这个事儿 因为死锁很难调试 public class DeadLockDemo public static vo
  • CSS(重点选择器)

    文章目录 CSS入门 CSS的三种导入方式 选择器 重点 基本选择器 层次选择器 结构伪类选择器 属性选择器 美化网页元素 字体样式 文本样式 阴影 超链接伪类 列表 背景 渐变 盒子模型 边框border 内外边距 圆角边框 阴影 浮动
  • DeepSpeed的hostfile文件

    文章目录 一 hostfile文件 二 linux别名创建 2 1 使用 SSH 配置文件 三 参考文档 一 hostfile文件 DeepSpeed多机多卡训练时 需要配置hostfile文件 hostfile文件是一个主机名 或 SSH