ConnectionError: Tried to launch distributed communication on port `xxxxx`, but another process is u

2023-12-05

诸神缄默不语-个人CSDN博文目录

这个bug是在用accelerate跑代码时出现的,完整的报错信息是:

ConnectionError: Tried to launch distributed communication on port `xxxxx`, but another process is utilizing it. Please specify a different port (such as using the `----main_process_port` flag or specifying a different `main_process_port` in your config file) and rerun your script. To automatically use the next open port (on a single node), you can set this to `0`.

事实上改成0没用,我试后有用的解决方案是改成port这个数字+1

默认config文件的路径是 .cache/huggingface/accelerate/default_config.yaml ,可以直接改这个,如果担心改这个会影响别的代码,可以新建一个config文件,在最后添加这行: main_process_port: 12023 (port号)
然后把命令行添上: accelerate launch --config_file {path/to/config/my_config_file.yaml} {script_name.py} {--arg1} {--arg2} ...

参考资料: Launching your ???? Accelerate scripts

这种问题问ChatGPT果然没用啊,还得我自己去搜文档,ChatGPT不行啊。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

ConnectionError: Tried to launch distributed communication on port `xxxxx`, but another process is u 的相关文章

  • 初识BoTNet:视觉识别的Bottleneck Transformers

    初识BoTNet xff1a 视觉识别的Bottleneck Transformers 杂谈 最近 xff0c 我的思想有点消极 xff0c 对自己的未来很迷茫 xff0c 不知道要从事什么 xff0c 又在担心行业的内卷严重 xff0c
  • 如何监控windows进程的句柄、内存和cpu(二)

    接下来 我们看如何获取进程的CPU使用率 CPU使用率 指进程在一段时间内消耗的CPU时间与该时间段长度的比值 windows本身并没有提供直接获取进程CPU使用率的函数 但我们可以根据进程的计时信息来间接计算出进程的瞬时CPU占用 1 记
  • 汇通达港交所上市:市值超240亿港元 阿里与顺为是股东

    雷递网 雷建平 2月18日报道 汇通达网络股份有限公司 简称 汇通达 股票代码为 09878 今日在港交所上市 汇通达此次引入6家基石投资者 包括创维 商汤 景林 金螳螂建筑 Windfall 海澜集团 设有6个月禁售期 上述基石投资者一共
  • Java中Juc并发编程基础

    1 什么是JUC 就是java util concurrent并发包下面使用的工具包 1 1 线程和进程 进程 是一个程序 QQ exe 网易云音乐 大数据领域的NameNode其实就是程序的集合 一个进程往往可以包含多个线程 至少包含一个
  • 多线程详解(一)——创建多线程

    一 进程与线程 1 进程 进程是资源 CPU 内存等 分配的基本单位 它是程序执行时的一个实例 程序运行时系统就会创建一个进程 并为它分配资源 然后把该进程放入进程就绪队列 进程调度器选中它的时候就会为它分配CPU时间 程序开始真正运行 2
  • python 多线程,多进程问题

    近期在做一个计算很费时的项目 就想着通过多线程的方式进行加速 发现python的多线程无法实现加速 python中的多进程VS多线程 首先需要明白多线程和多进程的差异 简单来说一个进程下可以启多个线程 那么在python中 Python代码
  • huggingface transformers包 文档学习笔记(持续更新ing...)

    诸神缄默不语 个人CSDN博文目录 本文系huggingface Hugging Face The AI community building the future 旗下Python包transformers 文档 Transformers
  • Qt中多进程写法

    进程 运行中的程序 比如下面这些 没运行的就不算 线程 简单记为程序中的函数 qt中多进程写法 这个比较简单 就没有什么文字说明了 1 widget h ifndef WIDGET H define WIDGET H include
  • Transformers学习笔记5

    hugface hub上不仅有预训练模型还有数据集 下载数据集 from datasets import load dataset raw datasets load dataset glue mrpc raw datasets Datas
  • 操作系统对CPU的虚拟化——进程的抽象、进程相关API以及进程的受限执行

    因为我们计算机的cpu处理器数量是有限的 但是操作系统理论上可以同时并发的运行无数个进程 那么cpu内部是如何实现的呢 操作系统是通过对CPU进行虚拟化来实现的 本篇博客主要讲述操作系统对CPU的虚拟化中的进程相关的知识 包括进程的抽象 进
  • Pytorch多进程Queue通信产生Segmentation fault (core dumped)——解决方案及代码规范

    最近在做一个强化学习的项目 运用多进程分布训练时遇到了段错误的问题 这里记录下解决的过程思路和方案 由于智能体与环境交互的过程涉及到了第三方的程序以及大量的文件读写操作 使得整个实验过程非常慢 为了解决交互部分的速度瓶颈 采用Ape X D
  • 创建进程函数fork的使用(Linux系统编程)

    使用fork函数创建一个进程 pid t fork void fork函数调用成功 返回两次 返回值为0 代表当前进程是子进程 返回值为非负数 代表当前进程为父进程 如果调用失败则返回 1 代码 include
  • 一文读懂BERT(原理篇)

    一文读懂BERT 原理篇 2018年的10月11日 Google发布的论文 Pre training of Deep Bidirectional Transformers for Language Understanding 成功在 11
  • 详解Hugging Face Transformers的TrainingArguments

    前言 TrainingArguments是Hugging Face Transformers库中用于训练模型时需要用到的一组参数 用于控制训练的流程和效果 使用示例 from transformers import Trainer Trai
  • 面试官:说说CountDownLatch,CyclicBarrier,Semaphore的原理?

    CountDownLatch CountDownLatch适用于在多线程的场景需要等待所有子线程全部执行完毕之后再做操作的场景 举个例子 早上部门开会 有人在上厕所 这时候需要等待所有人从厕所回来之后才能开始会议 public class
  • Hugging Face开源库accelerate详解

    官网 https huggingface co docs accelerate package reference accelerator Accelerate使用步骤 初始化accelerate对象accelerator Accelera
  • LegalAI领域大规模预训练语言模型的整理、总结及介绍(持续更新ing…)

    诸神缄默不语 个人CSDN博文目录 文章目录 1 通用大规模预训练语言模型 2 对话模型 3 分句 4 文本分类 5 信息抽取 6 案例检索 7 文本摘要 1 通用大规模预训练语言模型 英语 LegalBERT 原始论文 2020 EMNL
  • python 多进程进行文件处理(一)

    在文件处理的时候 经常会遇见大文件数据 单进程处理速度太慢 可以通过多进程来提升效率 应用场景一 同时并行处理多个小文件 处理完成后 写回多个文件 def read wiki data infile outfile param1 单个文件的
  • Splunk 优化之加速报表 Accelerate reports

    1 背景 有些客户的数据比较大 这个时候就会用到 报表的加速功能 Accelerate reports If your report has a large number of events and is slow to complete
  • ConnectionError: Tried to launch distributed communication on port `xxxxx`, but another process is u

    诸神缄默不语 个人CSDN博文目录 这个bug是在用accelerate跑代码时出现的 完整的报错信息是 ConnectionError Tried to launch distributed communication on port x

随机推荐