NCCL error in: , unhandled system error

2023-10-29

今天pytorch分布式跑代码的时候出现

RuntimeError: NCCL error in: /opt/conda/conda-bld/pytorch_1614378083779/work/torch/lib/c10d/ProcessGroupNCCL.cpp:825, unhandled system error, NCCL version 2.7.8 ncclSystemError: System call (socket, malloc, munmap, etc) failed.)

 NCCL error in: /opt/conda/conda-bld/pytorch_1614378083779/work/torch/lib/c10d/ProcessGroupNCCL.cpp:825, unhandled system error, NCCL version 2.7.8
ncclSystemError: System call (socket, malloc, munmap, etc) failed.
Killing subprocess 200204
 

解决方法就是在跑代码的目录加一句

export NCCL_IB_DISABLE=1

为啥我也不懂

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

NCCL error in: , unhandled system error 的相关文章

随机推荐

  • 随机密码生成(Python编程)

    一 问题描述 编写程序 在26个字母大小写和9个数字组成的列表中随机生成10个8位密码 二 问题分析 因为要在列表中随机生成密码 故需要将26个大 小写字母和9个数字存放在同一个列表中 首先使用string模块中的ascii letters
  • win10+rtx2070+tensorflow-gpu-1.9.0环境搭建

    最近实验室新到一台工作站 配备了两块rtx2070 但为方便使用其他科研软件 只能使用win10 为学习深度有趣 人工智能实战项目合集 需安装TensorFlow 1 9 0环境 win10下搭建深度学习环境首推基于Anaconda的办法
  • Doxygen安装和使用

    1 简介 Doxygen是一个文本生成工具 用于为源码生成说明文档 我们可以在代码中按照 Doxygen 要求的语法编写代码注释 然后使用 Doxygen 将程序中的注释提取出来生成一个文档 我们一般都把注释写在代码中 所以使用 Doxyg
  • 华为手机怎样才算激活了_华为手机还是“副业”?占总营收近半,手机销售才是主力军...

    只要提起华为 很多人的第一想法绝对是手机 不可否认近年来华为在手机业务上取得的成绩 从过去的籍籍无名到如今无论是国内还是国外 都已经声名远扬 华为手机业务的发展可谓是非常的迅速 值得一提的是 2019年华为手机的市场份额已经跃居成为了全球第
  • 无线数据采集器

    背景介绍 近年来 软硬件技术的革新带动了物联网行业的发展 趋使其应用场景不断深化 从工业设备故障诊断到共享经济 再到新能源汽车 调研发现 物联网的核心框架为 通过传感器感知物理世界的状态 后续利用数据采集装置对信息进行量化并上传到云平台 最
  • ld.so分析5 _dl_start

    ld so分析5 dl start 2010 05 06 08 53 24 分类 LINUX ld so分析5 dl start 对于不关心的地方 我们都 或 注释掉 1 dl start中的变量声明 static Elf32 Addr 我
  • SpringBoot中如何整合Swagger2呢?

    转自 SpringBoot中如何整合Swagger2呢 下文笔者讲述SpringBoot中整合Swagger2的方法分享 如下所示 Swagger简介 Swagger用于自动生成Restful接口说明文档工具 在前后端分离时 后端可直接使用
  • Java字符串的字符进行排序

    要求 对 abc fcc egfd asd rtgh deghk fcc 字段进行排序 要求满足其为升序排列同时每个字符串里也是升序排列 思路 方法1 冒泡排序 思路 先获取字符串数组里的每个字符串 然后使用toCharArray 方法得到
  • 详解停车位检测论文:Attentional Graph Neural Network for Parking-slot Detection

    本文介绍一篇注意力图神经网络用于停车位检测论文 论文已收录于 RA L2021 在之前的基于卷积神经网络的停车位检测方法中 很少考虑停车位标记点之间的关联信息 从而导致需要复杂的后处理 在本文中 作者将环视图中的标记点看作图结构数据 使用图
  • Pyspark案例综合(数据计算)

    数据计算 map方法 map算子 map算子 成员方法 接受一个处理函数 可用lambda快速编写 对RDD内的元素一一处理 返回RDD对象 链式调用 对于返回值是新的RDD的算子 可以通过链式调用的方式多次调用算子 演示RDD的map成员
  • IE命令行参数

    Windows Internet Explorer includes several command line options that enable you to troubleshoot and configure the browse
  • Chrome开发者工具详解(一)

    Chrome开发者工具详解 一 前言 一 打开开发者工具方法 二 面板常用方法 1 Elements面板 2 Network 面板 总结 前言 Chrome浏览器中内置了一套强大的开发者工具 学会使用Chrome开发者工具对web网站进行静
  • window10下conda使用报错:An unexpected error has occurred. Conda has prepared the above report.

    在我使用anaconda3创建环境 跑实验时 把镜像三搞两搞 搞出了问题 卡死了 An unexpected error has occurred Conda has prepared the above report 网上找了好多方法都没
  • 百度2015年系统工程师笔试题:设计一个小程序来判断当前机器的字节序怕【详解】

    目录 设计思路 代码实现 设计思路 首先 我们要了解需要判断的东西是什么 这就需要我们了解大小端的概念 大端 存储 模式 是指数据的低位保存在内存的高地址中 而数据的高位 保存在内存的低地址 中 小端 存储 模式 是指数据的低位保存在内存的
  • linux globbing文件通配符

    在linux中使用ls cp mv rm等命令时可以使用文件通配符匹配操作多个文件 匹配模式 匹配任意长度的任意字符 匹配任意单个字符 匹配指定范围内的任意单个字符 文件通配不区分字母的大小写 匹配非制定范围内的任意单个字符 特殊格式 up
  • 使用jsoup爬取小说

    1 开局扯犊子 最近正在学习Java爬虫技术 于是乎接触到了jsoup这个东西 继爬取美女图片后的第二个小项目 爬取笔趣阁小说 2 页面分析 首先我们进入笔趣阁选择一本喜欢的小说 f12后拿到他的title与每一章的地址 然后我们继续分析进
  • 【Hive】Hive元数据库介绍及信息查看

    转载 dabokele 在安装Hive时 需要在hive site xml文件中配置元数据相关信息 与传统关系型数据库不同的是 hive表中的数据都是保存的HDFS上 也就是说hive中的数据库 表 分区等都可以在HDFS找到对应的文件 这
  • 冒泡排序 例题:给出一组数将这组数按从小到大的顺序输出出来

    冒泡排序 例题 给出一组数将这组数按从小到大的顺序输出出来 学习笔记 方便自己日后复习 也可供大家参考学习 冒泡排序百度上是这样定义的 冒泡排序 它重复的走访过要排序的元素列 依次比较两个相邻元素 如果他们的顺序 如从大到小 首字母从A到Z
  • 进程和线程的区别和联系

    一 简介 进程 进程是操作系统资源分配的基本单位 进程是指正在运行的程序实例 每个进程都有自己的内存空间 代码 数据和资源 操作系统通过管理进程来控制计算机的资源分配 每个进程都有一个唯一的标识符 称为进程 ID 以便操作系统可以识别和管理
  • NCCL error in: , unhandled system error

    今天pytorch分布式跑代码的时候出现 RuntimeError NCCL error in opt conda conda bld pytorch 1614378083779 work torch lib c10d ProcessGro