MMDetection——GPU训练

2023-11-09

预先知识

${CONFIG_FILE}：config/里面的文件

config/faster_rcnn_r50_fpn_1x_coco.py

${CHECKPOINT_FILE}：模型权重所在位置

checkpoints/faster_rcnn_r50_fpn_1x_coco_20200130-047c8118.pth

[–out ${RESULT_FILE}]：测试生成的文件输出位置

[–eval ${EVAL_METRICS}]：选用的测试方法

${GPU_NUM}：GPU数量

测试数据集

# single-gpu
python tools/test.py ${CONFIG_FILE} ${CHECKPOINT_FILE} [--out ${RESULT_FILE}] [--eval ${EVAL_METRICS}] [--show]

# multi-gpu testing
./tools/dist_test.sh ${CONFIG_FILE} ${CHECKPOINT_FILE} ${GPU_NUM} [--out ${RESULT_FILE}] [--eval ${EVAL_METRICS}]

模型训练

单机单GPU训练

python tools/train.py ${CONFIG_FILE}

举例：

python tools/train.py ./configs/faster_rcnn/faster_rcnn_r50_fpn_1x_coco.py

如需指定工作目录，后接参数：--work_dir${WORK_DIR}

单机多GPU训练

./tools/dist_train.sh ${CONFIG_FILE} ${GPU_NUM} [optional arguments]

举例：

./tools/dist_train.sh ./configs/faster_rcnn/faster_rcnn_r50_fpn_1x_coco.py 4

可选参数：
--validate：训练过程中，每隔k代执行一次评估（默认为1）
--work_dir ${WOR_DIR}：指定工作目录
--resume_from ${CHECKPOINT_FILE}：从先前的检查点文件恢复

多机多GPU训练

使用slurm集群管理：

./tools/slurm_train.sh ${PARTITION} ${JOB_NAME} ${CONFIG_FILE} ${WORK_DIR} [${GPUS}]

举例：16GPU，test分区，训练faster R-CNN

./tools/slurm_train.sh test Faster_r50_1x configs/faster_rcnn/faster_rcnn_r50_fpn_1x_coco.py /home/xxx/faster_rcnn_r50_fpn_1x 16

Reference

MMDetection中文文档——2.入门

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

mmdetection

深度学习

Pytorch

MMDetection——GPU训练的相关文章

我可以使用逻辑索引或索引列表对张量进行切片吗？

我正在尝试使用列上的逻辑索引对 PyTorch 张量进行切片我想要与索引向量中的 1 值相对应的列切片和逻辑索引都是可能的但是它们可以一起吗如果是这样怎么办我的尝试不断抛出无用的错误类型错误使用 ByteTensor 类型的
如何在 google colab 中运行 matlab .m 文件

我目前正在尝试运行这个存储库https github com Fanziapril mvfnet https github com Fanziapril mvfnet这需要一个步骤 Run the Matlab ModelGeneratio
torch.mm、torch.matmul 和 torch.mul 有什么区别？

阅读完 pytorch 文档后我仍然需要帮助来理解之间的区别torch mm torch matmul and torch mul 由于我不完全理解它们所以我无法简明地解释这一点 B torch tensor 1 1207 0 3137
尝试理解 Pytorch 的 LSTM 实现

我有一个包含 1000 个示例的数据集其中每个示例都有5特征 a b c d e 我想喂7LSTM 的示例以便它预测第 8 天的特征 a 阅读 nn LSTM 的 Pytorchs 文档我得出以下结论 input size 5 hid
pytorch 中的 keras.layers.Masking 相当于什么？

我有时间序列序列我需要通过将零填充到矩阵中并在 keras 中使用 keras layers Masking 来将序列的长度固定为一个数字我可以忽略这些填充的零以进行进一步的计算我想知道它怎么可能在 Pytorch 中完成要么我需要
将 Keras (Tensorflow) 卷积神经网络转换为 PyTorch 卷积网络？

Keras 和 PyTorch 使用不同的参数进行填充 Keras 需要输入字符串而 PyTorch 使用数字有什么区别如何将一个转换为另一个哪些代码在任一框架中获得相同的结果 PyTorch 还采用参数 in channels o
如何使用pytorch构建多任务DNN，例如超过100个任务？

下面是使用 pytorch 为两个回归任务构建 DNN 的示例代码这forward函数返回两个输出 x1 x2 用于大量回归分类任务的网络怎么样例如 100 或 1000 个输出对所有输出例如 x1 x2 x100 进行硬编码绝对
Pytorch GPU 使用率低

我正在尝试 pytorch 的例子https pytorch org tutorials beginner blitz cifar10 tutorial html https pytorch org tutorials beginner b
预期设备类型为 cuda 的对象，但在 Pytorch 中获得了设备类型 cpu

我有以下计算损失函数的代码 class MSE loss nn Module metric L1 L2 norms or cosine similarity mode training or evaluation mode def init
在Pytorch中计算欧几里得范数..理解和实现上的麻烦

我见过另一个 StackOverflow 线程讨论计算欧几里德范数的各种实现但我很难理解特定实现的原因如何工作该代码可以在 MMD 指标的实现中找到 https github com josipd torch two sample b
Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

我对 PyTorch 和 Huggingface transformers 比较陌生并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c
ValueError：使用火炬张量时需要解压的值太多

对于神经网络项目我使用 Pytorch 并使用 EMNIST 数据集已经给出的代码加载到数据集中 train dataset dsets MNIST root data train True transform transforms T
PyTorch：如何批量进行推理（并行推理）

如何在PyTorch中批量进行推理如何并行进行推理以加快这部分代码的速度我从进行推理的标准方法开始 with torch no grad for inputs labels in dataloader predict inputs in
Pytorch TypeError：eq() 收到无效的参数组合

num samples 10 def predict x sampled models guide None None for in range num samples yhats model x data for model in sam
Pytorch 中是否有一种方法可以以可反向传播的方式计算唯一值的数量？

给定以下张量这是网络的结果注意 grad fn tensor 121 241 125 1 108 238 125 121 13 117 121 229 161 13 0 202 161 121 121 0 121 121 242 125
如何将 35 类城市景观数据集转换为 19 类？

以下是我的代码的一小段使用它我可以在城市景观数据集上训练名为 lolnet 的模型但数据集包含 35 个类别标签 0 34 imports trainloader torch utils data DataLoader datase
尝试将 cuda 与 pytorch 一起使用时出现运行时错误 999

我为我的 Geforce 2080 ti 安装了 Cuda 10 1 和最新的 Nvidia 驱动程序我尝试运行一个基本脚本来测试 pytorch 是否正常工作但出现以下错误 RuntimeError cuda runtime erro
当前向包含多个自动分级节点时，PyTorch 关于使用非完整后向挂钩的警告

最近升级后当运行 PyTorch 循环时我现在收到警告当前向包含多个自动分级节点时使用非完整后向钩子训练仍在运行并完成但我不确定应该将其放置在哪里register full backward hook功能我尝试将它添加到神经网络
没有名为“torch”或“torch.C”的模块

希望得到像我 5 这样的解释因为我已经检查了所有相关答案但没有一个有帮助我已经安装了Python 我已经安装了Pycharm 我已经安装了Anaconda 我已经安装了 Microsoft Visual Studio 我有not安装了
使用 Huggingface 变压器仅保存最佳权重

目前我正在使用 Huggingface transformers 构建一个新的基于 Transformer 的模型其中注意力层与原始模型不同我用了run glue py检查我的模型在 GLUE 基准测试上的性能但是我发现huggi

随机推荐

【STM32】stm32工程所占内存大小的查看方法

用keil打开一个工程点击工程目录文件如下的Template 拉到文件最后最后的信息即为所占内存大小 Code Data 代码占用的空间大小占用的空间为内部Flash RO Data 只读常量大小 const常量 define宏常量
supervisor系列：1、了解并安装supervisor

supervisor系列 1 了解并安装supervisor 文章目录 supervisor系列 1 了解并安装supervisor 1 前言 2 supervisor概述 3 特点 4 Supervisor组成 5 平台要求 6 安装 6
WIN10安装MYSQL教程

1 下载安装包地址 https www mysql com cn downloads 拉到最下面找到MySQL Community Edition GPL 注 GPL版本为开源非商用 commercial为商用版点击链接进入后会有
eclipse安装lombok插件

1 下载lombok jar lombok jar官方下载地址 https projectlombok org download 如果下载不了的话下面是我个人的百度云资源链接 https pan baidu com s 1Eiwy0Kb
实现今日头条-西瓜视频-抖音视频自动化上传（如希望无人值守长期定时执行的话，需自行优化代码）

业务合作请联系 13958075150 1 首次登录使用selenium登录并将cookies存为文件实现免密登录并便于后期维护cookie 首次使用selenium登录并将cookies存为文件 from selenium impo
力扣 3. 无重复字符的最长子串

一题目二示例三思路与代码 1 思路 1 采用滑动窗口算法 2 滑动窗口收缩的关键当当前移入窗口的字符其计数已经超过1时则进行窗口的收缩 3 无重复子串长度更新的时机当窗口中没有重复字符时更新长度 4 具体见代码解析 2 代
红黑树——RBTree

红黑树的概念红黑树是一种二叉搜索树但是在每个节点上增加一个存储位表示节点的颜色可以是red或者black 通过对任何一条从根到叶子的路径上各个节点着色方式的限制红黑树确保没有一条路径会比其他路径长出两倍因而是接近平衡的红黑树
ngrok实现内网穿透，让家里的笔记本也能做服务器

背景家里淘汰了一台笔记本 windows系统装起来很卡于是装了个linux系统这台笔记本有2G内存奔腾双核处理器配置比我在阿里云上买的ECS高多了于是想着给它利用起来研究了一下发现ngrok内网穿透能实现这个功能刚好我也有
临界区锁 InitializeCriticalSection()

首先文章主体经过以下两篇文章整理而成 http blog csdn net lys07962000 article details 41707213 http blog csdn net bytxl article details 465
char** 和const char** 问题

目录 1 char 和const char 问题 2 NUL和NULL问题 3 sizeof返回值问题 4 malloc下的strlen问题 1 char 和const char 问题今天看书看到一个很有意思的问题不过在看问题之前首先
求最短回文串长度

今天写了一道题是这个题噢让求最短回文串长度我用马拉车写了半天呢写着写着想马拉车求得不是最长回文串的长度吗然后看了一下题解因为这题数据量不大所以这样直接就过了 include
基于c语言实现字符串排序

基于c语言实现字符串排序一简单的字符串排序举例实现题目代码一简单的字符串排序给定有限个字符串将其按照大小顺序排列此时的大小顺序简单来说我们可以先认为是ASCLL码的大小顺序由此我们只需要比较字符串的ASCLL码的大小
统计数据上的因果推断--关于Yule-Simson Paradox

在高维列联表分析中有一个很有名的例子叫做 Yule SimpsonParadox 此悖论表明 X和 Y 边缘上正相关但是给定另外一个变量 Z后在 Z的每一个水平上 X和 Y可能负相关下面表 1 就
ChatGPT常用的指令（prompts）系列十——房地产经纪人、物流人员、牙医、网站设计

系列文章目录内容翻译自 https github com f awesome chatgpt prompts 并加入自己的实践内容 1 ChatGPT常用的提示语 prompts 系列一 2 ChatGPT常用的提示语 prompts 系
rancher 与 kubernetes的关系（1）

rancher 和 kubernetes 有什么区别总体来说 rancher 和 k8s 都是用来作为容器的调度与编排系统但是rancher不仅能够管理应用容器更重的一点是能够管理k8s集群 rancher2 x 底层基于k8s调度引
TCP连接、Http连接与Socket连接的区别

文章目录 HTTP Socket TCP的区别 Socket 套接字 Socket长连接什么时候用长连接短连接 TCP连接和HTTP连接的区别 TCP连接与Socket连接的区别 HTTP连接与Socket连接的区别常见问题什么时候
嵌入式岗位Makefile常见面试题(1)

第一题变量使用解析 Makefile中变量的引用格式就是变量名这是没什么好讲的记住就行在Makefile中有一些特殊的宏定义需要记住表示生成的目标 lt 表示生成依赖的文件是执行上一条指令的返回值可以参考博客 Makefi
IPv6 时代如何防御 DDoS 攻击？

在互联网世界每台联网的设备都被分配了一个用于标识和位置定义的 IP 地址 20 世纪 90 年代以来互联网的快速发展联网设备所需的地址远远多于可用 IPv4 地址的数量导致了 IPv4 地址耗尽因此协议 IPv6 的开发和部署已经
devC++强制关机代码shutdown（DAY 26）

文章目录 1 代码实现 2 运行结果恶搞同学这种方式只用改个头文件再在文章中间加一行输出即可 1 代码实现 2 运行结果恶搞同学增加编程乐趣这种方式只用改个头文件再在文章中间加一行输出即可
MMDetection——GPU训练

预先知识 CONFIG FILE config 里面的文件 config faster rcnn r50 fpn 1x coco py CHECKPOINT FILE 模型权重所在位置 checkpoints faster rcnn r50