OpenMMLab开源库总结——笔记1

2023-10-28

摘要

很高兴能加入OpenMMLab AI实战营，成为第二期4班的一名学员。OpenMMLab经过几年的发展和沉淀，其开源项目已经覆盖到计算机视觉的各个领域。OpenMMLab 为香港中文大学-商汤科技联合实验室 MMLab 开源的算法平台，不到两年时间，已经包含众多 SOTA 计算机视觉算法。
在这里插入图片描述
OpenMMLab 为香港中文大学-商汤科技联合实验室 MMLab 开源的算法平台，到目前为止，已经包含众多 SOTA 计算机视觉算法。

今年，很多的新算法也是在OpenMMLab的算法库上实现的，比如SeaFormer。在巨人的肩膀上，我们可以很方便的实现自己的算法，也可以将主干网络迁移到下游任务。

OpenMMLab的部署框架包括：MMDeploy。
OpenMMLab的算法框架包括：MMPretrain,MMDetection,MMDetection3D,MMRotate,MMsegmentation,MMPose,MMAction2,MMOCR,MMagic,MMYolo,MMFlow,MMTracking,MMHuman3D,MMFewshot等等，共有30多种的算法库。
视觉基础库：MMCV，MMEngine。
接下来，我们一起去了解OpenMMLab的各个算法库吧！
在这里插入图片描述

MMDetection：目标检测工具箱

在这里插入图片描述
MMDetection 是一个基于 PyTorch 的目标检测开源工具箱。它是 OpenMMLab 项目的一部分。是目前应用最广的算法库

主分支代码目前支持 PyTorch 1.6 以上的版本。代码链接：https://gitee.com/open-mmlab/mmdetection。

主要特性

模块化设计。MMDetection 将检测框架解耦成不同的模块组件，通过组合不同的模块组件，用户可以便捷地构建自定义的检测模型
支持多种检测任务。MMDetection 支持了各种不同的检测任务，包括目标检测，实例分割，全景分割，以及半监督目标检测。
速度快。基本的框和 mask 操作都实现了 GPU 版本，训练速度比其他代码库更快或者相当，包括 Detectron2, maskrcnn-benchmark 和 SimpleDet。
性能高。MMDetection 这个算法库源自于 COCO 2018 目标检测竞赛的冠军团队 MMDet 团队开发的代码，我们在之后持续进行了改进和提升。新发布的 RTMDet 还在实时实例分割和旋转目标检测任务中取得了最先进的成果，同时也在目标检测模型中取得了最佳的的参数量和精度平衡。

除了 MMDetection 之外，我们还开源了深度学习训练库 MMEngine 和计算机视觉基础库 MMCV，它们是 MMDetection 的主要依赖。

下面的链接是我使用MMDetection实现的算法以及效果。
https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/124647370

MMOCR：全流程文字检测识别理解工具包

在这里插入图片描述
MMOCR 是基于 PyTorch 和 mmdetection 的开源工具箱，专注于文本检测，文本识别以及相应的下游任务，如关键信息提取。它是 OpenMMLab 项目的一部分。

主分支目前支持 PyTorch 1.6 以上的版本。

代码链接：https://github.com/open-mmlab/mmocr
在这里插入图片描述

主要特性

全流程。该工具箱不仅支持文本检测和文本识别，还支持其下游任务，例如关键信息提取。
多种模型。该工具箱支持用于文本检测，文本识别和关键信息提取的各种最新模型。
模块化设计。MMOCR 的模块化设计使用户可以定义自己的优化器，数据预处理器，模型组件如主干模块，颈部模块和头部模块，以及损失函数。有关如何构建自定义模型的信息，请参考概览。
众多实用工具。该工具箱提供了一套全面的实用程序，可以帮助用户评估模型的性能。它包括可对图像，标注的真值以及预测结果进行可视化的可视化工具，以及用于在训练过程中评估模型的验证工具。它还包括数据转换器，演示了如何将用户自建的标注数据转换为 MMOCR 支持的标注文件。

MMDetection3D: 新一代通用 3D 目标检测平台

-MMDetection3D 是一个基于 PyTorch 的目标检测开源工具箱, 下一代面向3D检测的平台. 它是 OpenMMlab 项目的一部分，这个项目由香港中文大学多媒体实验室和商汤科技联合发起.
在这里插入图片描述

代码链接：https://gitee.com/open-mmlab/mmdetection3d

主要特性

支持多模态/单模态的检测器。支持多模态/单模态检测器，包括 MVXNet，VoteNet，PointPillars 等。
支持户内/户外的数据集。支持室内/室外的3D检测数据集，包括 ScanNet, SUNRGB-D, Waymo, nuScenes, Lyft, KITTI。对于 nuScenes 数据集, 我们也支持 nuImages 数据集。
与 2D 检测器的自然整合。MMDetection 支持的300+个模型 , 40+的论文算法, 和相关模块都可以在此代码库中训练或使用。
性能高。训练速度比其他代码库更快。

在这里插入图片描述

MMRotate: 旋转框检测工具箱

在这里插入图片描述
MMRotate 是一款基于 PyTorch 的旋转框检测的开源工具箱，是 OpenMMLab 项目的成员之一。

主分支代码目前支持 PyTorch 1.6 以上的版本。
代码链接：https://gitee.com/open-mmlab/mmrotate

主要特性

支持多种角度表示法。MMRotate 提供了三种主流的角度表示法以满足不同论文的配置。
模块化设计。MMRotate 将旋转框检测任务解耦成不同的模块组件，通过组合不同的模块组件，用户可以便捷地构建自定义的旋转框检测算法模型。
强大的基准模型与SOTA。MMRotate 提供了旋转框检测任务中最先进的算法和强大的基准模型.

在这里插入图片描述

MMSegmentation: 语义分割工具箱

在这里插入图片描述
MMSegmentation 是一个基于 PyTorch 的语义分割开源工具箱。它是 OpenMMLab 项目的一部分。

main 分支代码目前支持 PyTorch 1.6 以上的版本。
代码链接：https://gitee.com/open-mmlab/mmsegmentation

在这里插入图片描述

主要特性

统一的基准平台。我们将各种各样的语义分割算法集成到了一个统一的工具箱，进行基准测试。
模块化设计。MMSegmentation 将分割框架解耦成不同的模块组件，通过组合不同的模块组件，用户可以便捷地构建自定义的分割模型。
丰富的即插即用的算法和模型。MMSegmentation 支持了众多主流的和最新的检测算法，例如 PSPNet，DeepLabV3，PSANet，DeepLabV3+ 等.
速度快。训练速度比其他语义分割代码库更快或者相当。

MMPretrain：预训练开源算法框架

MMPretrain 是一个全新升级的预训练开源算法框架，旨在提供各种强大的预训练主干网络，并支持了不同的预训练策略。MMPretrain 源自著名的开源项目 MMClassification 和 MMSelfSup，并开发了许多令人兴奋的新功能。目前，预训练阶段对于视觉识别至关重要，凭借丰富而强大的预训练模型，我们能够改进各种下游视觉任务。
代码链接：https://github.com/open-mmlab/mmpretrain/blob/main/README_zh-CN.md
在这里插入图片描述

在这里插入图片描述

主要特性

支持多样的主干网络与预训练模型
支持多种训练策略（有监督学习，无监督学习，多模态学习等）
提供多种训练技巧
大量的训练配置文件
高效率和高可扩展性
功能强大的工具箱，有助于模型分析和实验
支持多种开箱即用的推理任务
- 图像分类
- 图像描述（Image Caption）
- 视觉问答（Visual Question Answering）
- 视觉定位（Visual Grounding）
- 检索（图搜图，图搜文，文搜图）

在这里插入图片描述

MMPose: 姿态估计工具箱

在这里插入图片描述
MMPose 是一款基于 PyTorch 的姿态分析的开源工具箱，是 OpenMMLab 项目的成员之一。

主分支代码目前支持 PyTorch 1.6 以上的版本。

代码链接：https://gitee.com/open-mmlab/mmpose

主要特性

支持多种人体姿态分析相关任务。MMPose 支持当前学界广泛关注的主流姿态分析任务：主要包括 2D多人姿态估计、2D手部姿态估计、2D人脸关键点检测、133关键点的全身人体姿态估计、3D人体形状恢复、服饰关键点检测、动物关键点检测等。具体请参考功能演示。
更高的精度和更快的速度。MMPose 复现了多种学界最先进的人体姿态分析模型，包括“自顶向下”和“自底向上”两大类算法。MMPose 相比于其他主流的代码库，具有更高的模型精度和训练速度。具体请参考基准测试（英文）。
支持多样的数据集。MMPose 支持了很多主流数据集的准备和构建，如 COCO、 MPII 等。具体请参考数据集。
模块化设计。MMPose 将统一的人体姿态分析框架解耦成不同的模块组件，通过组合不同的模块组件，用户可以便捷地构建自定义的人体姿态分析模型。
详尽的单元测试和文档。MMPose 提供了详尽的说明文档，API 接口说明，全面的单元测试，以供社区参考。

MMAction2: 视频理解工具箱

MMAction2 是一款基于 PyTorch 的视频理解开源工具箱，是 OpenMMLab 项目的成员之一

主分支代码目前支持 PyTorch 1.5 以上的版本。
代码链接：https://gitee.com/open-mmlab/mmaction2

在这里插入图片描述

主要特性

模块化设计：MMAction2 将统一的视频理解框架解耦成不同的模块组件，通过组合不同的模块组件，用户可以便捷地构建自定义的视频理解模型
支持多种任务和数据集：MMAction2 支持多种视频理解任务，包括动作识别，时序动作检测，时空动作检测以及基于人体姿态的动作识别，总共支持 27 种算法和 20 种数据集
详尽的单元测试和文档：MMAction2 提供了详尽的说明文档，API 接口说明，全面的单元测试，以供社区参考

MMDeploy: 模型部署框架

在这里插入图片描述
MMDeploy 是 OpenMMLab 模型部署工具箱，为各算法库提供统一的部署体验。基于 MMDeploy，开发者可以轻松从训练 repo 生成指定硬件所需 SDK，省去大量适配时间。
代码链接：https://gitee.com/open-mmlab/mmdeploy

架构简析

在这里插入图片描述

特性简介

支持超多 OpenMMLab 算法库如：mmcls、mmdet、mmseg、mmedit、mmocr、mmpose、mmdet3d、mmrotate、mmaction2。
在这里插入图片描述

MMTracking: 一体化视频目标感知平台

在这里插入图片描述
MMTracking是一款基于PyTorch的视频目标感知开源工具箱，是OpenMMLab项目的一部分。

主分支代码目前支持PyTorch 1.5以上的版本。
代码链接：https://gitee.com/open-mmlab/mmtracking

主要特性

首个开源一体化视频目标感知平台。MMTracking 是首个开源一体化视频目标感知工具箱，同时支持视频目标检测，多目标跟踪，单目标跟踪和视频实例分割等多种任务和算法。
模块化设计。MMTracking将统一的视频目标感知框架解耦成不同的模块组件，通过组合不同模块组件，用户可以便捷地构建自定义视频目标感知模型。
简洁、高效、强大。
- 简洁：MMTracking与其他OpenMMLab平台充分交互。MMTracking充分复用MMDetection中的已有模块，我们只需要修改配置文件就可以使用任何检测器。
- 高效：MMTracking所有操作都在GPU上运行。相比其他开源库的实现，MMTracking的训练和推理更加高效。
- 强大：MMTracking复现了SOTA性能的模型。受益于MMDetection的持续推进，部分实现精度超出官方版本。

MMYOLO: YOLO 系列工具箱与测试基准

在这里插入图片描述
MMYOLO 是一个基于 PyTorch 和 MMDetection 的 YOLO 系列算法开源工具箱。它是 OpenMMLab 项目的一部分。

主分支代码目前支持 PyTorch 1.6 以上的版本。
代码链接：https://gitee.com/open-mmlab/mmyolo

主要特性

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)