【BEV】BEVDet

2023-10-27

BEVDet 解析

BEVDet
- 模型
- - bevdet-r50
- 训练配置
- Scale NMS
- - 优化配置
- 推理记录
- - 注册
  - - 随机种子
- 总结

BEVDet

BEVDet继承于CenterPoint–>MVTwoStageDetector
模型实现基于MMlab MMdet3D框架
该算法基于Centeroint点云检测，通过多视角图像估计深度，形成层视锥形点云，进而生成BEV视角下的pillar点云主体，完成点云检测。

下面是根据代码绘制结构

在这里插入图片描述

模型

在这里插入图片描述

bevdet-r50

模块	type		模块	type
img_backbone	`'ResNet'`
img_neck	`CustomFPN`	`[1024,2048]->512`
img_view_transformer	`LSSViewTransformer`	`512->80`
img_bev_encoder_backbone	`CustomResNet`	`80->[80x2,80x4,80x8`
img_bev_encoder_neck	`FPN_LSS`	`80x8+80*2->256`
pts_bbox_head	`CenterHead`	`256->`	bbox_coder	`CenterPointBBoxCoder`
			separate_head	`SeparateHead`
			loss_cls	`GaussianFocalLoss`
			loss_bbox	`L1Loss`

model = dict(
    type='BEVDet',
    img_backbone=dict(
        pretrained='torchvision://resnet50',
        type='ResNet',
        depth=50,
        num_stages=4,   # 该网络共有4个阶段
        out_indices=(2, 3), ## 要网络的第2个和第3个阶段的特征图作为输出
        frozen_stages=-1,  # 将所有层的权重都冻结，只训练最后一层或几层的权重
        norm_cfg=dict(type='BN', requires_grad=True),
        norm_eval=False,  # 当norm_eval=False时，归一化层将处于训练模式，它将使用当前的batch的均值和方差来归一化输入数据。当norm_eval=True时，归一化层将处于评估模式，它将使用先前存储的移动平均均值和方差来归一化输入数据。
        with_cp=True,# 特征金字塔网络在进行特征融合时会使用copy操作
        style='pytorch'), 
    img_neck=dict(
        type='CustomFPN',
        in_channels=[1024, 2048],
        out_channels=512,
        num_outs=1,
        start_level=0, # 从网络的第0层开始进行特征提取
        out_ids=[0]),  # 特征金字塔网络中的第0个特征图
    img_view_transformer=dict(
        type='LSSViewTransformer',
        grid_config=grid_config,
        input_size=data_config['input_size'],
        in_channels=512,
        out_channels=numC_Trans,
        downsample=16),
    img_bev_encoder_backbone=dict(
        type='CustomResNet',
        numC_input=numC_Trans,
        num_channels=[numC_Trans * 2, numC_Trans * 4, numC_Trans * 8]),
    img_bev_encoder_neck=dict(
        type='FPN_LSS',
        in_channels=numC_Trans * 8 + numC_Trans * 2,
        out_channels=256),
    pts_bbox_head=dict(
        type='CenterHead',  # BEVDet继承Centerpoints
        in_channels=256,
        tasks=[
            dict(num_class=1, class_names=['car']),
            dict(num_class=2, class_names=['truck', 'construction_vehicle']),
            dict(num_class=2, class_names=['bus', 'trailer']),
            dict(num_class=1, class_names=['barrier']),
            dict(num_class=2, class_names=['motorcycle', 'bicycle']),
            dict(num_class=2, class_names=['pedestrian', 'traffic_cone']),
        ],
        common_heads=dict(
            reg=(2, 2), height=(1, 2), dim=(3, 2), rot=(2, 2), vel=(2, 2)),
        share_conv_channel=64,
        bbox_coder=dict(
            type='CenterPointBBoxCoder',
            pc_range=point_cloud_range[:2],
            post_center_range=[-61.2, -61.2, -10.0, 61.2, 61.2, 10.0],
            max_num=500,
            score_threshold=0.1,
            out_size_factor=8,
            voxel_size=voxel_size[:2],
            code_size=9),
        separate_head=dict(
            type='SeparateHead', init_bias=-2.19, final_kernel=3),
        loss_cls=dict(type='GaussianFocalLoss', reduction='mean'),
        loss_bbox=dict(type='L1Loss', reduction='mean', loss_weight=0.25),
        norm_bbox=True),
    # model training and testing settings
    train_cfg=dict(
        pts=dict(
            point_cloud_range=point_cloud_range,
            grid_size=[1024, 1024, 40],
            voxel_size=voxel_size,
            out_size_factor=8,
            dense_reg=1,
            gaussian_overlap=0.1,
            max_objs=500,
            min_radius=2,
            code_weights=[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.2, 0.2])),
    test_cfg=dict(
        pts=dict(
            pc_range=point_cloud_range[:2],
            post_center_limit_range=[-61.2, -61.2, -10.0, 61.2, 61.2, 10.0],
            max_per_img=500,
            max_pool_nms=False,
            min_radius=[4, 12, 10, 1, 0.85, 0.175],
            score_threshold=0.1,
            out_size_factor=8,
            voxel_size=voxel_size[:2],
            pre_max_size=1000,
            post_max_size=83,

            # Scale-NMS
            nms_type=[
                'rotate', 'rotate', 'rotate', 'circle', 'rotate', 'rotate'
            ],
            nms_thr=[0.2, 0.2, 0.2, 0.2, 0.2, 0.5],
            nms_rescale_factor=[
                1.0, [0.7, 0.7], [0.4, 0.55], 1.1, [1.0, 1.0], [4.5, 9.0]
            ])))

训练配置

point_cloud_range = [-51.2, -51.2, -5.0, 51.2, 51.2, 3.0]

train_pipeline	test_pipeline
`PrepareImageInputs`	`PrepareImageInputs`
`LoadAnnotationsBEVDepth`	`LoadAnnotationsBEVDepth`
`ObjectRangeFilter`	`LoadPointsFromFile`
`ObjectNameFilter`	`MultiScaleFlipAug3D`
`DefaultFormatBundle3D`	`（DefaultFormatBundle3D`
`Collect3D`	`Collect3D）`

Scale NMS

            # Scale-NMS
            nms_type=[
                'rotate', 'rotate', 'rotate', 'circle', 'rotate', 'rotate'
            ],
            nms_thr=[0.2, 0.2, 0.2, 0.2, 0.2, 0.5],
            nms_rescale_factor=[
                1.0, [0.7, 0.7], [0.4, 0.55], 1.1, [1.0, 1.0], [4.5, 9.0]
            ]

优化配置

optimizer	lr	lr_config
`AdamW`	2e-4	policy=`step`

推理记录

模块	子模块	子模块	x_size块	mean
extract_img_feat	image_encoder	img_backbone `ResNet`	([1, 1024, 16, 44]) ([1, 2048, 8, 22])	2,3特征图
	image_encoder	img_neck `CustomFPN`	([1, 512, 16, 44])	融合后特征
	img_view_transformer		([1, 59, 16, 44])	depth
	bev_encoder	`CustomResNet` `FPN_LSS`	[1, 256, 128, 128]	BEV特征
pts_bbox_head	CenterHead	`SeparateHead`	Loss	多任务检测

注册

注册机制通过cfg中关键字type对已经注册类进行对应实现。

obj_type = args.pop('type')
    if isinstance(obj_type, str):
        obj_cls = registry.get(obj_type)
        if obj_cls is None:
            raise KeyError(
                f'{obj_type} is not in the {registry.name} registry')
    elif inspect.isclass(obj_type) or inspect.isfunction(obj_type):
        obj_cls = obj_type
    else:
        raise TypeError(
            f'type must be a str or valid type, but got {type(obj_type)}')
    try:
        return obj_cls(**args)

注意：利用deepcopy实现参数的传递和隔离

随机种子

在相同中下，随机数相同，即此通过函数实现的随机数为伪随机数。类似为一元函数关系，相同输入产生同一个随机值。特别的是在产生随机数后将会产生新的随机种子，所以在重复使用随机函数时会输出不同的随机值，因为第二次的随机‘种子x’已经不一样了

总结

mmlab框架已经对各个基础模块进行封装，和一些功能模块的解耦。在使用的时候可以不用深究细节，==严禁重复造轮子！！！！==

严禁重复造轮子！！！！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习

人工智能

机器学习

【BEV】BEVDet 的相关文章

【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
喜报|华测导航荣获“张江之星”领军型企业称号

近日 2023年度张江之星企业培育名单发布上海华测导航荣获2023年度张江之星领军型企业称号据悉张江之星企业培育是上海科创办为落实关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见张江高新区加快世界领先科技园区
链上繁荣,合作不断,外媒热议波场 TRON 2023 年度成绩

近日权威外媒Theblock 美联社和Decrypt等就波场 TRON 2023大事件进行了年度盘点报道指出波场TRON网络在2023年取得了一系列的发展和合作提升了其在Web3领域的地位其中波场TRON网络账户数量增加了 54
用CHAT分析高校体育智慧教学体系构建与探索研究现状

CHAT回复现阶段高校体育智慧教学体系的构建与探索研究还处于初级阶段但全球数字化转型大潮的推动下一些较为前沿的研究和实践已经开始出现 1 教学平台的建设很多高校已经开始尝试使用在线教育平台进行体育教学把传统的面对面授课模式转变为
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
多模态、长文本、智能体，智谱AI推出GLM-4模型全家桶，发布即上线！

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入 2024年01月16日智谱AI首届技术开放日 Zhipu DevDay 在北京中关村国家自主创新示范区展示中心成功举办现场智谱AI团队全面展示了其投身于大模型事业三年多来所
毕业设计：基于深度学习的微博谣言检测系统人工智能

目录前言设计思路一课题背景与意义二算法理论原理三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有
无人机视角、多模态、模型剪枝、国产AI芯片部署

无人机视角多模态模型剪枝国产AI芯片部署是当前无人机技术领域的重要研究方向其原理和应用价值在以下几个方面进行详细讲述一无人机视角无人机视角是指在无人机上搭载摄像头等设备通过航拍图像获取环境信息并进行图像处理和分析这种技术
如何快速申请GPT账号？

详情点击链接如何快速申请GPT账号一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
手把手教你用 Stable Diffusion 写好提示词

Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好前面文章写了一篇文章一份保姆级的 Stable Diffusion
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
机器学习算法实战案例：Informer实现多变量负荷预测

文章目录机器学习算法实战案例系列答疑技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析机器学习算法实战案例系
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
深度学习：人脸识别系统 Tensorflow 人脸检测 Python语言 facenet人脸识别算法毕业设计（源码）✅

博主介绍全网粉丝10W 前互联网大厂软件研发集结硕博英豪成立工作室专注于计算机相关专业毕业设计项目实战6年之久选择我们就是选择放心选择安心毕业感兴趣的可以先收藏起来点赞关注不迷路毕业设计 2023 2024年计算机毕业
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
两个月进口猛增10倍，买近百台光刻机，难怪ASML不舍中国市场

据统计数据显示 2023年11月和12月中国从荷兰进口的光刻机设备同比猛增10倍进口金额超过19亿美元让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台进口金

随机推荐

【课程设计】数据库：火车票管理系统

课程设计数据库火车票管理系统摘要本文主要介绍了火车票管理系统其中包括其选题功能概述对该系统的方案方法设计以及过程实现等内容由于系统的代码量较大因此将会较为抽象地对思想进行介绍在必要时会举出一些实例还会附上成果展示以及安
线程池创建类ThreadPoolExecutor介绍

ThreadPoolExecutor 使用给定的初始参数和默认线程工厂和拒绝的执行处理程序创建一个新的线程池执行器一构造方法参数说明有四个构造方法最终都是调用构造方法四构造方法参数说明 param corePoolSize 保留在
APK反编译

一需要的工具 apktool 反编译APK文件得到classes dex文件同时也能获取到资源文件以及布局文件下载地址 dex2jar 将反编译后的classes dex文件转化为 jar文件下载地址 jd gui 用于查看 ja
嵌入式C语言总结

GCC知识梳理 Q GCC是什么 GCC最初名称 GNU C Compiler 随着其支持的语言越来越多改称为 GNU Compiler Collection 作用将编程高级语言翻译为机器语言 Q C语言变成机器指令的过程 gcc 根据
web开发-高德地图api2.0-点聚合-包含设置非聚合点的事件绑定以及样式

web开发高德地图api2 0 点聚合包含设置非聚合点的事件绑定以及样式下面展示一些内联代码片非聚合点数据 lnglat里的坐标不一定要双引号 var points weight 8 lnglat 108 939621 34 34
Monitoring（监控）

Monitoring and Instrumentation 有几种方法可以监控Spark应用程序 Web UI 指标和外部检测 Web Interfaces 默认情况下每个SparkContext都会在端口4040上启动Web UI 以
P2661 信息传递（tarjan求强连通分量模板题）

minn为最小强连通分量的点数 include
企业微信PC版应用跳转到默认浏览器，避坑指南，欢迎补充。。。

文章目录引子坑一写代码前端页面后端代码企业微信设置坑二网页授权及JS SDK 坑三配置企业可信IP 最后引子我们公司内部用企业微信沟通最近有个需求一个应用在企业微信PC版打开时要自动跳转到PC的默认浏览器在开发
Java 奇偶分离

public class MiddleHalf public static void main String args int nums 1 4 3 5 0 3 10 int result sortArrayByParity nums fo
C++ · 冒泡排序与选择排序

九月份的第一篇文章好久没更新了想起上一次更新还是在上一次那今天咱们来聊一聊C 中的冒泡排序与选择排序冒泡排序排序原理与思想依次比较相邻的两个数把大的放前面小的放后面即首先比较第1个数和第2个数大数放前小数放后然后比较
【蓝桥杯JavaB组真题详解】三部排序（2013）

题目描述三部排序一般的排序有许多经典算法如快速排序希尔排序等但实际应用时经常会或多或少有一些特殊的要求我们没必要套用那些经典算法可以根据实际情况建立更好的解法比如对一个整型数组中的数字进行分类排序使得负数都靠左端正数
LeetCode（14）：最长公共前缀

描述编写一个函数来查找字符串数组中的最长公共前缀如果不存在公共前缀返回空字符串示例输入 flower flow flight 输出 fl 输入 dog racecar car 输出解释输入不存在公共前缀 class Solut
红米note9pro刷鸿蒙,红米Note9Pro稳定版刷机包（官方系统固件升级包MIUI11）

Redmi Note 9 Pro采用6 67英寸打孔屏搭载高通骁龙750G 内置4820mAh大电池搭载前后双玻璃机身覆盖大猩猩第五代玻璃正面为居中挖孔全面屏设计 6 67英寸屏幕保留3 5mm耳机孔采用侧面指纹识别背部为居中
微信小程序分享功能总结

小程序实现分享功能有如下三种方式 1 在js文件中实现onShareAppMessage函数即可点击右上角菜单分享给微信好友页面中默认已实现在js文件中实现onShareTimeline函数即可点击右上角菜单分享到微信朋友圈需要自
联盟链走向何方

联盟链技术哪家强开源架构Fabric FISCO BCOS 以下简称 BCOS CITA 技术对比出品碳链价值研究院 01 摘要第 46 届世界经济论坛达沃斯年会将区块链与人工智能自动驾驶等一并列入第四次工业革命经济学人曾在
qt5.5.1 移植4412的问题过程

编译错误 WTF wtf unicode wchar UnicodeWchar h In function bool WTF Unicode isAlphanumeric UChar WTF wtf unicode wchar Unicod
开源项目部署之悟CRM部署 PHP服务端版

文章目录前言一部署环境二部署流程 1 安装宝塔等基础环境 2 部署CRM 点击安装即可在这里插入图片描述 https img blog csdnimg cn 4f83ede5d3f74343a927f8a641c25e19 pn
助推打造全球研发中心城市

阿里社招一面面不动了真的面不动了一项目挑一个你觉得最有挑战性的细说有些细节被质疑了嘴在前面飞脑子在后面追以后说每一句话都要小心笑cry 二八股1 聚簇索引和非题解检索产品名称和描述一 select prod nam
3D关键点检测（2020-2017)

3D关键点检测 1 3D关键点检测之PoseDRL Deep Reinforcement Learning for Active Human Pose Estimation AAAI2020 这篇文章可能与我们通常所处理的姿态估计任务略有不
【BEV】BEVDet

BEVDet 解析 BEVDet 模型 bevdet r50 训练配置 Scale NMS 优化配置推理记录注册随机种子总结 BEVDet BEVDet继承于CenterPoint gt MVTwoStageDetector 模型实