p2b网络

2023-11-17

把p2b的工作推广到p2rb
目的：学习目标检测，熟悉目标检测，为自己写论文打基础

我的碎碎念：真的是fuck了，自己这个东西整了这么久，还是没有整出来，从5月分我就开始了把。因为考试，因为自己喜欢玩游戏，因为我tm真的浪费了好多时间，像个废物，学校还封校&我很不爽。
就这样把，去死吧fuck day！！！

p2b模型为，从点标注实现框检测。是一个很神奇的网络。
本文的逻辑是：利用点标注，生成框标注，利用框，进行强监督。这就是为什么模型会有两个部分组成，并且有前后逻辑关系。那么这个模型能不能好，主要就是取决于点到框标注，生成的怎么样。
训练好网络之后，只需要只是用第二个模块，便是一个detection网络。

第一部分：p2b网络

整体逻辑

首先，经过了backbone和neck模块后，会根据stage的不同，做出不同的训练策略


for stage in range(self.num_stages):
if stage == 0:
    generate_proposals, proposals_valid_list = gen_proposals_from_cfg(gt_points, base_proposal_cfg,
                                                                      img_meta=img_metas)
    dynamic_weight = torch.cat(gt_labels).new_ones(len(torch.cat(gt_labels)))
    neg_proposal_list, neg_weight_list = None, None

    pseudo_boxes = generate_proposals

else:
    generate_proposals, proposals_valid_list = fine_proposals_from_cfg(pseudo_boxes, fine_proposal_cfg,
                                                                       img_meta=img_metas,
                                                                       stage=stage)
    neg_proposal_list, neg_weight_list = gen_negative_proposals(gt_points, fine_proposal_cfg,
                                                                generate_proposals,
                                                                img_meta=img_metas)


roi_losses, pseudo_boxes, dynamic_weight = self.roi_head.forward_train(stage, x, img_metas,
                                                                                   pseudo_boxes,
                                                                                   generate_proposals,
                                                                                   proposals_valid_list,
                                                                                   neg_proposal_list, neg_weight_list,
                                                                                   gt_true_bboxes, gt_labels,
                                                                                   dynamic_weight,
                                                                                   gt_bboxes_ignore, gt_masks,
                                                                                   **kwargs)

首先，stage==0，会根据设定好的大小和比例，在每一个gt_points为中心，生成一系列的框，更具体一点：
6种不同的尺寸4,8,16,32,64,128
7种不同的比例0.33，0.5，0.66，1，1.5，2，3
在一幅图片的7个gt_points附近，生成了（7*42，4）的数据

生成好初始的框之后，便进入了网络最重要的一部分：
self.roi_head.forward_train(*)

    def _bbox_forward_train(self, x, proposal_list_base, proposals_list, proposals_valid_list, neg_proposal_list,
                            neg_weight_list, gt_points,
                            gt_labels,
                            cascade_weight,
                            img_metas, stage):
        rois = bbox2roi(proposals_list)
        bbox_results = self._bbox_forward(x, rois, gt_points, stage)
        num_instance = bbox_results['num_instance']
        gt_labels = torch.cat(gt_labels)
        proposals_valid_list = torch.cat(proposals_valid_list).reshape(
            *bbox_results['cls_score'].shape[:2], 1)
            
        if neg_proposal_list is not None:
            neg_rois = bbox2roi(neg_proposal_list)
            neg_bbox_results = self._bbox_forward(x, neg_rois, None, stage)  ######stage
            neg_cls_scores = neg_bbox_results['cls_score']
            neg_weights = torch.cat(neg_weight_list)
        else:
            neg_cls_scores = None
            neg_weights = None
        reg_box = bbox_results['bbox_pred']
        if reg_box is not None:
            boxes_pred = self.bbox_head.bbox_coder.decode(torch.cat(proposals_list).reshape(-1, 4),
                                                          reg_box.reshape(-1, 4)).reshape(reg_box.shape)
        else:
            boxes_pred = None

        proposals_list_to_merge = proposals_list

        pseudo_boxes, mean_ious, filtered_boxes, filtered_scores, dynamic_weight = self.merge_box(bbox_results,
                                                                                                  proposals_list_to_merge,
                                                                                                  proposals_valid_list,
                                                                                                  gt_labels,
                                                                                                  gt_points,
                                                                                                  img_metas, stage)
        bbox_results.update(pseudo_boxes=pseudo_boxes)
        bbox_results.update(dynamic_weight=dynamic_weight.sum(dim=-1))
      
        pseudo_boxes = torch.cat(pseudo_boxes)
        if stage == self.num_stages - 1:
            retrain_weights = self._bac_assigner(torch.cat(proposals_list), torch.cat(proposal_list_base))
        else:
            retrain_weights = None
            
        loss_instance_mil = self.bbox_head.loss_mil(stage, bbox_results['cls_score'], bbox_results['ins_score'],
                                                    proposals_valid_list,
                                                    neg_cls_scores, neg_weights,
                                                    boxes_pred, gt_labels,
                                                    torch.cat(proposal_list_base), label_weights=cascade_weight,
                                                    retrain_weights=retrain_weights)
        loss_instance_mil.update({"mean_ious": mean_ious[-1]})
        loss_instance_mil.update({"s": mean_ious[0]})
        loss_instance_mil.update({"m": mean_ious[1]})
        loss_instance_mil.update({"l": mean_ious[2]})
        loss_instance_mil.update({"h": mean_ious[3]})

        bbox_results.update(loss_instance_mil=loss_instance_mil)

        return bbox_results

上面这一段函数，有一些非常重要的子函数，这里非常有必要好好介绍并解释：

bbox2roi :(294,4),(168,4) -->(462,5)这里是把两个初始坐标concatenate在一起，然后加入image_id以加以区分
bbox_forward：这是最最重要的函数其包含很多函数和模块，下面会详细介绍
merge_box
loss_mil
上面的除了第一个都需要篇幅进行介绍。需要值得注意的是，这里的部分的代码都是stage0和1都需要跑的部分，这并不是代码stage0，1走的是一条路径，在每一个函数中，它们分别用了不同的处理。

经过了bbox_forward之后，会根据有无负例框，有无reg_box进行一些操作。而这些操作，在stage=0的时候都是略过的。在stage=1的时候，我们会一一介绍

然后便进入了merg_box函数–请从目录中进入
merge之后，stage0也就步入了尾声，最后计算loss

loss_mil—

pseudo_boxes, mean_ious, filtered_boxes, filtered_scores, dynamic_weight =
	self.merge_box(
	bbox_results,
	proposals_list_to_merge,
	proposals_valid_list,
	gt_labels,
	gt_points,
	img_metas, stage
	)

bbox_forward

_bbox_forward(x,rois,gt_points,stage)

这一段代码：根据roi从图片中提取特征，传入head模块提取分类得分，实例得分，回归框。
经过reshape之后传回一个字典
请添加图片描述

bbox_results = dict(cls_score=cls_score, ins_score=ins_score, bbox_pred=reg_box,
                 bbox_feats=bbox_feats, num_instance=num_gt)

merge_box

merge_box(self, bbox_results, proposals_list, proposals_valid_list, gt_labels, gt_bboxes, img_metas, stage)

还记得之前提到，在每一个gt点的附近生成了42个不同尺寸比例的框，这一步就是融合这些不同的框，使得每一个gt点只保留一个框，然后进行强监督训练。那么，如何决定最终保留的框呢？
这里采用根据分类得分预测的前7名，在通过加权平均的方式得到坐标。

这一部分的代码用到了非常巧妙的取切片的操作。
而其中分类得分的预测就在上一个函数中已经计算获得。

这部分代码的输出如下图：pseud_boxes：list2,tensor(7,4),tensor(4,4)
在这里插入图片描述

以上是宏观上，下面从代码层面细细分析一下。

def merge_box(self, bbox_results, proposals_list, proposals_valid_list, gt_labels, gt_bboxes, img_metas, stage):
	# 7 42 81 shape of cls is same as ins_scores
    cls_scores = bbox_results['cls_score']
    ins_scores = bbox_results['ins_score']
    num_instances = bbox_results['num_instance']
   
    if stage < 1:
        cls_scores = cls_scores.softmax(dim=-1)
    else:
        cls_scores = cls_scores.sigmoid()
    ins_scores = ins_scores.softmax(dim=-2) * proposals_valid_list
    ins_scores = F.normalize(ins_scores, dim=1, p=1)
    cls_scores = cls_scores * proposals_valid_list
    dynamic_weight = (cls_scores * ins_scores)
    dynamic_weight = dynamic_weight[torch.arange(len(cls_scores)), :, gt_labels]
    cls_scores = cls_scores[torch.arange(len(cls_scores)), :, gt_labels]
    ins_scores = ins_scores[torch.arange(len(cls_scores)), :, gt_labels]
    # split batch
    batch_gt = [len(b) for b in gt_bboxes]
    cls_scores = torch.split(cls_scores, batch_gt)
    ins_scores = torch.split(ins_scores, batch_gt)
    gt_labels = torch.split(gt_labels, batch_gt)
    dynamic_weight_list = torch.split(dynamic_weight, batch_gt)
    if not isinstance(proposals_list, list):
        proposals_list = torch.split(proposals_list, batch_gt)
    stage_ = [stage for _ in range(len(cls_scores))]
    
    boxes, filtered_boxes, filtered_scores = multi_apply(self.merge_box_single, cls_scores, ins_scores,
                                                         dynamic_weight_list,
                                                         gt_bboxes,
                                                         gt_labels,
                                                         proposals_list,
                                                         img_metas, stage_)
    pseudo_boxes = torch.cat(boxes).detach()
    # mean_ious =torch.tensor(mean_ious).to(gt_point.device)
    iou1 = bbox_overlaps(pseudo_boxes, torch.cat(gt_bboxes), is_aligned=True)

    ### scale mean iou
    gt_xywh = bbox_xyxy_to_cxcywh(torch.cat(gt_bboxes))
    scale = gt_xywh[:, 2] * gt_xywh[:, 3]
    mean_iou_s = iou1[scale < 32 ** 2].sum() / (len(iou1[scale < 32 ** 2]) + 1e-5)
    mean_iou_m = iou1[(scale > 32 ** 2) * (scale < 64 ** 2)].sum() / (len(
        iou1[(scale > 32 ** 2) * (scale < 64 ** 2)]) + 1e-5)
    mean_iou_l = iou1[(scale > 64 ** 2) * (scale < 128 ** 2)].sum() / (len(
        iou1[(scale > 64 ** 2) * (scale < 128 ** 2)]) + 1e-5)
    mean_iou_h = iou1[scale > 128 ** 2].sum() / (len(iou1[scale > 128 ** 2]) + 1e-5)

    mean_ious_all = iou1.mean()
    mean_ious = [mean_iou_s, mean_iou_m, mean_iou_l, mean_iou_h, mean_ious_all]

    if self.test_mean_iou and stage == 1:
        self.sum_iou += iou1.sum()
        self.sum_num += len(iou1)
        # time.sleep(0.01)  # 这里为了查看输出变化，实际使用不需要sleep
        print('\r', self.sum_iou / self.sum_num, end='', flush=True)

    pseudo_boxes = torch.split(pseudo_boxes, batch_gt)
    return list(pseudo_boxes), mean_ious, list(filtered_boxes), list(filtered_scores), dynamic_weight.detach()

loss_mil

请添加图片描述
这里stage0只会用到mil1，也就是binary_cross_entropy损失，其实我不是很理解为什么名字为MIL损失，实际代码是把前面生成的42个框的结果加权求和之后，根据分类偏差计算损失。这么一分析好似和mil没有啥关系。

忘掉这些

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

p2b网络的相关文章

网页设计手绘板绘画板，适合初学者学习使用，HTML

作品如下动态图下载链接在文末点我免费下载资源资源下载链接 https download csdn net download weixin 43474701 34854658
Linux系统管理

磁盘管理磁盘基本概述 Linux中磁盘的命名方式与磁盘的接口有关规则如下传统IDE接口硬盘 dev hd a z SCISI接口硬盘 dev sd a z 虚拟化硬盘 dev vd a z 在设备名称的定义规则如下其他分区可以以此类
MongoDB安装(win)Redis安装

下载MongoDB 全MonogoDB链接 win安装进入e盘找到安装好的文件路径以E 盘为例在bin目录同级下创建一个文件夹 data 在data里面创建一个db和logs文件夹进入logs创建一个文本文档 monogo log
为分布式做准备吧——深入理解JVM

文章目录类加载机制类执行机制字节码解释执行运行时编译执行反射执行内存回收内存空间收集器 Sun JDK可用的GC 之前我们文章提到过反射说的比较浅显我们这里来理解JVM 一个标准的JVM是这样的 JVM负责装载cla

随机推荐

关于剪映电脑版无法打开的问题！

剪映专业版安装到电脑上使用几次后突然就打不开了经过几天的漫长查找网上也无一个答案说什么字体冲突的都不是病根这个bug病根是业务层加载不到veCreator dll 代码里尝试去加载veCreator dll dll 导致异常下
使用OSWatcher来监控服务器

OSWatcher是oracle提供的监控服务器资源的工具配合AWR等工具为调优数据库提供基本信息 OSWatcher有支持不同平台 WINDOWS平台下 OSWatcher For Windows OSWFW LINUX平台 OS Wa
RGMII信号是什么样子的----大揭秘

RGMII信号测试 1 测试RGMII 先判断RGMII信号频率多少就知道是千兆百兆的模式发送时钟信号速率为Gbit s时时钟速率为125MHz 速率为100Mbit s时速率为25MHz 速率为10Mbit s时速率为2 5
java自动化测试语言基础之方法

java自动化测试语言基础之方法文章目录 java自动化测试语言基础之方法 Java 方法 Java 方法在前面几个章节中我们经常使用到 System out println 那么它是什么呢 println 是一个方法 System 是
Linux网络通信----htonl()、htons()、ntohl()、ntohs()四个函数

转载 https blog csdn net miao19920101 article details 69398158 前言今天在工作中用到htonl 这个函数不是很理解查阅资料之后随笔就记录下来方便以后工作和学习翻阅首先需要说
python反复运行清空plot图_仅清除matplotlib图的一部分

我正在使用嵌入在Wx Python GUI中的matplotlib图来呈现一些数据图中的内容显示的数据随点击按钮的功能不断变化数据有两种类型 1 轮廓线 self axes contour x scale map y scale m
并发锁的学习

锁锁的定义锁是用来协调多个线程并发访问同一共享资源时带来的安全问题频繁用锁必然会带来性能问题但不用锁又会造成安全问题 1 从性能上分乐观锁和悲观锁乐观锁 CAS自旋锁是非常经典的乐观锁并发性能比较好但是自旋会造成很大的开销
Python经典练习题——求水仙花数

严格来说我并不知道何谓水仙花数因为以前读书时根本没听过这种数也不知道这种数有什么特征后来从事编程之后反而听说了所谓的水仙花数如果通过网络查询则发现水仙花数的定义也不统一比如通过baidu百科查到如下定义水仙花数 Narc
元数据管理工具atlas初探

元数据管理工具atlas初探安装 Ambari添加服务略 Hive配置将atlas主节点 usr hdp 2 6 3 0 235 atlas hook拷贝到其他节点自定义hive env HIVE AUX JARS PATH usr
携手区块链技术，踏上可信“双碳”之路

自中央明确提出碳达峰碳中和的双碳目标以来区块链技术凭借能为碳排放碳足迹打上可信标签的天赋异禀引起了政策部门学术界及产业实践代表们的高度重视 7月11日在第33个全国节能宣传周之际全国低碳日前夕微众区块链联合金链盟 FISC
gcc生成静态库与动态库（附带使用方法）

目录前言 1 gcc生成静态库从使用者的角度出发如何使用别人的静态库方法1 方法2 直接使用静态库 2 gcc生成动态库动态库的使用第二种方法与使用静态库的方法一样解决方案方法3 ldconfig 配置 etc ld so
json解析豆瓣数据

继续上次的文章我们找到了json的数据包那么证明我们可以获取到他们的数据点击Headers Request URL对应的就是json数据的url 找到url之后我们就可以开始爬虫了 import requests import jso
Windows和Linux混合系统通过AD域实现用户集中认证

一 Windows AD域 1 统一认证简介管理的Linux服务器和Windows服务器如果很多如果都用本地用户名管理要管理和记住几十台甚至上百台服务器的不同账号不同密码这是很难的但是如果所有服务器账号密码都设置一样那又完全没有
Unity的C#编程教程_59_字典 Dictionary 详解及应用练习

文章目录 C Dictionary Introduction C Dictionary Looping through Dictionary C Dictionary When to Use C Dictionary Using Dicti
自举电路原理

文章目录一自举电路核心原理二为什么要自举升压三简单的自举电路模型四自举电路在高电压栅极驱动电路中的应用 1 MOS管Q开通时 2 MOS管Q关断时一自举电路核心原理电容两端电压不能突变根据电容公式 i t C du
2023智源大会议程公开丨具身智能与强化学习论坛

6月9日 2023北京智源大会将邀请这一领域的探索者实践者以及关心智能科学的每个人共同拉开未来舞台的帷幕你准备好了吗与会知名嘉宾包括图灵奖得主Yann LeCun 图灵奖得主Geoffrey Hinton OpenAI创始人S
使用AddN构建tensorflow简单图例

import tensorflow compat v1 as tf import numpy as np Define a model a computational graph Parameters for a linear model
宋浩线性代数笔记（二）矩阵及其性质

更新线性代数第二章矩阵本章为线代学科最核心的一章知识点多而杂碎务必仔细学习重难点在于 1 矩阵的乘法运算 2 逆矩阵伴随矩阵的求解 3 矩阵的初等变换 4 矩阵的秩去年写的字属实有点ugly 大家尽量看
R语言备忘录

title dataclear rbase author MengKe date 2023 03 12 output html document 1 Load R packages library ggplot2 library tidyr
p2b网络

把p2b的工作推广到p2rb 目的学习目标检测熟悉目标检测为自己写论文打基础我的碎碎念真的是fuck了自己这个东西整了这么久还是没有整出来从5月分我就开始了把因为考试因为自己喜欢玩游戏因为我tm真的浪费了好多时间像个