目标检测正负样本区分和平衡策略总结

2023-10-27

目标检测正负样本区分策略和平衡策略总结(一) - 知乎0 简介本文抛弃网络具体结构，仅仅从正负样本区分和正负样本平衡策略进行分析，大体可以分为正负样本定义、正负样本采样和平衡loss设计三个方面，主要是网络预测输出和loss核心设计即仅仅涉及网络的head部分。所…https://zhuanlan.zhihu.com/p/138824387 目标检测正负样本区分策略和平衡策略总结(二) - 知乎0 简介本文抛弃网络具体结构，仅仅从正负样本区分和正负样本平衡策略进行分析，大体可以分为正负样本定义、正负样本采样和平衡loss设计三个方面，主要是网络预测输出和loss核心设计即仅仅涉及网络的head部分。所…https://zhuanlan.zhihu.com/p/138828372 目标检测正负样本区分策略和平衡策略总结(三） - 知乎0 简介本文抛弃网络具体结构，仅仅从正负样本区分和正负样本平衡策略进行分析，大体可以分为正负样本定义、正负样本采样和平衡loss设计三个方面，主要是网络预测输出和loss核心设计即仅仅涉及网络的head部分。…https://zhuanlan.zhihu.com/p/144659734

在看完二阶段的faster rcnn，cascade rcnn和一阶段的retinanet，centernet，fcos，atss以及yolo系列1-x之后，再来总结一下正负样本分配和平衡策略，探究影响目标检测的核心问题。

1.faster rcnn and cascade rcnn

faster rcnn和cascade rcnn的正负样本分配和采样完全一致，在mmdet中都是MaxIouAssigner和RandomSampler，在二阶段算法中，分为rpn和rcnn两部分，两部分主要是控制正负样本的阈值不同，

    train_cfg=dict(
        rpn=dict(
            assigner=dict(
                type='MaxIoUAssigner',
                pos_iou_thr=0.7,
                neg_iou_thr=0.3,
                min_pos_iou=0.3,
                match_low_quality=True,
                ignore_iof_thr=-1),
            sampler=dict(
                type='RandomSampler',
                num=256,
                pos_fraction=0.5,
                neg_pos_ub=-1,
                add_gt_as_proposals=False),
            allowed_border=-1,
            pos_weight=-1,
            debug=False),
        rpn_proposal=dict(
            nms_pre=2000,
            max_per_img=1000,
            nms=dict(type='nms', iou_threshold=0.7),
            min_bbox_size=0),
        rcnn=dict(
            assigner=dict(
                type='MaxIoUAssigner',
                pos_iou_thr=0.5,
                neg_iou_thr=0.5,
                min_pos_iou=0.5,
                match_low_quality=False,
                ignore_iof_thr=-1),
            sampler=dict(
                type='RandomSampler',
                num=512,
                pos_fraction=0.25,
                neg_pos_ub=-1,
                add_gt_as_proposals=True),
            pos_weight=-1,
            debug=False)),

MaxIoUAssigner：1.将每个anchor和所有gt的最大iou小于neg_iou_thr的设为负样本，2.将每个anchor和所有gt的最大iou大于等于pos_iou_thr的设为正样本，3.2的操作可能会导致部分gt没有anchor，iou低于pos_iou_thr，每个gt和所有anchor最大iou的那个anchor，如果其iou大于min_pos_iou，则设为正样本，4.剩下的所有样本为忽略样本。

这里面假设只有2个gt，1个anchor，anchor和第一个gt的iou为0.75，和第二个gt的iou为0.45，则在2中其为gt1正样本，但是在3分配其变成gt2正样本，可见3会有一些副作用，会引入一些低质量的正样本，需要match_low_quality=True.

在上述配置中可见在rcnn中，pos_iou_thr和neg_iou_thr都是0.5，说明没有忽略样本了。

RandomSampler：num = 256 表示采样后每张图片的样本总数，pos_fraction表示其中的正样本比例，具体是正样本采样 128 个，那么理论上负样本采样也是 128 个，neg_pos_ub表示负和正样本比例上限，用于确定负样本采样个数上界，例如打算采样 1000 个样本，正样本打算采样 500 个，但是可能正样本才 200 个，那么正样本实际上只能采样 200 个，如果设置neg_pos_ub=-1那么就会对负样本采样 800 个，用于凑足 1000 个，但是如果设置了neg_pos_ub比例，例如 1.5，那么负样本最多采样 200x1.5=300 个，最终返回的样本实际上不够 1000 个，默认情况neg_pos_ub=-1，add_gt_as_proposals=True，是防止高质量正样本太少而加入的，可以保证前期收敛更快、更稳定，属于训练技巧，在 RPN 模块设置为 False，主要用于 R-CNN，因为前期 RPN 提供的正样本不够，可能会导致训练不稳定或者前期收敛慢的问题。

2 libra rcnn

libra rcnn中的CombinedSampler和balanced l1 loss.

CombinedSampler：随机对正负样本采样是不合理的，正样本没什么影响，因为正样本都是iou大于等于pos_iou_thr的，但是负样本因为多，随机采样后的iou都是偏小的，难负样本过小，由于负样本本身iou的不平衡，当采用随机采样后，会出现难负(iou 0.5附近)和易负(iou接近0)样本不平衡采样，导致后面性能不好。作者发现了如果是随机采样的话，随机采样到的样本超过70%都是在IoU在0到0.05之间的，都是易学习负样本，作者觉得是不科学的，而实际统计得到的事实是60%的hard negative都落在IoU大于0.05的地方，但是随机采样只提供了30%，实在是太少了，iou balanced sampling操作会尽量保证各个iou区间内都会采样到。由于该操作比较简单，就不贴论文公式了。核心操作是对负样本按照iou划分k个区间，每个区间再进行随机采样，保证易学习负样本和难负样本比例尽量平衡。

balanced l1 loss：faster rcnn的rcnn head，使用的回归loss是smooth l1,作者认为这个依然存在不平衡。作者分析是：loss解决Classification和Localization的问题，属于多任务loss，那么就存在一个平衡权重，一般来说回归权重会大一些，但一味的提高regression的loss其实会让outlier的影响变大(类似于OHEM中的noise label)，outlier外点样本这里作者认为是样本损失大于等于1.0，这些样本会产生巨大的梯度不利于训练过程，小于的叫做inliers。平衡回归loss的目的是既不希望放大外点对梯度的影响，又要突出内点中难负样本的梯度，从而实现对外点容忍，对内点区分难负样本的作用。为此作者在smooth l1的基础上进行重新设计，得到Balanced L1 Loss。核心操作就是想要得到一个当样本在 |x|<1附近产生稍微大点的梯度的函数。

3.focal loss

    train_cfg=dict(
        assigner=dict(
            type='MaxIoUAssigner',
            pos_iou_thr=0.5,
            neg_iou_thr=0.4,
            min_pos_iou=0,
            ignore_iof_thr=-1),
        allowed_border=-1,
        pos_weight=-1,
        debug=False),

retinanet中min_pos_iou=0，表明每个gt都至少有一个anchor与之对应，retinanet不采用正负样本采样，分配上和fasterrcnn类似，主要通过focal loss来对不同样本进行处理。

4.yolov1-x

yolov1-3中正负样本的分配几乎完全一致，它和MaxIoUAssigner还是不同的。v1中没有anchor的概念，每个网格单元预测两个边界框，边界框和gt的iou最大的负责预测该gt，其余的均作为负样本，v2-v3中引入了anchor，每个网格单元有3个anchor，但是只有和gt的iou最大的anchor才负责预测gt，计算loss，但是由于v2中的边界框其实比v1多，此时定了一个iou阈值，anchor和gt的iou小于iou阈值的才是负样本，如果在iou阈值和最大iou之间的样本均作为忽略样本，v3中也是这么操作的，这个就和rpn比较类似了，但是yolo系列的正样本还是很少的，v4中作者其实是有做尝试的设定一个正样本的iou阈值，用多个anchor去预测gt，但是复现的pytorch版本几乎都没这么做，依然是v3的最大iou匹配机制，v5在正负样本匹配上做了很大改动，首先，不再通过iou去选正样本，而是通过宽高比，自然也没有忽略样本了，正样本的选择也不再是一个网格单元，而是临近的三个网格单元，不再采用分层预测，而是多层预测，v5还是极大的增加了正样本，不过也会引入一些低质量的正样本，yolox的话，在正负样本分配上更接近atss和fcos那一套了，yolox把fcos的正负样本用在yolo上做anchor-free是涨点的，yolox通过simota来给不同的gt分配正样本，首先通过中心采样的原则，预测框落在gt框内的和以gt为中心，边长为5的范围内的左右的预测框均为候选正样本，计算所有候选正样本和所有gt的iou，分类和回归损失，利用回归和分类损失得到cost值，cost类似于候选正样本质量的一个指标，给每个gt调整k个iou最大的值，其和即为正样本个数，再根据cost值将候选框相应位置的正样本选出来作为gt的预测框，全程是anchor-free的。

5.ssd

ssd增加了非常多的anchor，正负样本定义仍然采用MaxIoUAssigner，且没有忽略样本，在损失设计上通过ohem+ce loss和smooth l1 loss。ssd因为用了ohem，因此也没有正负样本采用的操作。

    train_cfg=dict(
        assigner=dict(
            type='MaxIoUAssigner',
            pos_iou_thr=0.5,
            neg_iou_thr=0.5,
            min_pos_iou=0.,
            ignore_iof_thr=-1,
            gt_max_assign_all=False),
        smoothl1_beta=1.,
        allowed_border=-1,
        pos_weight=-1,
        neg_pos_ratio=3,
        debug=False),

6.fcos

首先是正负样本的分配，fcos的原版本中是落在gt框内即为正样本，在gt框外即为负样本，这种做法显而易见是不友好的，因为标注本身就含有大量噪声，如果gt全部区域都是正样本，那么在gt的边缘区域作为正样本预测是很难获得好结果的，在文本检测领域，都会采用shrink获取正样本区域，因此后面又提出了center_sample_radius，用于确定在半径范围内的样本都属于正样本区域，其余区域作为负样本，没有忽略样本，在预测是，根据回归分支输出的点到gt四边的距离的最大值来确定其预测的fpn层。

在loss设计上分类分支用了focal loss，回归用iou loss，centerness用ce.

7.centernet

centernet是gt中心落在哪个位置，那个位置就是正样本，其余位置都是负样本，对于centernet，其正负样本定义非常简单，可以看出会造成极其严重的正负样本不平衡问题，然后也无法像two-stage算法一样设计正负样本采样策略，那么平衡问题就必须要在loss上面解决。对于offset和宽高预测分支，其只对正样本位置进行监督，故核心设计就在平衡分类上面。对于分类平衡loss，首选肯定是focal loss了，但是还不够，focal loss的核心是压制大量易学习样本的权重，但是由于我们没有设置忽略区域，在正样本附近的样本，实际上非常靠近正样本，如果强行设置为0背景来学习，那其实相当于难负样本，focal loss会突出学这部分区域，导致loss难以下降、不稳定，同时也是没有必要的，因为我们的label虽然是0或者1的，但是在前向后处理时候是当做高斯热图(0~1之间呈现2d高斯分布特点)来处理的，我们学到最后的输出只要满足gt bbox中心值比附近区域大就行，不一定要学习出0或者1的图。基于上述设定，在不修改分类分支label的情况下，在使用focal loss的情况下，作者的做法是对正样本附近增加惩罚，基于2d高斯分布来降低这部分权重，相当于起到了类似于忽略区域的作用。还有个问题，centernet中对中心点的预测是很重要的，因为wh是依赖于中心点，wh和offset的监督仅仅在gt中心位置，回归的性能好不好，就看分类分支学的怎么样，中心定位不准，宽高也会不准。

8.atss

atss明确提出正负样本的定义和分配是影响目标检测的核心因素，atss是有anchor的，只不过它的anchor本身可以参与计算，也可以不参与计算loss。我们以mmdet中的atss的backbone以retinanet为例，其anchor是参与loss的，不过atss不需要MaxIoUAssigner这一套正负样本定义，其不需要iou阈值和fcos中的分层fpn范围定义，几乎是自适应的正负样本分配，atss中也像fcos一样，每个像素就是一个anchor，不过此像素点乘了个scale，然后在每一层上根据距离像素点距离选择了k个anchor，然后计算这k个anchor的iou均值和标准差，在这个之和上的为正样本，之和下的为负样本。

9.spad：soft anchor-point object detection

10.guided anchoring

11.yolo-asff

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

目标检测正负样本区分和平衡策略总结的相关文章

文档扫描与矫正-仿射变换

图像变换是计算机视觉和图像处理中的关键技术之一它允许我们对图像进行各种形式的变形调整和校正其中仿射变换是一种常见的变换方式在文档扫描过程中由于拍摄角度和畸变等原因文档图像可能存在一定程度的形变仿射变换可以用于校正文档图像使
比尔盖茨与萨姆.奥尔特曼的对话及感想

谈话内容比尔盖茨嘿萨姆萨姆奥尔特曼嘿比尔比尔盖茨你好吗萨姆奥尔特曼哦天哪这真的太疯狂了我还好这是一个非常激动人心的时期比尔盖茨团队情况怎么样萨姆奥尔特曼我想你知道很多人都注意到了这样一个事实
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【信道估计】【MIMO】【FBMC】未来移动通信的滤波器组多载波调制方案（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
用CHAT写一份标题为职业教育教师教学能力提升培训总结

CHAT回复标题职业教育教师教学能力提升培训总结一活动概述本次由学校组织的职业教育教师教学能力提升培训于8月15日至8月20日顺利进行来自全校的60位职业教育教师参与了此次培训主讲人为享有盛名的教育专家马丁先生二培训内容与
喜报|华测导航荣获“张江之星”领军型企业称号

近日 2023年度张江之星企业培育名单发布上海华测导航荣获2023年度张江之星领军型企业称号据悉张江之星企业培育是上海科创办为落实关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见张江高新区加快世界领先科技园区
利用CHAT写实验结论

问CHAT 通过观察放置在玻璃表面上的单个水滴人们可以观察到水滴充当成像系统探究这样一个透镜的放大倍数和分辨率 CHAT回复实验报告标题利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率一实验目的通过对比和测量研究和探索玻
什么是充放电振子理论？

CHAT回复充放电振子模型 Charging Reversal Oscillator Model 是一种解释ENSO现象的理论模型这个模型把ENSO现象比喻成一个热力学振荡系统在这个模型中 ENSO现象由三个组成部分充电 Char
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
无人机视角、多模态、模型剪枝、国产AI芯片部署

无人机视角多模态模型剪枝国产AI芯片部署是当前无人机技术领域的重要研究方向其原理和应用价值在以下几个方面进行详细讲述一无人机视角无人机视角是指在无人机上搭载摄像头等设备通过航拍图像获取环境信息并进行图像处理和分析这种技术
台积电再被坑，2纳米光刻机优先给Intel和三星，美国太霸道了

外媒指出今年ASML的10台2纳米光刻机分配已经基本确定了 Intel拿到6台三星获得3台台积电只能得到一台考虑到美国对ASML的强大影响力外媒的这些消息应该有较高的可信性 Intel在先进工艺制程方面自从2014年量产14纳米之
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
2023最新pytorch安装（超详细版）

前言一判断是否有Nvidia 英伟达显卡二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
人工智能 AI 如何让我们的生活更加便利

每个人都可以从新技术中获益一想到工作或生活更为便利简捷且拥有更多空余时间谁会不为之高兴呢借助人工智能每天能够多一些空余时间或丰富自己的业余生活为培养日常兴趣爱好增添一点便利从电子阅读器到智能家居再到植物识别应用和智能室内花
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据

随机推荐

[渗透&攻防] 二.SQL MAP工具从零解读数据库及基础用法

这是最近学习渗透和网站攻防的文章希望能深入地学习这部分知识自己作为一个初学者前一篇文章从数据库原理解读了防止SQL注入这篇文章通过SQLMAP工具简单介绍SQL注入及用法自己仍在慢慢探索网络攻防和渗透希望文章对你有所帮助尤其是
九十二.字符串算法问题（一）

题一判断字符串中有无重复字符实现一个算法确定一个字符串的所有字符是否全都不同 import java util Scanner public class LianXi public static boolean checkdiffer
virt-manager创建虚机需要指定的设置

如果使用默认设置鼠标键盘都不能用也不能通过宿主机访问外网所以在创建的时候需要好了等到安装完毕鼠标键盘在vnc中都能正常使用也可以上网了
MATLAB读写.wav和.raw音频文件

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言一 wav文件格式二 matlab代码 1 fread读 wav文件 2 fread读 raw音频文件 3 wav转raw 3 raw转wav 5 更改音频
String，StringBuffer，StringBuilder三者之间的联系和区别

一 String 和 StringBuffer StringBuilder 相同点 String StringBuffer StringBuilder都是可以用来存储字符串的不同点 1 String存储的字符串是不可变的 StringBu
编译原理课设-设计一个词法分析器

设计课设时时间紧凑难免有些错误文末还有完整的word可以直接下载使用也可以直接私信我发你文章目录摘要二设计内容一目的二整体框架三设计类四项目技术 1 守卫锁lock guard C 11 2 正则表达式 C 1
MVC 服务端Api接口的开发

总结上一个项目的服务器API开发的流程附带源码下载实现效果存储客户端上传的订单数据到数据表并展示到前端界面共分为两个模块此模块主要显示服务端如何存储数据如何发送数据到前端界面前后端建立的都是MVC项目使用DTO模式传输数据
windows多用户远程登录工具 RDPWrap配置

目录准备配置完准备下载在https github com stascorp rdpwrap releases tag v1 6 2下载RDPWrap v1 6 2 zip 下载后解压配置 install bat右键管理员运行
（未解决）selenium.common.exceptions.NoSuchWindowException: Message: no such window

执行代码如下 from selenium import webdriver from time import sleep if name main driver webdriver Chrome driver implicitly wait
【1day】万户协同办公平台 ezoffice未授权访问漏洞学习

注该文章来自作者日常学习笔记请勿利用文章内的相关技术从事非法测试如因此产生的一切不良后果与作者无关目录
vue3中hooks的介绍及用法

大家好今天这篇文章是介绍一下vue3中的hooks以及它的用法本文内容主要有以下两点什么是hooks vue3中hooks的使用方法一什么是hooks hook是钩子的意思看到钩子是不是就想到了钩子函数事实上 hooks
告别了夸克，我已经找到了比你更强大的浏览器

老实说夸克真的是一款非常不错的浏览器但是随着更新这个app越来越臃肿还搞起了付费网盘很多人转身选择其他浏览器以前也给大家推荐过Alook浏览器 X浏览器等今天再给大家推荐3款浏览器比夸克更牛更好用不信就往下看吧 1 多御
【论文精读】360MVSNet

今天读的是发表在WACV2023上的MVS文章该文章提出了基于全景相机的MVS pipeline 文章链接点击前往代码链接暂未开源文章目录 Abstract 1 Introduction 2 Related works 3 Met
day28 回溯

93 复原IP地址本质上是分割问题判断一个分割的值是否有效回溯需要去掉 78 子集收集每个树的节点 90 子集II 收集每个树的节点树层去重 package algor trainingcamp import java util
pycharm中的 opencv-python 没有函数提示的解决方案

pycharm中用 pip install opencv python 安装的cv2可能没有函数提示功能 ctrl 鼠标左键也不会进入源代码解决方案如下 1 找到cv2对应python编译器的安装路径 pycharm左下角将鼠标放在编
什么是页缓存（Page Cache）（转载）

我们知道文件一般存放在硬盘机械硬盘或固态硬盘中 CPU 并不能直接访问硬盘中的数据而是需要先将硬盘中的数据读入到内存中然后才能被 CPU 访问由于读写硬盘的速度比读写内存要慢很多 DDR4 内存读写速度是机械硬盘500倍是固态硬
teamviewer 试用期到期以后怎么卸载然后安装使用

1 1 退出TeamViewer远程软件卸载软件 2 2 按键盘的 win R 组合键打开运行输入 appdata 3 3 在弹出的窗口中找到并删除TeamViewer文件夹 4 4 按键盘的 win R 组合键打开运行输入 r
降噪电路_TWS蓝牙耳机降噪要选对蓝牙晶振

如今越来越多的手机开始取消3 5mm耳机接口转而采用USB C接口耳机或是无线蓝牙耳机但消费者对音乐分辨率的要求却始终有增无减一项调查显示音质已成为消费者选择耳机或音箱产品时最看重的因素 76 的受访者为此投了赞成票 79 的受访
启动指定用户docker

有段时间没用docker了都不记得怎么操作了启动指定用户docker 方法如下
目标检测正负样本区分和平衡策略总结

目标检测正负样本区分策略和平衡策略总结一知乎0 简介本文抛弃网络具体结构仅仅从正负样本区分和正负样本平衡策略进行分析大体可以分为正负样本定义正负样本采样和平衡loss设计三个方面主要是网络预测输出和loss核心设计即仅仅涉及网

目标检测正负样本区分和平衡策略总结

目标检测正负样本区分和平衡策略总结 的相关文章

随机推荐

热门标签

目标检测正负样本区分和平衡策略总结的相关文章