End-to-End Semi-Supervised Object Detection with Soft Teacher 解读

2023-10-29

端到端的半监督目标检测

论文:https://arxiv.org/pdf/2106.09018v3.pdf
代码地址:https://github.com/microsoft/SoftTeacher

整体框架

student model 的训练:
标注数据的检测损失
未标记数据通过伪标签生成的检测损失

teacher model :
由student model 的指数移动平均线(EMA)演变而来

损失函数

所以在训练的时候,主要训练student model
其损失函数重新定义分为了有标签部分和无标签部分


其中 Ls​代表有标签图片的损失值,Lu代表伪标签(利用teacher model 生成的)的损失值
再相加之前二者都需要进行归一化即以下步骤(求均值)

初始化

student model 和 teacher model 都是随机初始化的。
其中student model 随着损失函数做SGD的迭代,
teacher model 则根据student model 进行 EMA 迭代

困难点

  • 伪标签生成困难
    如何利用teacher model 生成的伪标签既包含位置信息也包含类别信息

流程

  • 伪标签由teacher model 生成
  • 伪标签通过非极大值抑制(NMS)和前景得分高于阈值(提前设定)才能作为伪标签用于建模
  • 使用 FixMatch
    即使用弱增强作为伪标签,求强增强预测值和弱增强的伪标签之间的一致性

阈值选择

高阈值会有高精确率但是会导致低召回率。
直接使用IOU进行代替(使用一般目标检测的方法),则因为一些本来是真实的框被当做背景加入了训练成为噪声是的模型效果下降。
针对这一问题,本文提出了一种叫做 soft teacher的方法。

这里重新定义了伪标签的类别部分的损失函数

即前景类别损失为算数平均
背景损失为加权平均
权重为背景框的可靠性得分
teacher model 根据弱增强图片生成的背景得分作为这里的 rr

其他的测试方案:

学生背景得分

可靠性分数使用另一个背景得分,即 rr 换成使用 student model的得分

预测差异

可靠性分数使用 teacher model 和 student model 之间差别来认定

即预测概率值之差的绝对值来判断。

IOU

前提 一个候选框与真实框之间IOU小于某一个阈值

  • 假设1
    这时候IOU较大的那个框作为背景框。这里称为 IOU
  • 假设2
    这时候IOU较小的框更可能是背景框。这里称为 Reverse-IoU

抖动框(Box Jittering)

IOU的问题

高IOU和高精确度的相关性不高,所以高IOU不能保证精确度很高。

抖动框方案

于是将预测的伪框进行抖动,代替生成的bbox进入模型作为proposal进行预测将得到的框求标准差等计算,算出定义的回归方差进入损失函数。

整体论文的思考路径:

  1. 想建立一个可以使用半监督学习方式来增加整体目标检测mAP的模型。

  2. 发现有个半监督算法叫 FixMatch。 核心思想是利用弱增强的结果作为伪标签,使用强增强的结果进行训练,保证二者结果的一致性。

  3. 思考如何将FixMatch这种半监督思路用在自己这里。于是提出了以下框架。

  4. 现在有了整体框架后,我们有两个模型,一个是 student model 一个是 teacher model 。 一般的来讲,半监督是在一个已有的模型框架下面做出的优化,那么我们的基础模型这里就选择使用Faster RCNN。注意我们训练的时候 student model,下面的损失函数的讨论也是 student model 而 teacher model 是由student model 进行 EMA 平滑的得到的。

  5. 初始化怎么办呢? 选择随机初始化吧,更具有一般性。注意,这里的随机初始化指的是student。至于teacher的初始化则和student保持一致。


    相当于每轮teacher的参数更新为:

    这同样解释了teacher model 更新的方式。

  6. 现在初始化搞定了,那如何将我们的半监督的图片信息加入到损失函数中呢? 我们使用加权吧。

  7. 对了,有监督和半监督之间如果差别有点大怎么办? 两边分别归一化吧,归一化之后相加才不会导致一方被忽略了。

  8. 现在可以加权了,有监督部分我们直接使用正常FasterRCNN的逻辑就好了,那有监督这里怎么办呢? 这里肯定需要建立伪标签来使得建模成立,那伪标签在目标检测里面包含了框的位置信息和类别信息两个。我们分着来看看下。

  9. 类别来说,分为前景类别和背景类别,前景的重要性是一样的,就用算数平均吧。但是背景的重要性可不同,而且背景有点太多了,我们得根据重要性排一下大小。这里就用加权平均吧。

    • 其中背景的权重怎么定呢?
      • 思考有几种定义的方案。
        • 根据 teacher model生成的背景得分来加权(最后使用方案)
        • 根据 student model生成的背景得分来加权
        • 根据student model 和 teacher model 两者的预测差异来定。
        • 根据IOU确定。但是IOU一般使用思路又有两种。
          前提 一个候选框与真实框之间IOU小于某一个阈值
          • 假设1
            这时候IOU较大的那个框作为背景框。这里称为 IOU
          • 假设2
            这时候IOU较小的框更可能是背景框。这里称为 Reverse-IoU
  10. 思考完类别的定义,剩下就是回归如何确定伪标签了。

    • 凭借一般认识认为高的前景得分那么这个框作为前景的可能性就很大,那这个框的位置就应该比较准,于是想能不能直接用前景得分高的框作为我们伪标签的框进行回归
    • 发现 前景得分 与 预测框和真实框之间的IOU 这两者之间并没有一个很好的正相关关系。

                如图:

11. 到这里发现假设不成立,那就不能直接用前景得分高的框作为我们的回归使用的框了。思考其他路径。

12. 考虑使用框的抖动生成回归方差,判断方差越小的框IOU越大则可以作为我们伪框的判断依据。根据下图:

        从图中能看到使用回归方差的整体效果要优于使用前景得分(因为看起来相关性更强)
所以我们考虑抖动框的生成逻辑。

13.

 ​​​​​
 

16. 但是在这套定义伪框的位置信息的时候我们会生成太多的框需要进行这一套计算。消耗太大了。所以进行一轮筛选,选择在teacher model 中前景得分大于0.5的框进行这个回归方差考虑。这样,每张图片由上百张的框需要判断减少到平均每张图片有17个框需要考虑。

17. 设定回归方差的阈值,回归方差小于阈值的情况下我们才将teacher model 预测得到的框作为伪框。
这时候我们定义半监督部分的回归损失为:

18. 将上面这个带入整体损失函数公式(公式3)得到了整体的损失函数为:

以上为整体损失函数定义的逻辑。
论文后续为在实验过程中,体现整体算法效果不错。

 后面还有一系列效果的对比,有兴趣可以直接去看论文。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

End-to-End Semi-Supervised Object Detection with Soft Teacher 解读 的相关文章

  • API接口:技术、应用与实践

    随着数字化时代的到来 API接口在软件开发和数据交互中扮演着越来越重要的角色 本文深入探讨了API接口的基本概念 技术原理 设计方法 最佳实践以及在各行业的应用案例 关键词 API接口 软件开发 数据交互 技术原理 设计方法 一 引言 随着
  • 这些专利知识你知道吗?

    专利作为一种重要的知识产权保护形式 专利不仅成为了企业核心竞争力的重要组成部分 也成为了国家创新发展的重要支撑 专利是指国家专利主管机关授予发明创造申请人的一种专有权 这种专有权具有独占性 排他性和法律强制性 能够为持有者带来经济利益和竞争
  • 基于机器学习的贷中风险预测模型-江苏银行“随e融”杯-二等奖

    文章目录 源码下载地址 项目介绍 界面预览 项目备注 毕设定制 咨询 源码下载地址 源码下载地址 点击这里下载源码 项目介绍 基于机器学习的贷中风险预测模型 江苏银行
  • 慢思维大脑:SOP流程的心理学背景

    1 背景介绍 慢思维大脑 SOP流程的心理学背景 慢思维是指人类大脑在处理复杂问题 做出重要决策时所采用的思考方式 它与快速 自动的快思维相对 主要通过以下几种方式表现 深入思考 慢思维会让人类大脑深入思考问题的本质 从而找出更深层次的解决
  • 如何用GPT制作PPT和写代码?

    详情点击链接 如何用GPT制作PPT和写模型代码 一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图 图像识别 文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemin
  • 【需求响应】改进连续时间控制方法用于分散式需求响应的恒温负荷研究(Python代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Python代码及文章
  • 扬帆证券:产业化破题在即 人形机器人超预期演进

    大模型助力下的拐点 特斯拉A股产业链上 两笔重磅出资几乎一起现身 总规划超百亿元 1月4日 拓普集团公告 与宁波经济技能开发区办理委员会签署了 机器人电驱系统研发生产基地项目出资协议书 公司拟出资50亿元 建设机器人核心部件生产基地 此次出
  • 有效降低EMI干扰的PCB设计原则

    降低EMI干扰的一些PCB设计建议 1 通过在所有信号下提供低阻抗 连续的返回路径来减少地面反弹 尤其是在表层布线时 2 保持所有走线距离板的边缘至少5倍信号线宽 3 对于关键信号 尽量采用带状线布局 4 将高速率 大电流的组件尽可能远离I
  • 问CHAT很繁琐的问题会不会有答案呢?

    问CHAT 什么已有的基于极值理论的极端温度重现期主要针对极端高温事件 对极端低温事件研究较少 CHAT 回复 为这主要可能是由于以下几个原因 1 气候变化与全球变暖 当前 全球变暖和气候变化的问题备受关注 这导致科研者更加关注极端高温事件
  • 扬帆证券:突发利好!外资重大转变,A股收到多份喜报

    A股财报季 利好音讯密集传来 1月16日晚间 A股多家上市公司披露了成绩预告 其间成绩预增 扭亏等利好公告数量占比超80 其间 普瑞眼科公告 估计2023年净赢利同比添加高达1163 98 1285 51 别的 多家上市公司公告称 估计20
  • 渗透测试常用工具汇总_渗透测试实战

    1 Wireshark Wireshark 前称Ethereal 是一个网络分包分析软件 是世界上使用最多的网络协议分析器 Wireshark 兼容所有主要的操作系统 如 Windows Linux macOS 和 Solaris kali
  • 【毕业设计选题】复杂背景下的无人机(UVA)夜间目标检测系统 python 人工智能 深度学习

    前言 大四是整个大学期间最忙碌的时光 一边要忙着备考或实习为毕业后面临的就业升学做准备 一边要为毕业设计耗费大量精力 近几年各个学校要求的毕设项目越来越难 有不少课题是研究生级别难度的 对本科同学来说是充满挑战 为帮助大家顺利通过和节省时间
  • 挖掘知识的宝藏:如何利用在线资源提升个人技能

    在这个信息爆炸的时代 互联网已经成为我们获取知识 提升技能的重要途径 无论是学习编程 提高语言能力 还是了解新的行业趋势 网络资源都为我们提供了无限可能 本文将探讨如何有效利用在线资源进行自我提升 一 选择合适的在线学习平台 首先 我们需要
  • 图片编辑软件有哪些好用的?这几款快收藏吧

    你有没有过这样的经历 精心拍摄了一组照片 却发现有些角度不对 光线不够好 或者想要给图片加上一些特别的滤镜效果来达到心目中的样子 这时 你就需要一款合适的图片编辑软件了 但是 市面上的图片编辑软件琳琅满目 哪一款才是适合自己的呢 别担心 今
  • 有效降低信号串扰的PCB设计原则

    降低信号串扰的一些PCB设计建议 1 对于传输线 保持相邻信号线之间的间距至少为两倍信号线宽 2 尽量避免信号跨越返回路径中的不连续点或者空隙 3 如果必须在返回路径中跨越空隙 则尽量使用差分线 4 电容器不是一种低阻抗互连结构 其高频阻抗
  • 你知道修图软件手机端的哪些比较好用吗?分享我的爱用工具

    你是否经常在朋友圈看到朋友晒出的照片 美得如同画中景 让人惊叹不已 你是否也曾羡慕过那些轻松将普通照片变成艺术大片的摄影高手 其实 他们背后的 魔法 大多都来自于使用p图软件给图片进行美化 今天 就让我们一起来探讨一下 p图软件哪个好用免费
  • 如何正确下载激活NTFS for Mac2024最新版本?

    对于产品来说 更新换代是常有的事 很多软件在用户使用过后 会根据用户的使用需求以及一些客观需求 将软件进行改进 这样一个新的版本的软件就会出现 用户需要将软件进行更新才能享受最新的功能 使用更加完善的软件 所以我们一定要学会如何将软件进行更
  • 【产品兼容认证】WhaleStudio 成功兼容TiDB数据库软件

    平凯星辰和白鲸开源宣布成功完成产品兼容认证 北京 2023年12月27日 平凯星辰 北京 科技有限公司 以下简称平凯星辰 旗下的 TiDB 产品与白鲸开源的 WhaleStudio 已成功完成产品兼容性认证 这一重要合作旨在为全球客户提供更
  • 两个月进口猛增10倍,买近百台光刻机,难怪ASML不舍中国市场

    据统计数据显示 2023年11月和12月 中国从荷兰进口的光刻机设备同比猛增10倍 进口金额超过19亿美元 让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台 进口金
  • 2023下半年软考「单独划线」合格标准公布

    中国计算机技术职业资格网发布了 关于2023年度下半年计算机软件资格考试单独划线地区合格标准的通告 2023下半年软考单独划线地区合格标准各科目均为42分 01 官方通告 关于2023年度下半年计算机软件资格考试单独划线地区合格标准的通告

随机推荐