GIoU详解

2023-11-17

Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression

一、动机:

在目标检测任务中,回归loss相同的情况下,IoU却可能大不相同。
如下图(a)所示:三张图有一样的L2距离,但是IoU值却完全不同。坐标表示方法为(x1,y1,x2,y2)。
图(b)为L1距离。坐标表示方法为(x,y,w,h),x,y为中心点坐标。

IoU有尺度不变性的优点,但是将其作为损失函数,由于某些方面的问题,无法直接使用。

二、IoU的优点:

  1. IoU作为距离时(比如: L I o U = 1 − I o U L_{IoU} =1-IoU LIoU=1IoU),是一个度量。因为它包含了作为度量的所有属性,比如:非负性,不确定性对称性和三角不等性。
  2. IoU有尺度不变性,这意味着任意两个方框A和B的相似性与他们的空间尺度的无关。

三、IoU同时作为度量和损失函数时,存在两个问题:

  1. 如果两个目标没有重叠,IoU将会为0,并且不会反应两个目标之间的距离,在这种无重叠目标的情况下,如果IoU用作于损失函数,梯度为0,无法优化。
  2. IoU无法区分两个对象之间不同的对齐方式。更确切地讲,不同方向上有相同交叉级别的两个重叠对象的IoU会完全相等。

四、本文的主要贡献:

  1. 将GIoU作为比较任意两个边框的度量。
  2. 使用GIoU作为两个轴对齐矩形的的损失,并提供了解析解。
  3. 把GIoU损失加入到最流行的目标检测算法中(例如:Faster R-CNN,Mask R-CNN和YOLO v3),并且展示了他们在标准目标检测基准中提高的性能。

五、GIoU:

对于任意的两个A、B框,首先找到一个能够包住它们的最小方框C。然后计算C \ (A ∪ B) 的面积与C的面积的比值,注:C \ (A ∪ B) 的面积为C的面积减去A∪B的面积。再用A、B的IoU值减去这个比值得到GIoU

GIoU作为度量时的性能:

  1. GIoU作为距离时, L G I o U = 1 − G I o U L_{GIoU} =1-GIoU LGIoU=1GIoU,非负性,不确定性,对称性以及三角不等性。
  2. 尺度不变性。
  3. GIoU始终是IoU的下限,即GIoU(A,B) <= IoU(A,B)。当A,B形状相似,并且接近时, l i m A → B G I o U ( A , B ) = I o U ( A , B ) lim_{A→B}GIoU(A,B) = IoU(A,B) limABGIoU(A,B)=IoU(A,B).
  4. -1 ≤ GIoU(A,B) ≤ 1。A,B完全重合时,GIoU(A,B) = IoU(A,B) = 1. (A∪B)/C→0 时,也就是A∪B的面积相对于C可很小很小时,GIoU收敛于-1.
  5. GIoU考虑到了 IoU 没有考虑到的非重叠区域,能够反应出 A,B 重叠的方式。

GIoU:

IoU和GIoU做为边框损失函数时的算法流程:

B p B^p Bp:预测框       B g B^g Bg:ground truth      B c B^c Bc:最小包围框
A p A^p Ap:预测框面积     A g A^g Ag:ground truth面积

  1. 输入预测框的 ( x 1 , y 1 , x 2 , y 2 ) 值 (x_{1},y_{1},x_{2},y_{2})值 (x1,y1,x2,y2)和 ground truth 的 ( X 1 , Y 1 , X 2 , Y 2 ) (X_{1},Y_{1},X_{2},Y_{2}) (X1,Y1,X2,Y2)值。
  2. 将预测值排序:使得 x 2 > x 1 , y 2 > y 1 x_{2}>x_{1},y_{2}>y_{1} x2>x1,y2>y1
  3. 分别计算预测框的面积 A p A^p Ap和 ground truth 的面积 A g A^g Ag
  4. 计算两者交集的面积 I .
  5. 找出最小包围框 ( x c 1 , y c 1 , x c 2 , y c 2 ) (x_{c1},y_{c1},x_{c2},y_{c2}) (xc1,yc1,xc2,yc2).
  6. 计算IoU,GIoU
  7. 计算 L I o U L_{IoU} LIoU L G I o U L_{GIoU} LGIoU

六、实验结果

所有对比实验中(网络:Faster R-CNN,Mask R-CNN and YOLOv3 / 数据集:PASCAL VOC, MS COCO),加过IoU损失和GIoU损失的mAP都在原来的基础得到了提升,在此不一一分析。下图为检测效果图,从左往右分别为 L G I o U L_{GIoU} LGIoU, L I o U L_{IoU} LIoU ,网络原来的损失函数。实线为ground truth,虚线为预测框。
在这里插入图片描述在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

GIoU详解 的相关文章

  • 基于深度学习的高精度人体摔倒行为检测识别系统(PyTorch+Pyside6+YOLOv5模型)

    摘要 基于深度学习的高精度人体摔倒行为检测识别系统可用于日常生活中或野外来检测与定位人体摔倒行为目标 利用深度学习算法可实现图片 视频 摄像头等方式的人体摔倒行为目标检测识别 另外支持结果可视化与图片或视频检测结果的导出 本系统采用YOLO
  • 目标检测和语义分割常用的数据增强(代码)

    语义分割 from PIL import Image ImageFont ImageDraw ImageEnhance import matplotlib pyplot as plt import numpy as np import ra
  • 图像目标检测之cascade-rcnn实践

    最近一直在调试目标检测方面的模型 其中mmdetection中就集成了许多的目标检测模型 其中表现比较好的模型中有cascade rcnn 因此也趁这个机会具体了解一下这个模型的发展脉络 1 模型原理 在two stage模型中 常见都会预
  • Object Detection(目标检测神文)

    目标检测神文 非常全而且持续在更新 转发自 https handong1587 github io deep learning 2015 10 09 object detection html 如有侵权联系删除 更新时间 20190226
  • [YOLO专题-16]:YOLO V5 - 如何把labelme json训练数据集批量转换成yolo数据集

    作者主页 文火冰糖的硅基工坊 文火冰糖 王文兵 的博客 文火冰糖的硅基工坊 CSDN博客 本文网址 https blog csdn net HiWangWenBing article details 122334367 目录 前言 第1章
  • [YOLOv8/YOLOv7/YOLOv5系列算法改进NO.5]改进特征融合网络PANET为BIFPN(更新添加小目标检测层yaml)

    前 言 作为当前先进的深度学习目标检测算法YOLOv5 已经集合了大量的trick 但是在处理一些复杂背景问题的时候 还是容易出现错漏检的问题 此后的系列文章 将重点对YOLOv5的如何改进进行详细的介绍 目的是为了给那些搞科研的同学需要创
  • 快速椭圆检测代码调试记录

    代码环境 Windows11 vs2019 opencv3 3 1 Debugx64 一 代码注释 1 realpath PATH MAX basename 这几句是为了在Ubuntu中运行时 寻找路径用的 Ubuntu需要比较严格的路径
  • [YOLO专题-27]:YOLO V5 小目标检测遇到的问题与常见解决办法

    作者主页 文火冰糖的硅基工坊 文火冰糖 王文兵 的博客 文火冰糖的硅基工坊 CSDN博客 本文网址 YOLO专题 27 YOLO V5 小目标检测遇到的问题与常见解决办法 文火冰糖 王文兵 的博客 CSDN博客 目录 第1章 前言 第2章
  • 目标检测综述-P1-yolov1(20201017初稿)

    目标检测综述 P1 yolov1 写在最初 一 yolov1的提出 二 yolov1如何进行检测 三 yolov1的loss函数 四 yolov1训练过程 1 训练前处理 2 五 yolov1的优缺点 写在最初 关于基于深度学习的目标检测相
  • 迈向多模态AGI之开放世界目标检测

    作者 王斌 谢春宇 冷大炜 责编 夏萌 出品 360人工智能研究院 引言 目标检测是计算机视觉中的一个非常重要的基础任务 与常见的的图像分类 识别任务不同 目标检测需要模型在给出目标的类别之上 进一步给出目标的位置和大小信息 在 CV三大任
  • (linux系统下)MMCV及MMClassification教程及安装问题解决

    说一下依托关系 MMCV是面向计算机视觉的一个基础库 它支持OpenMMLab的各个模块包括MMClassification图像分类 MMDetectionm目标检测 MMOCR文字检测识别等等 本文主要详细介绍一下mmcv和mmcls的安
  • YOLO3 -- 介绍

    YOLO介绍 YOLO官网 YOLO You Only Look Once 是目标检测模型 目标检测是计算机视觉中比较简单的任务 用来在一张图片中找到某些特定的物体 目标检测不仅要求我们识别这些物体的种类 同时要求我们标出这些物体的位置 Y
  • 基于ShuffleNetv2-YOLOv4模型的目标检测

    目录 1 引言 摘要 1 1 说明 1 2替换完成的工程请参考gitee 2 网络结构基础 2 1YOLOv3 2 1 YOLOv4算法 2 3 ShuffleNetv2 2 4 替换后的网络结构 3 实验结果 3 1实验环境配置及数据集介
  • 【pytorch目标检测】创新之作:Fast R-CNN算法解读

    背景 2015年 提出了Fast RCNN算法 训练步骤实现端到端 CNN 基于VGG6 Fast R CNN是基于R CNN和SPPnets进行的改进 成果 训练速度比RCNN块9倍 测试速度快乐23倍 准确率68 4 SPPnets网络
  • 目标检测算法改进系列之添加SCConv空间和通道重构卷积

    SCConv 空间和通道重构卷积 SCConv 空间和通道重构卷积 的高效卷积模块 以减少卷积神经网络 CNN 中的空间和通道冗余 SCConv旨在通过优化特征提取过程 减少计算资源消耗并提高网络性能 该模块包括两个单元 1 空间重构单元
  • Far3D:直接干到150m,视觉3D目标检测新思路(AAAI2024)

    点击下方 卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 gt gt 点击进入 自动驾驶之心 3D目标检测 技术交流群 论文作者 自动驾驶Daily 编辑 自动驾驶之心 近来在 Arxiv 读到一篇纯视觉环视感知的新工作 它延
  • 机器翻译:跨越语言边界的智能大使

    导言 机器翻译作为人工智能领域的瑰宝 正在以前所未有的速度和精度 为全球沟通拓展新的可能性 本文将深入研究机器翻译的技术原理 应用场景以及对语言交流未来的影响 1 简介 机器翻译是一项致力于通过计算机自动将一种语言的文本翻译成另一种语言的技
  • 什么是概率匹配

    概率匹配是一种在信息论和统计学中常用的方法 用于将一个随机事件的概率分布与另一个概率分布进行匹配或逼近 它在数据处理 编码 压缩和模型选择等领域具有重要的应用 为我们理解和处理复杂的概率分布提供了一种有效的工具 首先 让我们来了解概率匹配的
  • 目标检测YOLO实战应用案例100讲-自动驾驶复杂场景下目标检测(续)

    目录 3 2 YOLOv5框架的分析 3 3改进算法的基本思想 3 4改进聚类算法 3 5重构损失函数模型和NMS算法 lt
  • 目标检测深度学习的anchor

    在目标检测深度学习中 Anchor是一种预定义的框 用于在图像中采样不同位置 尺度和长宽比例的区域 作为目标检测模型的候选区域 Anchor是Faster R CNN等基于Anchor的目标检测算法的核心概念 具体来说 Anchor有以下几

随机推荐

  • 安全(六种核心安全机制-加密、密钥、签名与证书)

    安全要解决什么问题 你都会的密码术 安全机制之对称加密 安全机制之非对称加密 安全机制之密钥交换 安全机制之消息摘要 安全机制之电子签名 安全机制之证书与PKI 一 在典型的场景中 安全主要用于解决4类需求 1 保密 Security Co
  • Load balancer does not have available server for client问题

    Load balancer does not have available server for client问题 是因为消费端没有调用成功服务端 下面四步是必备的 可以检查一番 1 写nacos发现的启动类注解 SpringBootApp
  • statsmodels 笔记:seasonal_decompose 时间序列分解

    1 使用方法 statsmodels tsa seasonal seasonal decompose x model additive filt None period None two sided True extrapolate tre
  • [Nowcoder / POJ2728] 最优比率生成树

    Nowcoder链接 POJ链接 题目描述 David the Great has just become the king of a desert country To win the respect of his people he d
  • 单例模式的6种实现方式

    单例模式的6种实现方式 一 单例模式的定义 定义 确保一个类只有一个实例 并提供该实例的全局访问点 这样做的好处是 有些实例 全局只需要一个就够了 适用单例模式就可以避免一个全局适用的类 频繁的创建和销毁 耗费系统资源 二 单例模式的设计要
  • C++函数指针应用例子

    C 函数指针应用例子 前段时间在写代码的时候 想让程序根据一个函数运行出的结果 从四个函数中自动选择一个函数运行 这四个函数我们就取名叫 value 0 value 1 value 2 value 3 假设value 0是这样的 int v
  • 基于Android系统英语学习助手APP设计开发

    一 设计思路 1 1设计目标 1 2设计思路 1 3设计内容 1 3 1界面设计 1 3 2功能模块设计 1 3 3功能流程图 1 3 4数据库设计 如果没有数据库这部分删除 1 4工具设备要求 1 5技术方案 二 设计过程与说明 2 1技
  • JVM 内存分析—优化

    参考链接 https www jianshu com p c6e2abb9f657 JVM及GC https blog csdn net sltylzx article details 90704205 在Eclipse上安装MAT Mem
  • kafka学习指南(总结版)

    版本介绍 从使用上来看 以0 9为分界线 0 9开始不再区分高级 低级消费者API 从兼容性上来看 以0 8 x为分界线 0 8 x不兼容以前的版本 总体拓扑架构 从上可知 1 生产者不需要访问zookeeper 2 消费者fetch消息
  • 利用PDB文件将蛋白中的单聚体利用对称矩阵转换为二聚体

    下面是需要在VMD中执行的tcl脚本 steps source mono2poly tcl mol delete all mol new filename pdb set sel atomselect top all set matrix
  • Divide by three, multiply by two CodeForces - 977D(dfs vector记录答案并利用vector回溯)

    em 虽然自己想到了dfs回溯解决这个问题 结果却咋实现 记录答案但是如果答案不对 答案也要回溯 这个问题上翻了车 原谅菜鸡我没有想到可以直接v pop back em 以前基本没用过这个功能 这里记录一下 参考了大佬代码 AC代码 inc
  • Java 通过HttpURLConnection Post方式提交json,并从服务端返回json数据

    这个技术和xml差不过 主要是服务端代码稍微修改 客户端代码修改部分传递参数就可以完成 但在之前需要导入json所需要的jar包 PostJson java代码 package PostPager import java io InputS
  • torch.sigmoid() 与 torch.nn.Sigmoid() 对比 python

    1 torch sigmoid 2 torch nn Sigmoid 只看文档 我没太看出二者的具体区别 通过以下可知得到结果自然相同 不过使用方式确实不同 我目前也没明白为啥
  • vscode 添加万能头文件#include<bits/stdc++.h>

    文章目录 前言 配置 前言 有一天我在愉快的刷着leetcode 突然觉得写头文件好TM麻烦 于是就想着配置一下万能头文件 配置的过程我觉得还是记录一下吧 很多初学者可能会犯迷糊 配置 首先 我们要清楚 我们在vscode上写C C 程序的
  • 给element datetimepicker 设置默认当前时间

    else里面就是设置默认当前时间15分钟后 watch row val this liveTime 当时间不为空时才回显 if val liveBeginTime val liveEndTime this liveTime push new
  • 阿里云P2P内容分发网络(PCDN)实操手册

    一 PCDN是定义 P2P 内容分发网络 英文名 P2P CDN 以下简称PCDN 是以P2P技术为基础 通过挖掘利用电信边缘网络海量碎片化闲置资源而构建的低成本高品质内容分发网络服务 客户通过集成PCDN SDK 以下简称SDK 接入该服
  • 关于scroll和mousewheel事件的问题

    需要注意的点 火狐的鼠标滚轮事件是DOMMouseScroll 事件参数兼容 e window event e 下面省略 preventDefault 函数取消的是默认事件 不会把我们自己添加的事件处理删除 实验开始 在下面验证例子的基础上
  • Android仿网页分页效果

    比较简单的一个方法 使用gridview来做的效果 1 在adapter中的getCount中判断list size是否你需要显示的长度 小于使用list size大于使用你需要的长度 我这里的长度为10 所以判断的为10 2 在adapt
  • 深度学习的核心理念

    深度学习的方法 核心是拟合 拟合的意思 是指在一个被定义的度量空间里 用一个函数 比较准确地表示一堆现有的空间数据 让拟合后误差尽量变小 贴合的越近越好 为何又说深度学习是统计呢 这个观点 跟拟合是同一个意思的不同表述 一理各表 在一个 给
  • GIoU详解

    Generalized Intersection over Union A Metric and A Loss for Bounding Box Regression 一 动机 在目标检测任务中 回归loss相同的情况下 IoU却可能大不相