GIoU详解

2023-11-17

Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression

一、动机：

在目标检测任务中，回归loss相同的情况下，IoU却可能大不相同。
如下图(a)所示：三张图有一样的L2距离，但是IoU值却完全不同。坐标表示方法为(x1,y1,x2,y2)。
图(b)为L1距离。坐标表示方法为(x,y,w,h)，x,y为中心点坐标。

IoU有尺度不变性的优点，但是将其作为损失函数，由于某些方面的问题，无法直接使用。

二、IoU的优点：

IoU作为距离时(比如： L I o U = 1 − I o U L_{IoU} =1-IoU LIoU=1−IoU)，是一个度量。因为它包含了作为度量的所有属性，比如：非负性，不确定性对称性和三角不等性。
IoU有尺度不变性，这意味着任意两个方框Ａ和Ｂ的相似性与他们的空间尺度的无关。

三、IoU同时作为度量和损失函数时，存在两个问题:

如果两个目标没有重叠，IoU将会为０,并且不会反应两个目标之间的距离，在这种无重叠目标的情况下，如果IoU用作于损失函数，梯度为０，无法优化。
IoU无法区分两个对象之间不同的对齐方式。更确切地讲，不同方向上有相同交叉级别的两个重叠对象的IoU会完全相等。

四、本文的主要贡献：

将GIoU作为比较任意两个边框的度量。
使用GIoU作为两个轴对齐矩形的的损失，并提供了解析解。
把GIoU损失加入到最流行的目标检测算法中(例如：Faster R-CNN，Ｍask R-CNN和YOLO v3)，并且展示了他们在标准目标检测基准中提高的性能。

五、GIoU:

对于任意的两个Ａ、B框，首先找到一个能够包住它们的最小方框Ｃ。然后计算C \ (A ∪ B) 的面积与Ｃ的面积的比值，注：C \ (A ∪ B) 的面积为C的面积减去A∪B的面积。再用Ａ、Ｂ的IoU值减去这个比值得到GIoU。

GIoU作为度量时的性能：

GIoU作为距离时， L G I o U = 1 − G I o U L_{GIoU} =1-GIoU LGIoU=1−GIoU，非负性，不确定性，对称性以及三角不等性。
尺度不变性。
GIoU始终是IoU的下限，即GIoU(A,B) <= IoU(A,B)。当A,B形状相似，并且接近时， l i m A → B G I o U ( A , B ) = I o U ( A , B ) lim_{A→B}GIoU(A,B) = IoU(A,B) limA→BGIoU(A,B)=IoU(A,B).
-1 ≤ GIoU(A,B) ≤ 1。A,B完全重合时，GIoU(A,B) = IoU(A,B) = 1. (A∪B)/C→0 时，也就是A∪B的面积相对于C可很小很小时，GIoU收敛于-1.
GIoU考虑到了 IoU 没有考虑到的非重叠区域，能够反应出 A,B 重叠的方式。

GIoU:

IoU和GIoU做为边框损失函数时的算法流程：

B p B^p Bp:预测框　　　　　　 B g B^g Bg:ground truth　　　　　 B c B^c Bc:最小包围框
A p A^p Ap:预测框面积　　　　 A g A^g Ag:ground truth面积

输入预测框的 ( x 1 , y 1 , x 2 , y 2 ) 值 (x_{1},y_{1},x_{2},y_{2})值 (x1,y1,x2,y2)值和 ground truth 的 ( X 1 , Y 1 , X 2 , Y 2 ) (X_{1},Y_{1},X_{2},Y_{2}) (X1,Y1,X2,Y2)值。
将预测值排序：使得 x 2 > x 1 , y 2 > y 1 x_{2}>x_{1},y_{2}>y_{1} x2>x1,y2>y1。
分别计算预测框的面积 A p A^p Ap和 ground truth 的面积 A g A^g Ag。
计算两者交集的面积 I .
找出最小包围框 ( x c 1 , y c 1 , x c 2 , y c 2 ) (x_{c1},y_{c1},x_{c2},y_{c2}) (xc1,yc1,xc2,yc2).
计算IoU,GIoU
计算 L I o U L_{IoU} LIoU， L G I o U L_{GIoU} LGIoU

六、实验结果

所有对比实验中(网络：Faster R-CNN，Mask R-CNN and YOLOv3 / 数据集：PASCAL VOC, MS COCO)，加过IoU损失和GIoU损失的mAP都在原来的基础得到了提升，在此不一一分析。下图为检测效果图，从左往右分别为 L G I o U L_{GIoU} LGIoU, L I o U L_{IoU} LIoU ,网络原来的损失函数。实线为ground truth，虚线为预测框。
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

GIoU详解的相关文章

基于深度学习的高精度人体摔倒行为检测识别系统（PyTorch+Pyside6+YOLOv5模型）

摘要基于深度学习的高精度人体摔倒行为检测识别系统可用于日常生活中或野外来检测与定位人体摔倒行为目标利用深度学习算法可实现图片视频摄像头等方式的人体摔倒行为目标检测识别另外支持结果可视化与图片或视频检测结果的导出本系统采用YOLO
目标检测和语义分割常用的数据增强（代码）

语义分割 from PIL import Image ImageFont ImageDraw ImageEnhance import matplotlib pyplot as plt import numpy as np import ra
图像目标检测之cascade-rcnn实践

最近一直在调试目标检测方面的模型其中mmdetection中就集成了许多的目标检测模型其中表现比较好的模型中有cascade rcnn 因此也趁这个机会具体了解一下这个模型的发展脉络 1 模型原理在two stage模型中常见都会预
Object Detection(目标检测神文)

目标检测神文非常全而且持续在更新转发自 https handong1587 github io deep learning 2015 10 09 object detection html 如有侵权联系删除更新时间 20190226
[YOLO专题-16]：YOLO V5 - 如何把labelme json训练数据集批量转换成yolo数据集

作者主页文火冰糖的硅基工坊文火冰糖王文兵的博客文火冰糖的硅基工坊 CSDN博客本文网址 https blog csdn net HiWangWenBing article details 122334367 目录前言第1章
[YOLOv8/YOLOv7/YOLOv5系列算法改进NO.5]改进特征融合网络PANET为BIFPN（更新添加小目标检测层yaml）

前言作为当前先进的深度学习目标检测算法YOLOv5 已经集合了大量的trick 但是在处理一些复杂背景问题的时候还是容易出现错漏检的问题此后的系列文章将重点对YOLOv5的如何改进进行详细的介绍目的是为了给那些搞科研的同学需要创
快速椭圆检测代码调试记录

代码环境 Windows11 vs2019 opencv3 3 1 Debugx64 一代码注释 1 realpath PATH MAX basename 这几句是为了在Ubuntu中运行时寻找路径用的 Ubuntu需要比较严格的路径
[YOLO专题-27]：YOLO V5 小目标检测遇到的问题与常见解决办法

作者主页文火冰糖的硅基工坊文火冰糖王文兵的博客文火冰糖的硅基工坊 CSDN博客本文网址 YOLO专题 27 YOLO V5 小目标检测遇到的问题与常见解决办法文火冰糖王文兵的博客 CSDN博客目录第1章前言第2章
目标检测综述-P1-yolov1（20201017初稿）

目标检测综述 P1 yolov1 写在最初一 yolov1的提出二 yolov1如何进行检测三 yolov1的loss函数四 yolov1训练过程 1 训练前处理 2 五 yolov1的优缺点写在最初关于基于深度学习的目标检测相
迈向多模态AGI之开放世界目标检测

作者王斌谢春宇冷大炜责编夏萌出品 360人工智能研究院引言目标检测是计算机视觉中的一个非常重要的基础任务与常见的的图像分类识别任务不同目标检测需要模型在给出目标的类别之上进一步给出目标的位置和大小信息在 CV三大任
（linux系统下）MMCV及MMClassification教程及安装问题解决

说一下依托关系 MMCV是面向计算机视觉的一个基础库它支持OpenMMLab的各个模块包括MMClassification图像分类 MMDetectionm目标检测 MMOCR文字检测识别等等本文主要详细介绍一下mmcv和mmcls的安
YOLO3 -- 介绍

YOLO介绍 YOLO官网 YOLO You Only Look Once 是目标检测模型目标检测是计算机视觉中比较简单的任务用来在一张图片中找到某些特定的物体目标检测不仅要求我们识别这些物体的种类同时要求我们标出这些物体的位置 Y
基于ShuffleNetv2-YOLOv4模型的目标检测

目录 1 引言摘要 1 1 说明 1 2替换完成的工程请参考gitee 2 网络结构基础 2 1YOLOv3 2 1 YOLOv4算法 2 3 ShuffleNetv2 2 4 替换后的网络结构 3 实验结果 3 1实验环境配置及数据集介
【pytorch目标检测】创新之作：Fast R-CNN算法解读

背景 2015年提出了Fast RCNN算法训练步骤实现端到端 CNN 基于VGG6 Fast R CNN是基于R CNN和SPPnets进行的改进成果训练速度比RCNN块9倍测试速度快乐23倍准确率68 4 SPPnets网络
目标检测算法改进系列之添加SCConv空间和通道重构卷积

SCConv 空间和通道重构卷积 SCConv 空间和通道重构卷积的高效卷积模块以减少卷积神经网络 CNN 中的空间和通道冗余 SCConv旨在通过优化特征提取过程减少计算资源消耗并提高网络性能该模块包括两个单元 1 空间重构单元
Far3D：直接干到150m，视觉3D目标检测新思路（AAAI2024）

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取 gt gt 点击进入自动驾驶之心 3D目标检测技术交流群论文作者自动驾驶Daily 编辑自动驾驶之心近来在 Arxiv 读到一篇纯视觉环视感知的新工作它延
机器翻译：跨越语言边界的智能大使

导言机器翻译作为人工智能领域的瑰宝正在以前所未有的速度和精度为全球沟通拓展新的可能性本文将深入研究机器翻译的技术原理应用场景以及对语言交流未来的影响 1 简介机器翻译是一项致力于通过计算机自动将一种语言的文本翻译成另一种语言的技
什么是概率匹配

概率匹配是一种在信息论和统计学中常用的方法用于将一个随机事件的概率分布与另一个概率分布进行匹配或逼近它在数据处理编码压缩和模型选择等领域具有重要的应用为我们理解和处理复杂的概率分布提供了一种有效的工具首先让我们来了解概率匹配的
目标检测YOLO实战应用案例100讲-自动驾驶复杂场景下目标检测（续）

目录 3 2 YOLOv5框架的分析 3 3改进算法的基本思想 3 4改进聚类算法 3 5重构损失函数模型和NMS算法 lt
目标检测深度学习的anchor

在目标检测深度学习中 Anchor是一种预定义的框用于在图像中采样不同位置尺度和长宽比例的区域作为目标检测模型的候选区域 Anchor是Faster R CNN等基于Anchor的目标检测算法的核心概念具体来说 Anchor有以下几

随机推荐

安全（六种核心安全机制-加密、密钥、签名与证书）

安全要解决什么问题你都会的密码术安全机制之对称加密安全机制之非对称加密安全机制之密钥交换安全机制之消息摘要安全机制之电子签名安全机制之证书与PKI 一在典型的场景中安全主要用于解决4类需求 1 保密 Security Co
Load balancer does not have available server for client问题

Load balancer does not have available server for client问题是因为消费端没有调用成功服务端下面四步是必备的可以检查一番 1 写nacos发现的启动类注解 SpringBootApp
statsmodels 笔记：seasonal_decompose 时间序列分解

1 使用方法 statsmodels tsa seasonal seasonal decompose x model additive filt None period None two sided True extrapolate tre
[Nowcoder / POJ2728] 最优比率生成树

Nowcoder链接 POJ链接题目描述 David the Great has just become the king of a desert country To win the respect of his people he d
单例模式的6种实现方式

单例模式的6种实现方式一单例模式的定义定义确保一个类只有一个实例并提供该实例的全局访问点这样做的好处是有些实例全局只需要一个就够了适用单例模式就可以避免一个全局适用的类频繁的创建和销毁耗费系统资源二单例模式的设计要
C++函数指针应用例子

C 函数指针应用例子前段时间在写代码的时候想让程序根据一个函数运行出的结果从四个函数中自动选择一个函数运行这四个函数我们就取名叫 value 0 value 1 value 2 value 3 假设value 0是这样的 int v
基于Android系统英语学习助手APP设计开发

一设计思路 1 1设计目标 1 2设计思路 1 3设计内容 1 3 1界面设计 1 3 2功能模块设计 1 3 3功能流程图 1 3 4数据库设计如果没有数据库这部分删除 1 4工具设备要求 1 5技术方案二设计过程与说明 2 1技
JVM 内存分析—优化

参考链接 https www jianshu com p c6e2abb9f657 JVM及GC https blog csdn net sltylzx article details 90704205 在Eclipse上安装MAT Mem
kafka学习指南(总结版)

版本介绍从使用上来看以0 9为分界线 0 9开始不再区分高级低级消费者API 从兼容性上来看以0 8 x为分界线 0 8 x不兼容以前的版本总体拓扑架构从上可知 1 生产者不需要访问zookeeper 2 消费者fetch消息
利用PDB文件将蛋白中的单聚体利用对称矩阵转换为二聚体

下面是需要在VMD中执行的tcl脚本 steps source mono2poly tcl mol delete all mol new filename pdb set sel atomselect top all set matrix
Divide by three, multiply by two CodeForces - 977D（dfs vector记录答案并利用vector回溯）

em 虽然自己想到了dfs回溯解决这个问题结果却咋实现记录答案但是如果答案不对答案也要回溯这个问题上翻了车原谅菜鸡我没有想到可以直接v pop back em 以前基本没用过这个功能这里记录一下参考了大佬代码 AC代码 inc
Java 通过HttpURLConnection Post方式提交json，并从服务端返回json数据

这个技术和xml差不过主要是服务端代码稍微修改客户端代码修改部分传递参数就可以完成但在之前需要导入json所需要的jar包 PostJson java代码 package PostPager import java io InputS
torch.sigmoid() 与 torch.nn.Sigmoid() 对比 python

1 torch sigmoid 2 torch nn Sigmoid 只看文档我没太看出二者的具体区别通过以下可知得到结果自然相同不过使用方式确实不同我目前也没明白为啥
vscode 添加万能头文件#include＜bits/stdc++.h＞

文章目录前言配置前言有一天我在愉快的刷着leetcode 突然觉得写头文件好TM麻烦于是就想着配置一下万能头文件配置的过程我觉得还是记录一下吧很多初学者可能会犯迷糊配置首先我们要清楚我们在vscode上写C C 程序的
给element datetimepicker 设置默认当前时间

else里面就是设置默认当前时间15分钟后 watch row val this liveTime 当时间不为空时才回显 if val liveBeginTime val liveEndTime this liveTime push new
阿里云P2P内容分发网络（PCDN）实操手册

一 PCDN是定义 P2P 内容分发网络英文名 P2P CDN 以下简称PCDN 是以P2P技术为基础通过挖掘利用电信边缘网络海量碎片化闲置资源而构建的低成本高品质内容分发网络服务客户通过集成PCDN SDK 以下简称SDK 接入该服
关于scroll和mousewheel事件的问题

需要注意的点火狐的鼠标滚轮事件是DOMMouseScroll 事件参数兼容 e window event e 下面省略 preventDefault 函数取消的是默认事件不会把我们自己添加的事件处理删除实验开始在下面验证例子的基础上
Android仿网页分页效果

比较简单的一个方法使用gridview来做的效果 1 在adapter中的getCount中判断list size是否你需要显示的长度小于使用list size大于使用你需要的长度我这里的长度为10 所以判断的为10 2 在adapt
深度学习的核心理念

深度学习的方法核心是拟合拟合的意思是指在一个被定义的度量空间里用一个函数比较准确地表示一堆现有的空间数据让拟合后误差尽量变小贴合的越近越好为何又说深度学习是统计呢这个观点跟拟合是同一个意思的不同表述一理各表在一个给
GIoU详解

Generalized Intersection over Union A Metric and A Loss for Bounding Box Regression 一动机在目标检测任务中回归loss相同的情况下 IoU却可能大不相