CVPR2019:Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression

2023-11-02

摘要
Intersection over Union (IoU) is the most popular evaluation metric used in the object detection benchmarks. However, there is a gap between optimizing the commonly used distance losses for regressing the parameters of a bounding box and maximizing this metric value. The optimal objective for a metric is the metric itself. In the case of axis-aligned 2D bounding boxes, it can be shown that IoU can be directly used as a regression loss. However, IoU has a plateau making it infeasible to optimize in the case of nonoverlapping bounding boxes. In this paper, we address the weaknesses of IoU by introducing a generalized version as both a new loss and a new metric. By incorporating this generalized IoU (GIoU) as a loss into the state-of-the art object detection frameworks, we show a consistent improvement on their performance using both the standard, IoU based, and new, GIoU based, performance measures on popular object detection benchmarks such as PASCAL VOC and MS COCO.

联合交叉（IoU）是在对象检测基准中使用的最流行的评估度量。然而，在优化常用距离损失以回归边界框的参数和最大化该度量值之间存在差距。度量的最佳目标是度量本身。在轴对齐的2D边界框的情况下，可以显示IoU可以直接用作回归损失。然而，IoU具有一个平台，使得在不重叠的边界框的情况下优化是不可行的。在本文中，我们通过引入广义版本作为新损失和新指标来解决IoU的弱点。通过将这种通用IoU（GIoU）作为一种损失纳入最先进的对象检测框架，我们使用基于标准，基于IoU和基于GIoU的新的性能度量对流行对象的性能进行了一致的改进检测基准，如PASCAL VOC和MS COCO。

引言
Bounding box regression is one of the most fundamental components in many 2D/3D computer vision tasks. Tasks such as object localization, multiple object detection, object tracking and instance level segmentation rely on accurate bounding box regression. The dominant trend for improving performance of applications utilizing deep neural networks is to propose either a better architecture backbone [15, 13] or a better strategy to extract reliable local features [6]. However, one opportunity for improvement that is widely ignored is the replacement of the surrogate regression losses such as ‘ 1 and ‘ 2 -norms, with a metric loss calculated based on Intersection over Union (IoU).

边界框回归是许多2D / 3D计算机视觉任务中最基本的组件之一。目标定位，多目标检测，对象跟踪和实例级别分割等任务依赖于精确的边界框回归。利用深度神经网络提高应用性能的主要趋势是提出更好的架构或更好的策略来提取可靠的局部特征。然而，一个被广泛忽视的改进机会是改变回归损失，例如L1L2范数，其中包括根据IOU计算的度量损失。

IoU, also known as Jaccard index, is the most commonly used metric for comparing the similarity between two arbitrary shapes. IoU encodes the shape properties of the objects under comparison, e.g. the widths, heights and locations of two bounding boxes, into the region property and then calculates a normalized measure that focuses on their areas (or volumes). This property makes IoU invariant to the scale of the problem under consideration. Due to this appealing property, all performance measures used to evaluate for segmentation [2,1,25,14], object detection[14,4],and tracking [11, 10] rely on this metric.

IoU，也称为Jaccard索引，是用于比较两个任意形状之间的相似性的最常用度量。 IoU对比较的对象的形状区域属性进行编码，例如两个边界框的宽度，高度和位置，然后计算一个关注其区域（或体积）的标准化度量。此属性使IoU对所考虑问题的规模不变。由于这种吸引人的特性，用于评估分割，物体检测和跟踪的所有性能测量依赖于该度量。

However, it can be shown that there is not a strong correlation between minimizing the commonly used losses,e.g. ‘ n -norms, defined on parametric representation of two bounding boxes in 2D/3D and improving their IoU values.For example, consider the simple 2D scenario in Fig. 1 (a),where the predicted bounding box (black rectangle), and the ground truth box (green rectangle), are represented by their top-left and bottom-right corners, i.e. ( x 1 , y 1 , x 2 , y 2 ) (x_1 ,y_1 ,x_2 ,y_2 ) (x1,y1,x2,y2). For simplicity, let’s assume that the distance, e.g. ‘ 2 -norm, between one of the corners of two boxes is fixed. Therefore any predicted bounding box where the second corner lies on a circle with a fixed radius centered on the second corner of the green rectangle (shown by a gray dashed line circle) will have exactly the same ‘ 2 -norm distance from the ground truth box; however their IoU values can be significantly different (Fig. 1 (a)). The same argument can be extended to any other representation and loss, e.g. Fig. 1 (b). It is intuitive that a good local optimum for these types of objectives may not necessarily be a local optimum for IoU. Moreover, in contrast to IoU, ‘ n -norm objectives defined based on the aforementioned parametric representations are not invariant to the scale of the problem. To this end, several pairs of bounding boxes with the same level of overlap, but different scales due to e.g. perspective, will have different objective values. In addition, some representations may suffer from lack of regularization between the different types of parameters used for the representation. For example, in the center and size representation, ( x c , y c ) (x_c ,y_c ) (xc,yc) is defined on the location space while (w,h) belongs to the size space. Complexity increases as more parameters are incorporated, e.g.rotation, or when adding more dimensions to the problem. To alleviate some of the aforementioned problems, state-of-the-art object detectors introduce the concept of an anchor box [22] as a hypothetically good initial guess. They also define a non-linear representation [19, 5] to naively compensate for the scale changes. Even with these handcrafted changes, there is still a gap between optimizing the regression losses and IoU values.

然而，可以证明在IOU和最小化常用损失函数之间没有很强的相关性，例如。 ’ L n L_n Ln 正则化，定义在2D / 3D中两个边界框的参数化表示，并改善它们的IoU值。例如，考虑图1（a）中的简单2D场景，用左上角和右下角表示预测的边界框（黑色矩形）和真实框（绿色矩形）。为简单起见，我们用 L 2 L_2 L

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

计算机视觉

CVPR2019:Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression 的相关文章

基于ShuffleNetv2-YOLOv4模型的目标检测

目录 1 引言摘要 1 1 说明 1 2替换完成的工程请参考gitee 2 网络结构基础 2 1YOLOv3 2 1 YOLOv4算法 2 3 ShuffleNetv2 2 4 替换后的网络结构 3 实验结果 3 1实验环境配置及数据集介
区域生长算法及其实现

区域生长算法及其实现背景前面我们已经介绍了最大熵分割法 OTSU算法他们都有各自的优缺点通常都不是单独使用这些算法需要和其它算法来结合使用前面两类算法都是单独对图像的灰度信息进行处理不包含图像的空间信息而区域生长算法则包含
GPT-4来了，但大模型的诸多未解之谜仍然未解

导语在3月14日 OpenAI 的 GPT 4 正式发布它拥有多模态能力可以接受图像输入并理解图像内容可接受的文字输入长度增加到 3 2 万个 token 在多种专业和学术基准测试中取得好成绩然而功能强大的 GPT 4 与早期的
【论文阅读】learning with noisy correspondence for cross-modal matching ------ 跨模态匹配，噪声对应

注意本博客非逐字逐句翻译论文是作者阅读论文后根据自己的理解所写预知论文详情请参阅论文原文论文标题 Learning with Noisy Correspondence for Cross modal Matching 作者 Zhe
解决opencv读取（保存）不了路径为中文名的图片办法

读取图片 img cv2 imdecode np fromfile inputpath dtype np uint8 1 保存图片 cv2 imencode jpg rotated img 1 tofile outpath jpg 按自己需
opencv畸变校正的两种方法

opencv中畸变校正有两种方法 1 undistort 直接进行畸变校正 void cv undistort InputArray src 原始图像 OutputArray dst 矫正图像 InputArray cameraMatrix
Sequential Modeling Enables Scalable Learning for Large Vision Models

目录一论文速读 1 1 摘要 1 2 论文概要总结二论文精度 2 1 论文试图解决什么问题 2 2 论文中提到的解决方案之关键是什么 2 3 论文提出的架构和损失函数是什么 2 4 用于定量评估的数据集是什么代码有没有开源 2 5
仅用61行代码，你也能从零训练大模型

本文并非基于微调训练模型而是从头开始训练出一个全新的大语言模型的硬核教程看完本篇你将了解训练出一个大模型的环境准备数据准备生成分词模型训练测试模型等环节分别需要做什么 AI 小白友好文中代码可以直接实操运行欢迎阅读体验目
工业相机与镜头选型方法（含实例）

一相机介绍及选型方法 1 工业相机介绍工业相机与我们手机上面的相机或者我们单反相机不同工业相机它能够使用各种恶劣的工作环境比如说高温高压高尘等工业相机主要有面阵相机和线阵相机线阵相机主要用于检测精度要求很高运动速度很快的场
Far3D：直接干到150m，视觉3D目标检测新思路（AAAI2024）

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取 gt gt 点击进入自动驾驶之心 3D目标检测技术交流群论文作者自动驾驶Daily 编辑自动驾驶之心近来在 Arxiv 读到一篇纯视觉环视感知的新工作它延
人工智能与底层架构：构建智能引擎的技术支柱

导言人工智能与底层架构的交融塑造了智能系统的基石是推动智能时代发展的关键动力本文将深入研究人工智能在底层架构中的关键作用以及它对智能引擎的技术支持探讨人工智能在计算机底层架构中的作用以及这一融合如何塑造数字化未来 1 人工智能与
将yolo格式转化为voc格式：txt转xml(亲测有效)

1 文件目录如下所示对以上目录的解释 1 dataset下面的image文件夹里面装的是数据集的原图片 2 dataset下面的label文件夹里面装的是图片对应得yolo格式标签 3 dataset下面的Annotations文件夹
第二部分相移干涉术

典型干涉图相移干涉术相移干涉术的优点 1 测量精度高 gt 1 1000 条纹边缘跟踪仅为 1 10 边缘 2 快速测量 3 低对比度条纹测量结果良好 4 测量结果不受瞳孔间强度变化的影响独立于整个瞳孔的强度变化 5 在固定网格点获
第二部分相移干涉术

典型干涉图相移干涉术相移干涉术的优点 1 测量精度高 gt 1 1000 条纹边缘跟踪仅为 1 10 边缘 2 快速测量 3 低对比度条纹测量结果良好 4 测量结果不受瞳孔间强度变化的影响独立于整个瞳孔的强度变化 5 在固定网格点获
互操作性(Interoperability)如何影响着机器学习的发展？

互操作性 Interoperability 也称为互用性即两个系统之间有效沟通的能力是机器学习未来发展中的关键因素对于银行业医疗和其他生活服务行业我们期望那些用于信息交换的平台可以在我们需要时无缝沟通我们每个人都有成千上万个数据
什么是“人机协同”机器学习？

人机协同 HITL 是人工智能的一个分支它同时利用人类智能和机器智能来创建机器学习模型在传统的人机协同方法中人们会参与一个良性循环在其中训练调整和测试特定算法通常它的工作方式如下首先对数据进行人工标注这就为模型提供了
友思特分享 | CamSim相机模拟器：极大加速图像处理开发与验证过程

来源友思特机器视觉与光电友思特分享 CamSim相机模拟器极大加速图像处理开发与验证过程原文链接 https mp weixin qq com s IED7Y6R8WE4HmnTiRY8lvg 欢迎关注虹科为您提供最新资讯随着
【OCR】实战使用 - 如何提高识别文字的精准度？

实战使用如何提高文字识别的精准度我们在平常使用OCR的时候经常会出现文字识别不精准的情况我们改如何提高文字识别的精度呢以下是一些提高OCR Optical Character Recognition 光学字符识别文字识别精准度的
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
基于opencv的大米计数统计（详细处理流程＋代码）

在我每周的标准作业清单中有一项是编写计算机视觉算法来计算该图像中米粒的数量因此当我的一个好朋友M给我发了一张纸上的扁豆照片显然是受到上述转发的启发请我帮他数一下谷物的数量时它勾起了我怀旧的回忆因此我在我的旧硬盘上寻找很久以前

随机推荐

python常用函数详解

1 函数的介绍为什么要有函数因为在平时写代码时如果没有函数的话那么将会出现很多重复的代码这样代码重用率就比较低并且这样的代码维护起来也是很有难度的为了解决这些问题就出现了函数用来将一些经常出现的代码进行封装这样就可以在任
爬虫 — Json 模块和 Post 请求

目录一 Json 模块 1 定义 2 方法 2 1 json dumps 2 2 json loads 2 3 json dump 2 4 json load 二 Post 请求三 Post 请求携带 Json 参数案例一 Json
60-200-060-使用-命令-MySQL事务相关命令

1 查询 Mysql 中查询临时修改事务隔离等级查询事务隔离等级 show variables like tx isolation 修改事务隔离等级 set tx isolation READ COMMITTED
JavaWeb学习路线（8）——登录

一基本登录功能一需求根据账号与密码判别用户是否可以登录二实现步骤 Controller接收传递的JSON格式数据使用 RequestBody 实体类进行接收调用Service具体处理 Service创建登录接口实现类调用M
剪辑App的MMKV应用优化实践

作者我爱吃海米导读移动端开发中 IO密集问题在很多时候没有得到充足的重视和解决贸然的把IO导致的卡顿放到异步线程可能会导致真正的问题被掩盖前人挖坑后人踩其实首先要想的是数据存储方式是否合理数据的使用方式是否合理本文介绍度
使用hardhat 开发以太坊智能合约-搭建环境

Web3工具网站点我访问现已上线欢迎使用如有好的意见和建议也欢迎反馈本系列课程第一节使用hardhat开发以太坊智能合约搭建环境第二节使用hardhat开发以太坊智能合约测试合约第三节使用hardhat开发以太坊智
Vue+Axios自动更新

本文首发于我的个人博客本篇文章记录了作者在使用Vue Axios实现前端自动刷新数据时遇到的一个坑点场景需求在一个Vue单页应用中使用VueRouter实现了App组件中点击链接后呈现Component组件的功能 App Vue
oracle 递归查询2

比如模块表 mod 字段 number modId number parentModId varchar modName 从下往上查 select from mod m start with m modId connect by prior
手机上怎么学习计算机,手机投屏到Win10电脑上怎么操作呢？-电脑自学网

大家在玩手机的时候有没有一个苦恼手机屏幕太小了看久了眼睛又累又花好想把手机屏幕投屏到电脑上这样就可以解决问题了下面小编就给大家讲讲手机投屏到Win10电脑上的操作方法方法通过Win10自带的投影功能第一步也是最最最重要的一
用户的管理（APIView）

一用户的增删改查 1 展示所有用户 class AllUser APIView def get self request data User objects all count data count ser UsersSer data m
想学习CTF的一定要看这篇，让你学习效率提升80%

在学习CTF过程中你是否遇到这样的情况下定决心想要学习CTF 不知道从哪里开始找了一堆CTF相关的知识学习但是知识点太凌乱没有统一明确的学习路径又或者理论学习完没有相应的实操环境合天网安实验室 www hetianlab co
验证MYSQL安装成功

MySQL数据库安装完之后不知道是否已经装成功了那么就需要验证一下下面就是通过cmd控制台的验证步骤我已经验证过了是成功的方法 1 如果是win10 打开左下角的小窗户会有最近添加点击这个进入界面如果是win7 点击开始程序
【第16例】IPD开发流程：横向管理工具之袖珍卡

目录前言袖珍卡作者介绍相关课程前言 IPD 本身是一个非常庞杂的体系几乎涵盖了企业的方方面面不仅仅是华为包括一些引入 IPD 的新星科技企业他们对 IPD 的引入也是走了先僵化再优化的一个过程比如说开始的阶段全盘照抄走流
Linux 下恢复profile 文件方法

在配置环境变量时修改profile 文件导致ls 等系统命令不能用不要慌用下面方法可以修复命令行输入 export PATH usr bin usr sbin bin sbin usr X11R6 bin 然后再运行 source
Windows下安装VS2013+Qt5.7.0构建Qt开发环境搭建及解决小番茄无法识别、自动补全Qt的问题

Windows下安装VS2013 Qt5 7 0构建Qt开发环境搭建及解决小番茄无法识别自动补全Qt的问题上一篇已经介绍了Qt的下载地址和在Windows下安装mingw Qt5 7 0 32位的Qt开发环境并实现了简单的hellow
Element type is invalid: expected a string (for built-in components) or a class/function (for compos

错误解释应传过一个 class function 而给了个 object 应为 module exports MyWebView1 却为 module exports MyWebView1
编辑器漏洞、越权、逻辑漏洞（不安全的对象引用、功能级别访问控制缺失）

编辑器漏洞 Ewebeditor编辑器漏洞 Fckeditor编辑器漏洞 ckfinder编辑器漏洞旁注目录越权跨库 CDN绕过旁注在同一个服务器上有多个站点我们要攻击的这个站点假设没有漏洞我们就可以攻击服务器上任意一个站点
论文阅读——Aspect Sentiment Quad Prediction as Paraphrase Generation

Aspect Sentiment Quad Prediction as Paraphrase Generation Abstract 现有的研究通常考虑对部分情绪要素的检测而不是一次预测四个要素本文引入了方面情感四元预测任务 ASQP
git系列之-git branch相关操作

1 常用命令 git branch 查看本地所有分支 git branch r 查看远程所有分支 git branch a 查看本地和远程的所有分支 git branch
CVPR2019:Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression

摘要 Intersection over Union IoU is the most popular evaluation metric used in the object detection benchmarks However the

CVPR2019:Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression

CVPR2019:Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression 的相关文章

随机推荐

热门标签