CVPR2019:Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression

2023-11-02

摘要
Intersection over Union (IoU) is the most popular evaluation metric used in the object detection benchmarks. However, there is a gap between optimizing the commonly used distance losses for regressing the parameters of a bounding box and maximizing this metric value. The optimal objective for a metric is the metric itself. In the case of axis-aligned 2D bounding boxes, it can be shown that IoU can be directly used as a regression loss. However, IoU has a plateau making it infeasible to optimize in the case of nonoverlapping bounding boxes. In this paper, we address the weaknesses of IoU by introducing a generalized version as both a new loss and a new metric. By incorporating this generalized IoU (GIoU) as a loss into the state-of-the art object detection frameworks, we show a consistent improvement on their performance using both the standard, IoU based, and new, GIoU based, performance measures on popular object detection benchmarks such as PASCAL VOC and MS COCO.

联合交叉(IoU)是在对象检测基准中使用的最流行的评估度量。 然而,在优化常用距离损失以回归边界框的参数和最大化该度量值之间存在差距。 度量的最佳目标是度量本身。 在轴对齐的2D边界框的情况下,可以显示IoU可以直接用作回归损失。 然而,IoU具有一个平台,使得在不重叠的边界框的情况下优化是不可行的。 在本文中,我们通过引入广义版本作为新损失和新指标来解决IoU的弱点。 通过将这种通用IoU(GIoU)作为一种损失纳入最先进的对象检测框架,我们使用基于标准,基于IoU和基于GIoU的新的性能度量对流行对象的性能进行了一致的改进 检测基准,如PASCAL VOC和MS COCO。

引言
Bounding box regression is one of the most fundamental components in many 2D/3D computer vision tasks. Tasks such as object localization, multiple object detection, object tracking and instance level segmentation rely on accurate bounding box regression. The dominant trend for improving performance of applications utilizing deep neural networks is to propose either a better architecture backbone [15, 13] or a better strategy to extract reliable local features [6]. However, one opportunity for improvement that is widely ignored is the replacement of the surrogate regression losses such as ‘ 1 and ‘ 2 -norms, with a metric loss calculated based on Intersection over Union (IoU).

边界框回归是许多2D / 3D计算机视觉任务中最基本的组件之一。 目标定位,多目标检测,对象跟踪和实例级别分割等任务依赖于精确的边界框回归。 利用深度神经网络提高应用性能的主要趋势是提出更好的架构或更好的策略来提取可靠的局部特征。 然而,一个被广泛忽视的改进机会是改变回归损失,例如L1L2范数,其中包括根据IOU计算的度量损失。

IoU, also known as Jaccard index, is the most commonly used metric for comparing the similarity between two arbitrary shapes. IoU encodes the shape properties of the objects under comparison, e.g. the widths, heights and locations of two bounding boxes, into the region property and then calculates a normalized measure that focuses on their areas (or volumes). This property makes IoU invariant to the scale of the problem under consideration. Due to this appealing property, all performance measures used to evaluate for segmentation [2,1,25,14], object detection[14,4],and tracking [11, 10] rely on this metric.

IoU,也称为Jaccard索引,是用于比较两个任意形状之间的相似性的最常用度量。 IoU对比较的对象的形状区域属性进行编码,例如 两个边界框的宽度,高度和位置,然后计算一个关注其区域(或体积)的标准化度量。 此属性使IoU对所考虑问题的规模不变。 由于这种吸引人的特性,用于评估分割,物体检测和跟踪的所有性能测量依赖于该度量。

However, it can be shown that there is not a strong correlation between minimizing the commonly used losses,e.g. ‘ n -norms, defined on parametric representation of two bounding boxes in 2D/3D and improving their IoU values.For example, consider the simple 2D scenario in Fig. 1 (a),where the predicted bounding box (black rectangle), and the ground truth box (green rectangle), are represented by their top-left and bottom-right corners, i.e. ( x 1 , y 1 , x 2 , y 2 ) (x_1 ,y_1 ,x_2 ,y_2 ) (x1,y1,x2,y2). For simplicity, let’s assume that the distance, e.g. ‘ 2 -norm, between one of the corners of two boxes is fixed. Therefore any predicted bounding box where the second corner lies on a circle with a fixed radius centered on the second corner of the green rectangle (shown by a gray dashed line circle) will have exactly the same ‘ 2 -norm distance from the ground truth box; however their IoU values can be significantly different (Fig. 1 (a)). The same argument can be extended to any other representation and loss, e.g. Fig. 1 (b). It is intuitive that a good local optimum for these types of objectives may not necessarily be a local optimum for IoU. Moreover, in contrast to IoU, ‘ n -norm objectives defined based on the aforementioned parametric representations are not invariant to the scale of the problem. To this end, several pairs of bounding boxes with the same level of overlap, but different scales due to e.g. perspective, will have different objective values. In addition, some representations may suffer from lack of regularization between the different types of parameters used for the representation. For example, in the center and size representation, ( x c , y c ) (x_c ,y_c ) (xc,yc) is defined on the location space while (w,h) belongs to the size space. Complexity increases as more parameters are incorporated, e.g.rotation, or when adding more dimensions to the problem. To alleviate some of the aforementioned problems, state-of-the-art object detectors introduce the concept of an anchor box [22] as a hypothetically good initial guess. They also define a non-linear representation [19, 5] to naively compensate for the scale changes. Even with these handcrafted changes, there is still a gap between optimizing the regression losses and IoU values.

然而,可以证明在IOU和最小化常用损失函数之间没有很强的相关性,例如。 ’ L n L_n Ln 正则化,定义在2D / 3D中两个边界框的参数化表示,并改善它们的IoU值。例如,考虑图1(a)中的简单2D场景,用左上角和右下角表示预测的边界框(黑色矩形)和真实框(绿色矩形)。为简单起见,我们用 L 2 L_2 L

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

CVPR2019:Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression 的相关文章

  • 基于ShuffleNetv2-YOLOv4模型的目标检测

    目录 1 引言 摘要 1 1 说明 1 2替换完成的工程请参考gitee 2 网络结构基础 2 1YOLOv3 2 1 YOLOv4算法 2 3 ShuffleNetv2 2 4 替换后的网络结构 3 实验结果 3 1实验环境配置及数据集介
  • 区域生长算法及其实现

    区域生长算法及其实现 背景 前面我们已经介绍了 最大熵分割法 OTSU算法 他们都有各自的优缺点 通常都不是单独使用这些算法 需要和其它算法来结合使用 前面两类算法都是单独对图像的灰度信息进行处理 不包含图像的空间信息 而区域生长算法则包含
  • GPT-4来了,但大模型的诸多未解之谜仍然未解

    导语 在3月14日 OpenAI 的 GPT 4 正式发布 它拥有多模态能力 可以接受图像输入并理解图像内容 可接受的文字输入长度增加到 3 2 万个 token 在多种专业和学术基准测试中取得好成绩 然而 功能强大的 GPT 4 与早期的
  • 【论文阅读】learning with noisy correspondence for cross-modal matching ------ 跨模态匹配,噪声对应

    注意 本博客非逐字逐句翻译论文 是作者阅读论文后根据自己的理解所写 预知论文详情 请参阅论文原文 论文标题 Learning with Noisy Correspondence for Cross modal Matching 作者 Zhe
  • 解决opencv读取(保存)不了路径为中文名的图片办法

    读取图片 img cv2 imdecode np fromfile inputpath dtype np uint8 1 保存图片 cv2 imencode jpg rotated img 1 tofile outpath jpg 按自己需
  • opencv畸变校正的两种方法

    opencv中畸变校正有两种方法 1 undistort 直接进行畸变校正 void cv undistort InputArray src 原始图像 OutputArray dst 矫正图像 InputArray cameraMatrix
  • Sequential Modeling Enables Scalable Learning for Large Vision Models

    目录 一 论文速读 1 1 摘要 1 2 论文概要总结 二 论文精度 2 1 论文试图解决什么问题 2 2 论文中提到的解决方案之关键是什么 2 3 论文提出的架构和损失函数是什么 2 4 用于定量评估的数据集是什么 代码有没有开源 2 5
  • 仅用61行代码,你也能从零训练大模型

    本文并非基于微调训练模型 而是从头开始训练出一个全新的大语言模型的硬核教程 看完本篇 你将了解训练出一个大模型的环境准备 数据准备 生成分词 模型训练 测试模型等环节分别需要做什么 AI 小白友好 文中代码可以直接实操运行 欢迎阅读体验 目
  • 工业相机与镜头选型方法(含实例)

    一 相机介绍及选型方法 1 工业相机介绍 工业相机与我们手机上面的相机或者我们单反相机不同 工业相机它能够使用各种恶劣的工作环境 比如说高温 高压 高尘等 工业相机主要有面阵相机和线阵相机 线阵相机主要用于检测精度要求很高 运动速度很快的场
  • Far3D:直接干到150m,视觉3D目标检测新思路(AAAI2024)

    点击下方 卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 gt gt 点击进入 自动驾驶之心 3D目标检测 技术交流群 论文作者 自动驾驶Daily 编辑 自动驾驶之心 近来在 Arxiv 读到一篇纯视觉环视感知的新工作 它延
  • 人工智能与底层架构:构建智能引擎的技术支柱

    导言 人工智能与底层架构的交融塑造了智能系统的基石 是推动智能时代发展的关键动力 本文将深入研究人工智能在底层架构中的关键作用 以及它对智能引擎的技术支持 探讨人工智能在计算机底层架构中的作用 以及这一融合如何塑造数字化未来 1 人工智能与
  • 将yolo格式转化为voc格式:txt转xml(亲测有效)

    1 文件目录如下所示 对以上目录的解释 1 dataset下面的image文件夹 里面装的是数据集的原图片 2 dataset下面的label文件夹 里面装的是图片对应得yolo格式标签 3 dataset下面的Annotations文件夹
  • 第二部分相移干涉术

    典型干涉图 相移干涉术 相移干涉术的优点 1 测量精度高 gt 1 1000 条纹 边缘跟踪仅为 1 10 边缘 2 快速测量 3 低对比度条纹测量结果良好 4 测量结果不受瞳孔间强度变化的影响 独立于整个瞳孔的强度变化 5 在固定网格点获
  • 第二部分相移干涉术

    典型干涉图 相移干涉术 相移干涉术的优点 1 测量精度高 gt 1 1000 条纹 边缘跟踪仅为 1 10 边缘 2 快速测量 3 低对比度条纹测量结果良好 4 测量结果不受瞳孔间强度变化的影响 独立于整个瞳孔的强度变化 5 在固定网格点获
  • 互操作性(Interoperability)如何影响着机器学习的发展?

    互操作性 Interoperability 也称为互用性 即两个系统之间有效沟通的能力 是机器学习未来发展中的关键因素 对于银行业 医疗和其他生活服务行业 我们期望那些用于信息交换的平台可以在我们需要时无缝沟通 我们每个人都有成千上万个数据
  • 什么是“人机协同”机器学习?

    人机协同 HITL 是人工智能的一个分支 它同时利用人类智能和机器智能来创建机器学习模型 在传统的 人机协同 方法中 人们会参与一个良性循环 在其中训练 调整和测试特定算法 通常 它的工作方式如下 首先 对数据进行人工标注 这就为模型提供了
  • 友思特分享 | CamSim相机模拟器:极大加速图像处理开发与验证过程

    来源 友思特 机器视觉与光电 友思特分享 CamSim相机模拟器 极大加速图像处理开发与验证过程 原文链接 https mp weixin qq com s IED7Y6R8WE4HmnTiRY8lvg 欢迎关注虹科 为您提供最新资讯 随着
  • 【OCR】实战使用 - 如何提高识别文字的精准度?

    实战使用 如何提高文字识别的精准度 我们在平常使用OCR的时候 经常会出现文字识别不精准的情况 我们改如何提高文字识别的精度呢 以下是一些提高OCR Optical Character Recognition 光学字符识别 文字识别精准度的
  • 【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 图像 文章
  • 基于opencv的大米计数统计(详细处理流程+代码)

    在我每周的标准作业清单中 有一项是编写计算机视觉算法来计算该图像中米粒的数量 因此 当我的一个好朋友M给我发了一张纸上的扁豆照片 显然是受到上述转发的启发 请我帮他数一下谷物的数量时 它勾起了我怀旧的回忆 因此 我在我的旧硬盘上寻找很久以前

随机推荐

  • python常用函数详解

    1 函数的介绍 为什么要有函数 因为在平时写代码时 如果没有函数的话 那么将会出现很多重复的代码 这样代码重用率就比较低 并且这样的代码维护起来也是很有难度的 为了解决这些问题 就出现了函数 用来将一些经常出现的代码进行封装 这样就可以在任
  • 爬虫 — Json 模块和 Post 请求

    目录 一 Json 模块 1 定义 2 方法 2 1 json dumps 2 2 json loads 2 3 json dump 2 4 json load 二 Post 请求 三 Post 请求携带 Json 参数案例 一 Json
  • 60-200-060-使用-命令-MySQL事务相关命令

    1 查询 Mysql 中查询 临时修改事务隔离等级 查询事务隔离等级 show variables like tx isolation 修改事务隔离等级 set tx isolation READ COMMITTED
  • JavaWeb学习路线(8)——登录

    一 基本登录功能 一 需求 根据账号与密码判别用户是否可以登录 二 实现步骤 Controller接收传递的JSON格式数据 使用 RequestBody 实体类进行接收 调用Service具体处理 Service创建登录接口 实现类调用M
  • 剪辑App的MMKV应用优化实践

    作者 我爱吃海米 导读 移动端开发中 IO密集问题在很多时候没有得到充足的重视和解决 贸然的把IO导致的卡顿放到异步线程 可能会导致真正的问题被掩盖 前人挖坑后人踩 其实首先要想的是 数据存储方式是否合理 数据的使用方式是否合理 本文介绍度
  • 使用hardhat 开发以太坊智能合约-搭建环境

    Web3工具网站 点我访问 现已上线 欢迎使用 如有好的意见和建议也欢迎反馈 本系列课程 第一节 使用hardhat开发以太坊智能合约 搭建环境 第二节 使用hardhat开发以太坊智能合约 测试合约 第三节 使用hardhat开发以太坊智
  • Vue+Axios自动更新

    本文首发于我的个人博客 本篇文章记录了作者在使用Vue Axios实现前端自动刷新数据时 遇到的一个坑点 场景需求 在一个Vue单页应用中 使用VueRouter实现了App组件中点击链接后呈现Component组件的功能 App Vue
  • oracle 递归查询2

    比如模块表 mod 字段 number modId number parentModId varchar modName 从下往上查 select from mod m start with m modId connect by prior
  • 手机上怎么学习计算机,手机投屏到Win10电脑上怎么操作呢?-电脑自学网

    大家在玩手机的时候有没有一个苦恼 手机屏幕太小了 看久了眼睛又累又花 好想把手机屏幕投屏到电脑上 这样就可以解决问题了 下面小编就给大家讲讲手机投屏到Win10电脑上的操作方法 方法 通过Win10自带的投影功能 第一步 也是最最最重要的一
  • 用户的管理(APIView)

    一 用户的增删改查 1 展示所有用户 class AllUser APIView def get self request data User objects all count data count ser UsersSer data m
  • 想学习CTF的一定要看这篇,让你学习效率提升80%

    在学习CTF过程中你是否遇到这样的情况 下定决心想要学习CTF 不知道从哪里开始 找了一堆CTF相关的知识学习 但是知识点太凌乱 没有统一明确的学习路径 又或者理论学习完 没有相应的实操环境 合天网安实验室 www hetianlab co
  • 验证MYSQL安装成功

    MySQL数据库安装完之后不知道是否已经装成功了 那么就需要验证一下 下面就是通过cmd控制台的验证步骤 我已经验证过了是成功的方法 1 如果是win10 打开左下角的小窗户 会有最近添加 点击这个进入界面 如果是win7 点击开始 程序
  • 【第16例】IPD开发流程:横向管理工具之袖珍卡

    目录 前言 袖珍卡 作者介绍 相关课程 前言 IPD 本身是一个非常庞杂的体系 几乎涵盖了企业的方方面面 不仅仅是华为 包括一些引入 IPD 的新星科技企业 他们对 IPD 的引入也是走了先僵化再优化的一个过程 比如说开始的阶段全盘照抄走流
  • Linux 下恢复profile 文件方法

    在配置环境变量时 修改profile 文件导致ls 等系统命令不能用 不要慌 用下面方法可以修复 命令行 输入 export PATH usr bin usr sbin bin sbin usr X11R6 bin 然后再运行 source
  • Windows下安装VS2013+Qt5.7.0构建Qt开发环境搭建及解决小番茄无法识别、自动补全Qt的问题

    Windows下安装VS2013 Qt5 7 0构建Qt开发环境搭建及解决小番茄无法识别 自动补全Qt的问题 上一篇已经介绍了Qt的下载地址和在Windows下安装mingw Qt5 7 0 32位的Qt开发环境 并实现了简单的hellow
  • Element type is invalid: expected a string (for built-in components) or a class/function (for compos

    错误解释 应传过 一个 class function 而给了个 object 应为 module exports MyWebView1 却为 module exports MyWebView1
  • 编辑器漏洞、越权、逻辑漏洞(不安全的对象引用、功能级别访问控制缺失)

    编辑器漏洞 Ewebeditor编辑器漏洞 Fckeditor编辑器漏洞 ckfinder编辑器漏洞 旁注 目录越权 跨库 CDN绕过 旁注 在同一个服务器上有多个站点 我们要攻击的这个站点假设没有漏洞 我们就可以攻击服务器上任意一个站点
  • 论文阅读——Aspect Sentiment Quad Prediction as Paraphrase Generation

    Aspect Sentiment Quad Prediction as Paraphrase Generation Abstract 现有的研究通常考虑对部分情绪要素的检测 而不是一次预测四个要素 本文引入了方面情感四元预测任务 ASQP
  • git系列之-git branch相关操作

    1 常用命令 git branch 查看本地所有分支 git branch r 查看远程所有分支 git branch a 查看本地和远程的所有分支 git branch
  • CVPR2019:Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression

    摘要 Intersection over Union IoU is the most popular evaluation metric used in the object detection benchmarks However the