将属性(如颜色、形状、状态、动作)附加到对象类别是一个重要的计算机视觉问题。属性预测最近取得了令人振奋的进展,通常被表述为一个多标签分类问题。然而,在以下方面仍然存在重大挑战:1)预测多个对象类别上的大量属性,2)建模属性的类别依赖性,3)系统地捕获全局和局部场景上下文,以及4)稳健地预测低像素数对象的属性。为了解决这些问题,我们提出了一种新的多类别属性预测深度架构GlideNet,该架构包含三个不同的特征提取器。全局特征提取器识别场景中存在的对象,而局部特征提取器则关注感兴趣对象周围的区域。同时,内部特征(实例特征)提取器使用标准卷积的扩展,称为通知卷积,以利用其二进制掩码检索低像素数对象的特征。GlideNet然后使用带有二进制掩码的选通机制及其自学习类别嵌入来组合密集嵌入。总体而言,全局-局部内在块理解场景的全局上下文,同时关注感兴趣的局部对象的特征。该架构通过类别嵌入来适应基于类别的特征组合。最后,使用组合特征,解释器预测属性,输出的长度由类别决定,从而删除不必要的属性。
创新点:
1. 采用了三种不同的特征抽取器;每个都有特定的目的。全局特征提取器(GFE)捕获全局信息,封装图像中不同对象的信息(它们的位置和类别类型)。局部特征抽取器(LFE)捕获局部信息,封装与对象属性及其类别和二进制掩码相关的信息。最后,实例特征提取器(IFE)封装了有关对象固有属性的信息。它确保我们仅从对象的像素估计特征,不包括其