论文那些事—Learning Deep Features for Discriminative Localization

2023-05-16

1、摘要/背景

论文主要针对图片中不同类别物体定位的弱监督学习问题，提出了基于分类网络的图片识别与定位。在分类模型中，卷积层本身带有物体定位功能，比如一个物体在左上角，那么卷积之后的结果 feature-map在左上角的值会比较大。但分类网络中都带有全连接层，它是将feature-map所有位置的信息综合之后输出，和物体的具体位置无关，只关心最后的分类结果。作者想到丢失物体位置信息就是因为网络末端使用了全连接层，通过使用GAP代替全连接层，从而使卷积网络的定位能力延续到网络的最后一层（GAP并不是本文提出，本文主要讲述使用GAP用于定位）

2、全局平均池化（GAP）和CAM（Class Activation Mapping）

GAP和GMP都是全局池化的方法，也有学者在做弱监督物体定位时采用了这两种方法，而文章之所以选择GAP有以下两个原因：

GMP更关注物体特征最突出的部分，取最大的部分，而GAP则更希望网络识别物体的整个范围，并且在GAP中是可以找到很多突出部分的，即GAP相比于GMP来说识别这个物体的区域损失更小。
GAP的定位能力强于GMP。

这幅图很像热力图，颜色深的地方代表特征区域，虽然CAM（定位图像中与类别相关的区域）可以解释为什么CNN如此分类，但是不能解释CNN为什么可以定位到类别相关的区域。

公式参考表：

CAM的工作机制：

从图中可以看到，经过GAP之后，我们得到了最后一个卷积层每个特征图的均值，通过加权和得到输出(实际中是softmax层的输入)。需要注意的是，对每一个类别C，每个特征图k的均值都有一个对应的。CAM的基本结构就是这样了，下面就是和普通的CNN模型一样训练就可以了。训练完成后才是重头戏：我们如何得到一个用于解释分类结果的热力图呢？其实非常简单，比如说我们要解释为什么分类的结果是羊驼，我们把羊驼这个类别对应的所有取出来，求出它们与自己对应的特征图的加权和即可。由于这个结果的大小和特征图是一致的，我们需要对它进行上采样，叠加到原图上去。

最后一层是强制生成了和目标类别数量一致的特征图，结果GAP以后再通过softmax层得到的结果，这样就给每个特征图赋予了很明确的意义，最后得到的输出：

论文中的预测的类别分数被映射回先前的卷积层以生成类别激活图（CAM）：

GAP操作后输出最后一个卷积层每个单元feature-map的平均值，之后再接一个softmax层用于分类，而该层的所有参数作为权重wck，对前方的GAP得到的feature-map做加权总和得到最后的输出，即CAM输出。此时CAM的输出尺寸和feature-map大小一致，故需要通过上采样方式还原叠加到原图中。（上采样：理解为放大图像，扩充为原图大小）

CAM的可视化是通过fk激活值实现的，激活值越大的地方说明该区域越有可能属于对应某个分类，通过改变图像尺寸，将激活图还原成原图大小的图片，即可得到该分类对应在原图的位置，加权越多的区域颜色亮度越大，在通过设置阈值即可画出覆盖该区域的BBox，从而得到物体在图片中的定位边框。

对于同一张图片，不同的分类对应图片中的物体不一样，从CAM还原到原图时定位区域也不一样（被激活的区域），且和所属分类相对应，证明了该方法的可行性。

3、总结

文章通过CAM，可以通过不使用位置标记，来定位要识别物体的位置。这个技术为很多弱监督学习提供了启发。但是这个方法也有一个致命的缺点：它只能找出物体的一些突出特征的区域，比如狗的头部，这样就导致在定位的时候，容易只定位到物体的一部分。这也是弱监督学习方法一个亟待解决的问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)