2021论文解读：Learning To Count Everything

2023-05-16

此文着眼于仅用少量标注样本完成物体计数的任务。

1 研究近况

1.1 小样本

当前的小样本学习研究主要集中在分类任务上，例如图片（物体）分类、文本分类。较少触及检测、分割等任务的，因为小样本学习问题的核心在于快速地识别新类别，相比于分类，检测和分割更加复杂。

2019reweighting
在这里插入图片描述
2019年，第一篇小样本物体检测的论文发布（Few-shot object detection via feature
reweighting），2020年有Few-shot object detection with attention-rpn and multi-relation detector。小样本+物体检测的研究开始密集起来。这些模型大多都有两个分支，一个分支输入支撑集，另一个输入查询集，有Matching Network的影子（Matching Networks for One Shot Learning）。

当然也有用元学习方法的研究，但是比较少，例如Few-shot scene adaptive crowd counting using meta-learning关注的是，在小样本情况下实现人群计数的场景迁移（源域和目标域的背景不同，计数的对象相同——都是人群）。也有用MAML+物体追踪的，例如Tracking by instance detection: A meta-learning approach，用MAML算法来解决在小样本情况下的物体跟踪，但对多尺度或者多类别的识别并不好。

当前罕有直接触及小样本物体计数问题的，更准确地说，是利用小样本实现新类别的计数这一问题。
比较接近这一工作的有2018年提出的GMN模型（Class-agnostic counting），但GMN在测试时，需要较多标注样本来进行微调，离“小样本”这一概念相差较远（仅仅几个标注样本）。

Learning To Count Everything应该算是第一篇关注利用小样本实现新类别计数的论文。

1.2 物体计数

物体计数方面的研究大多关注单个类别的计数。方法可以分为基于检测（老）、基于密度图回归、直接回归等。
三种方法各有优劣：

完美的检测自然可以获得完美的计数，但检测方法需要框标注，物体紧密排列、长宽比大、旋转等问题都容易导致检测方法性能崩塌，加入旋转参数又容易导致锚框数量剧增，训练周期长。
密度图回归方法需要事先设置高斯核的大小，对物体的尺度比较敏感。
直接回归的方法不能看到物体的位置，因此失去了改进的潜在机会。
此文作者选择了基于密度图回归的方法。

2 Learning To Count Everything论文解读

这篇论文发表于CVPR 2021，作者单位是石溪大学。代码已经开源，代码量少得惊人。

2.1贡献

开源了一个小样本物体计数的数据集，共有超过6000张图，140多类物体，平均每张图的物体数量是56。通常每张图只有一类物体有标注（点标注），每张图只有几个物体有额外的框标注（也有点标注）。
提出了一个小样本计数网络FamNet，相比于流行的计数网络，通用性更强。流行的计数网络多数针对单类物体，比如针对人群、动物、细胞、交通工具、植物等。

2.2 网络结构

在这里插入图片描述

输入：训练时输入密度图真值以及原图、几个标注框的位置；测试时输入原图、几个标注框的位置。标注框总是在同一张图上。有别于GMN等模型的两个分支的特点。
feature extraction module：利用resnet 50的前面4个blocks（也就是扔掉了全连接层），但冻结了这4个blocks的参数，不可改变，同时还用了FPN的多尺度来强化特征。
ROI pooling：将标注框所框的特征抠出来，池化成统一的大小。
feature correlation layer：ROI pooling取得的特征和特征提取器获得的特征做相关计算，得到的张量输入到下一层预测密度图。
density prediction module：预测密度图。

2.3 新的损失函数

Min-Count loss：每个框对应位置的物体数量应该至少是1个，若小于1个就产生损失。大于等于1不产生损失，框可能包含超过一个物体。（思考：可否用轮廓标注？这样损失函数就更加精确。）
Perturbation Loss：从目标跟踪的研究借用correlation filter而来的。给定一个需要跟踪的物体以及它的标注框，当一个框位于标注框的位置有最大的响应值，当这个框偏离了标注框，它的响应值根据距离指数型下降。
总的损失：

3 新方法的性能

对比目标检测网络，精度更好，即使目标检测网络已经在某些类别上（COCO数据集里）预训练过。
对比计数网络，通用性更加强，但可能对某种类别计数不如专门训练过的网络。如GMN在CARPK训练过，对汽车的计数精度高，但对其他类别的计数精度较低。
如果增加标注量，FamNet的精度会进一步提升。
更多实验结果可看原论文

4 潜在的改进

工作机制方面：在测试阶段，每张需要计数的图片都需要标注，如果能提供外部图片+标注，可以避免这种情况。
密度图回归计数的固有缺陷：对尺度敏感。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)