【ReID】AlignedReID: Surpassing Human-Level Performance in Person Re-Identification

2023-05-16

【ReID】AlignedReID: Surpassing Human-Level Performance in Person Re-Identification

- - 模型
  - 实验
  - 写作
  - 问题
  - 参考文献

阅读了AlignedReID: Surpassing Human-Level Performance in Person Re-Identification[1]。方法很巧妙，看完源码更是感觉醍醐灌顶，很棒的工作！最终版貌似是AlignedReID++: Dynamically matching local information for person re-identification[2]，之后会阅读一下。
AlignedReID论文URL：https://arxiv.org/pdf/1711.08184.pdf

论文一览：

论文一览.jpg

现有的基于深度学习的行人重识别（ReID），大多关注全局特征，而没有充分利用局部特征信息。有些工作使用切片的局部特征信息，又由于检测框不准、无关背景噪声、行人遮挡、视角变化和运动变形等等诸多原因，使对应图块出现无法匹配，匹配不准的问题。有工作提出引入姿态估计模型，针对姿态关键点进行自动对齐，但又需要引入新的姿态估计网络，带来更多的计算量和资源消耗。

故本文作者还是从切片的思路出发，提出了一种基于切片特征的最短路径动态对齐方法（dynamically match/align），故有标题——AlignedReID（对齐ReID）。该方法得到两个行人图像的切片特征后，计算两个图像切片特征间的距离构造距离矩阵，在“同一个人的两幅图像对应的身体位置，它们的特征也将有更高相似度（距离更小）”的这个假设前提下，利用最短路径规划自动找到相似切片图块进行对齐。该方法应用到局部切片特征的训练当中，并结合全局特征进行联合训练（Mutual Learning）。这样子既结合了对齐过的局部切片特征，又结合了包含整体结构信息的全局特征，可以使行人重识别性能得到更大的提升。

模型

模型结构示意：
模型结构.jpg

如上图Fig. 2，这里CNN使用ResNet50[3]，得到N×2048×7×7的张量（N为batch size），后分为两路处理。

下路为global分支，该张量经过global average pooling和去维数变为N×2048，继续往后计算TriHard loss，跟正常的TriHard loss流程一样，这里记作global loss。要注意的是，实现时还需导出hard mining得到的正负样本索引，他们还要用于上路local分支的计算，这样可以保证local 分支和global 分支的挑选的难样本一致性。

在上路local分支，也是本作的核心，N×2048×7×7的张量通过BN+ReLU+horizontal max pooling层。horizontal max pooling实现height×width：7×7 >> 7×1，所以在设计时kernel size设为(1, width)。得到了N×2048×7的张量后，再经过1×1卷积层（Conv），把channel的2048维降至128维，得到N(batch) x 128(channel) x 7(height)张量，如上图Fig. 2。

这时可以引出第二个前提，即这时候每一条128×1的特征向量代表着Fig. 3左边所示的一个图块，从上到下有7个128×1的向量，所以相当于把图像从上到下分成了7个切片图块。结合global分支的（难）正样本和（难）负样本特征向量（亦为N×128×7），分别计算L2欧氏距离得到两个N×7×7距离张量。后用如下公式对距离张量做归一化：

公式.jpg

画个函数图更好理解该式：

归一化.jpg

归一化后还是N×7×7距离张量，如图Fig. 3，若给每个图块从上到下标号1-7，且用不同颜色表示不同图，则7×7网格上每一个数值代表所对应坐标的两个标号图块的相似度距离。本文在这个距离矩阵基础上，利用最短路径规划算法可以设计一条从左上走到右下的最短路径。文章给出的公式如下：

公式2.jpg

看下图，如果ImageA的1号图块要寻找ImageB中最相似的图块，首先它经过ImageB的1号图块，发现不相似，继续往下走发现2号3号都不相似，直到ImageB的4号图块相似度最高（距离最小），这时候ImageB的4号要回ImageA找，发现与ImageA的5号图块相似度最高，以此类推。整个最短路径即对应着相似图块在保证从上到下不破坏图像结构的基础上，自动进行高相似度切片图块的对齐，因此该算法的核心，是可以得到两张图片自动对齐自动修正后的相似度距离！非常巧妙！非常有趣！

值得一提的是，动态最短路径规划问题也是LeetCode的一个经典编程问题，感兴趣的朋友可以自己编程实现一下，LeetCode问题链接：https://leetcode.com/problems/minimum-path-sum/

一个7×7距离矩阵得到一个自动对齐后的相似度距离，N个呢？所以N×7×7距离张量得到N个距离，之后将它们赋给loss函数，正常计算三元组损失即可，我们记作local loss。

得到local loss和之前的global loss一起作为总的loss进入反向传播的训练当中去更新参数。文章中local分支只用于训练，而不用于测试。原因是联合训练的时候(联合训练更新参数时)已经"将一部分知识传给全局分支"，且这样可以减少计算量，且作者发现单独使用global feature，和global feature与local feature一起使用效果差距不大。

实验

模型在Market1501，CUHK03，CUHK-SYSU进行了分离实验和SOTA实验。

如上图，其中Baseline是没有local分支只有global分支的情况。GL-Baseline是有local分支，但没有Alignment的情况，可以看到不对齐准确率反而还下降了。AlignedReID则要明显优于两个baseline，证明了自动对齐的性能。

如上图，在不同数据集下AlignedReID均超越了SOTA。

文章还进行了一个有趣的实验，找专业的标注员和AlignedReID来PK行人识别任务，如上图，最终AlignedReID打败了人类的最好成绩，这也就是标题的来源——Surpassing Human-Level Performance in Person Re-Identification。但是作者也承认这个结论下得太早了，模型要真正超越人类还有很多的困难。如下图，第一行为待查询图片，第二行为网络得出的top1答案，第三行为正确答案。由此可见特征相似，遮挡，视角姿态变化和无关噪声使行人重识别问题充满挑战。

差距.jpg

文章最后结论是“具有先验结构的端到端学习比“盲目的”端到端学习功能更强大”，这个结论还是有趣的，合直觉的。

写作

（Abstract第3行）Global feature learning benefits greatly from local feature learning, which performs an alignment/ matching by calculating the shortest path between two sets of local features, without requiring extra supervision.
这句话写的真好！表达漂亮！

（Introduction第三段首句）Many CNN-based approaches learn a global feature, without considering the spatial structure of the person.
这里在写作上换了个说法：很多基于CNN的方法学习的是整体特征，而忽略了局部特征>>>很多基于CNN的方法学习的是整体特征，而忽略了人的空间结构。如果是我很可能就想不到后者的表达。

问题

作者发现单独使用global feature，和global feature与local feature一起使用效果差距不大，并进行了解释，作者认为这个原因可能是：“1）the feature map jointly learned is better than learning the global feature only, because we have exploited the structure prior of the person image in the learning stage; 2）with the aid of local feature matching, the global feature can pay more attention to the body of the person, rather than over fitting the background.”
我个人觉得第2点原因比第1点靠谱，第1点并不说明什么。’
“This has a few major drawbacks: 1) inaccurate person detection boxes might impact feature learning, e.g., Figure 1 (a-b); 2) the pose change or non-rigid body deformation makes the metric learning difficult, e.g., Figure 1 (c-d); 3) occluded parts of the human body might introduce irrelevant context into the learned feature, e.g., Figure 1 (e-f); 4) it is nontrivial to emphasis local differences in a global feature, especially when we have to distinguish two people with very similar appearances, e.g.” …
…
…“In other words, the global feature itself, with the aid of local features learning, can greatly address the drawbacks we mentioned above, in our new joint learning framework.”
前段举例总结挺好的，就是后面“greatly address the drawbacks we mentioned above”，我就“？？？”了，我觉得第1点是AlignedReID有解决的，但是2，3和4仍然还需要深入的研究和解决方案的，这里的说法可以更保守和精确一点。

参考文献

[1] Zhang X, Luo H, Fan X, et al. Alignedreid: Surpassing human-level performance
in person re-identification[J]. arXiv preprint arXiv:1711.08184, 2017.

[2] Luo H, Jiang W, Zhang X, et al. AlignedReID++: Dynamically matching local information for person re-identification[J]. Pattern Recognition, 2019, 94: 53-61.

[3] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)