【论文笔记】SphereFace: Deep Hypersphere Embedding for Face Recognition

2023-05-16

参考文献： Liu W, Wen Y, Yu Z, et al. SphereFace: Deep Hypersphere Embedding for Face Recognition[J]. arXiv preprint arXiv:1704.08063, 2017.

摘要

之前写过一篇large-marin softmax (L-Softmax) 的介绍，与Softmax Loss 相比，它能够学习区分度更高的特征。基于L-Softmax的改进，这篇paper提出Angular-Softmax（A-Softmax）去学习判别特征，它在超球面流形上强加了一个判别约束，而这个超球面流形本质上与人脸的先验知识位于同一个流形上。A-Softmax在人脸数据库LFW/YTF/MegaFace上的识别结果均优化其它loss函数。与L-Softmax类似，angular margin 同样可以由一个参数 m 来调整。

算法源码

算法介绍

1. Softmax Loss

在介绍A-Softmax之前，我们先来回顾softmax loss。当定义第 $i$ 个输入特征 $\mathbf{x_i}$ 以及它的标签 $y_i$ 时，softmax loss 记为：

L=1N∑iLi=1N∑i−log(efyi∑jefj)

$L= \frac{1}{N} \sum_{i}{L_i}=\frac{1}{N} \sum_{i}{-log(\frac{e^{f_{y_i}}}{\sum_je^{f_j}})}$
其中 fj $f_j$ 表示最终全连接层的类别输出向量 f $\mathbf{f}$ 的第 j $j$ 个元素, N $N$ 为训练样本的个数。由于 f $\mathbf{f}$ 是全连接层的激活函数 W $\mathbf{W}$ 的输出，所以 fyi $f_{y_i}$ 可以表示为 fyi=WTyixi+byi $f_{y_i}=\mathbf{W}_{y_i}^{T}\mathbf{x}_i+b_{y_i}$ , 最终的损失函数又可以写为：

Li=−log(e∥Wyi∥∥xi∥cos(θyi,i)+byi∑je∥Wj∥∥xi∥cos(θj,i)+bj)

$L_i= -log(\frac{e^{\Vert\mathbf{W}_{y_i}\Vert\Vert\mathbf{x}_i\Vert cos(\theta_{y_i,i})+b_{y_i}}} {\sum_j{e^{\Vert\mathbf{W}_j\Vert\Vert\mathbf{x_i}\Vert cos(\theta_{j,i})+b_j}}})$
其中 θ(j,i $\theta(_{j,i}$ 0≤θj,i≤π $0\le\theta_{j,i}\le\pi$ )是 Wj $\mathbf{W}_j$ 和 xi $\mathbf{x}_i$ 之间的夹角。当 Wj=1 $\mathbf{W_j}=1$ ， bj=0 $b_j=0$ 时，我们可以得到一个修改的softmax loss:

Lmodified=−log(e∥xi∥cos(θyi,i)∑je∥xi∥cos(θj,i))

$L_{modified}= -log(\frac{e^{\Vert\mathbf{x}_i\Vert cos(\theta_{y_i,i})}} {\sum_j{e^{\Vert\mathbf{x_i}\Vert cos(\theta_{j,i})}}})$

PS: 与L-Softmax不同的是，作者除了假设 $b_j=0$ ，还将 $\Vert\mathbf{W_j}\Vert$ 设为1。

2. 引入Angular margin

为了便于说明，作者以二分类作为示例。为了将属于类1特征 $\mathbf{x}$ 正确分类，修改后的softmax损失函数要求 $cos(\theta_1)>cos(\theta_2)$ ，即 $\theta_1<\theta_2$ 。本文在此基础上增加一个参数 $m(m\ge2)$ ，此时要正确分类，需使 $cos(m\theta_1)>cos(\theta_2)$ ，即 $\theta_1<\theta_2/m$ ， $\theta_2<\theta_1/m$ 。这样就增强了判决的约束，使得学习出的特征的区分更强。根据这种思想修改的softmax loss函数为：

Lang=−log(e∥xi∥cos(mθyi,i)e∥xi∥cos(mθyi,i)+∑j≠yie∥xi∥cos(θj,i))

$L_{ang}= -log(\frac{e^{\Vert\mathbf{x}_i\Vert cos(m\theta_{y_i,i})}} {e^{\Vert\mathbf{x}_i\Vert cos(m\theta_{y_i,i})}+\sum_{j\neq y_i}{e^{\Vert\mathbf{x}_i\Vert cos(\theta_{j,i})}}})$
其中 0≤θyi,i≤πm $0 \le \theta_{y_i,i}\le \frac{\pi}{m}$ 。与L-Softmax论文中相同，为了保证上式能在CNN中进行前/后向反馈，上式变换为：

Lang=−log(e∥xi∥ψ(θyi,i)e∥xi∥ψ(θyi,i)+∑j≠yie∥xi∥cos(θj,i))

$L_{ang}= -log(\frac{e^{\Vert\mathbf{x}_i\Vert \psi(\theta_{y_i,i})}} {e^{\Vert\mathbf{x}_i\Vert \psi(\theta_{y_i,i})}+\sum_{j\neq y_i}{e^{\Vert\mathbf{x_i}\Vert cos(\theta_{j,i})}}})$
在这里， ψ(θ) $\psi(\theta)$ 可以表示为：

ψ(θ)=(−1)kcos(mθ)−2k,

$\psi(\theta) = (-1)^kcos(m\theta)-2k,$
其中 θ∈[kπm,(k+1)πm] $\theta \in[\frac{k\pi}{m}, \frac{(k+1)\pi}{m}]$ ， k $k$ 是一个整数且 k∈[0,m−1] $k \in [0,m-1]$ 。

我们可以看出， $m$ 的值越大，angular magin也就越大，那么 $m$ 的最小值是多少呢？作者证明了，要使最小的类间距大于最大的类内距，对于二分类问题，需 $m \ge 2+\sqrt 3$ ，对于多分类问题， $m \ge 3$ 。在实验中， $m$ 通常设为4。

下表为不同的Loss函数的决策边界对比：

这里写图片描述

直观分析

为了分析A-Softmax Loss的有效性，作者将初始的Softmax，修改后的Softmax以及A-Softmax在二分类的结果首先用一个简单的二维空间几何表示：

这里写图片描述

可以看到，与前两者相比，A-Softmax在类别的角度维度上的分类更加分明，决策边界明显扩大。同时，从图中我们也可以看出，Softmax 在内在的角度分布特性，这也是作者提到基于Euclidean margin和Softmax融合不能取得较好效果的原因。

各个Loss函数在2D、3D超球面流形的表示如下图所示，对于更高维度的超球面，不好描述，但大家可以脑补下。
这里写图片描述

实验结果

为了证明A-Softmax的有效性，作者构建了Sphere Face的网络，实验在人脸识别数据上进行。训练集采用CASIA-WebFace，测试集分别在LFW/YTF上进行。

$m$ 的影响

可以看出，随着 $m$ 的增大，特征的类别的区分性也就越高。（普遍反应这个图画得非常好，值得学习）

人脸识别测试

在LFW/YTF上，A-Softmax均得了最好好的结果，只比FaceNet略差（采用了更多的训练集）；在MegaFace的数据集上的1：1开集比对和开集1：N搜索，Sphere Face均取得了最佳的结果。
LFW/YTF测试结果

MegaFace测试结果

总结

本文通过增加angular margin的约束，在Softmax的基础上提出了A-Softmax，以此来学习区分力更强的人脸特征Sphereface，并且证明了增强参数 $m$ 的下界。各个人脸识别测试集的实验证明了该方法的有效性。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)