Circle Loss A Unified Perspective of Pair Similarity Optimization

这篇论文(1)发现大多数损失函数，如 cross-entropy loss, triplet loss, N-pair loss 等，都可以统一为如下表达式：

\begin{aligned} \mathcal{L}_{uni} & =\log\left[1+\sum_{i=1}^K\sum_{j=1}^L\exp(\gamma(s_n^j-s_p^i+m))\right] \\ & =\log\left[1+\sum_{j=1}^L\exp(\gamma(s_n^j+m))\sum_{i=1}^K\exp(\gamma(-s_p^i))\right], \end{aligned}

其中 \(\gamma\) 是一个缩放因子， \(m\) 是分离的边距， \(s_{n}\) 是类间相似性， \(s_{p}\) 是类内相似性。优化它也就是在减少 \((s_{n}-s_{p})\)，即最小化类间相似性 (\(s_{n}\)) 和最大化类内相似性 (\(s_{p}\)) 。该公式是对两种看似截然不同的学习方式的统一表达，即基于类别标签的学习和基于配对标签的学习。

论文指出这些基于优化 \((s_{n}-s_{p})\) 的损失函数有如下两个问题：（1）缺乏优化的灵活性，类间相似性和类内相似性在损失函数中的权重是严格对称相等的；（2）不明确的收敛状态。直觉上，不同的相似性等分应该有不同的惩罚权重，并且相似性得分离最优值越远其惩罚权重应该越大。基于上述洞见，作者提出如下基于 Self-paced Weighting 的损失函数：

\begin{aligned} \mathcal{L}_{circle} & =\log\left[1+\sum_{i=1}^K\sum_{j=1}^L\exp\left(\gamma(\alpha_n^js_n^j-\alpha_p^is_p^i)\right)\right] \\ & =\log\left[1+\sum_{i=1}^L\exp(\gamma\alpha_n^js_n^j)\sum_{i=1}^K\exp(-\gamma\alpha_p^is_p^i)\right], \end{aligned}

其中 \(\alpha_p^i=[O_p-s_p^i]_+, \quad\alpha_n^j=[s_n^j-O_n]_+\) 。

该损失函数在人脸识别 (Face Recognition)、行人再识别 (Person Re-identification) 和细粒度图像检索 (Fine-grained Image Retrieval) 等任务上都表现最优。

非常不错的一篇论文，其将两种看似截然不同的两类学习模式的损失函数用统一的数学公式表示，为剖析当下众多度量学习损失函数，提供了一种统一的视角和深入的洞见。推荐大家阅读。

1. 参考文献

[1] Sun, Yifan and Cheng, Changmao and Zhang, Yuhan and Zhang, Chi and Zheng, Liang and Wang, Zhongdao and Wei, Yichen, Circle {{Loss}}: {{A Unified Perspective}} of {{Pair Similarity Optimization}}, 2020.