SGD with Large Step Sizes Learns Sparse Features
1. 文献简述
1.1. Label Noise SGD Provably Prefers Flat Global Minimizers
很多实验表面,使用噪声标签进行训练可以提高模型泛化。这篇论文 (1) 证明了下面的标签噪声随机梯度下降算法更容易收敛到平坦的局部极小点(平坦的局部极小点具有更好的泛化性)。

更具体一点, 带标签噪声的 SGD 算法具有全局正则效应,其收敛到正则化损失 \(L(\theta)+\lambda R(\theta)\) 的稳定点,即使初始化在一个全局极小点处。并且学习率 (learning rate) 和批次大小 (batch size) 控制着损失项和正则项的平衡,更大学习率和更小的批次有更强的正则化效应。
这篇论文的证明部分对计算机专业的同学很有难度,但结果清晰直观且非常重要,是很好的深度学习理论论文。推荐感兴趣的同学深入研究。
1.2. What Happens After Sgd Reaches Zero Loss?
过难,略!
2. 参考文献
[1] Damian, Alex and Ma, Tengyu and Lee, Jason D., Label {{Noise SGD Provably Prefers Flat Global Minimizers}}, 2021.