Deep Double Descent Where Bigger Models and More Data Hurt

发表在 ICLR 2020 上的这篇论文(1)发现一个有趣的现象:在许多深度学习任务中,当增加模型规模,训练过程中的模型性能会先变差,再变好。

偏差-方差权衡是经典统计学习理论中的一个基本概念。其想法是更高复杂度的模型具有更低偏差和更高方差。当模型容量超过一个阈值,模型过拟合,损失函数中的方差项起主要作用。从这一点来看,增加模型复杂度只会降低性能。但是现代深度神经网络却不是这样,模型越大性能反而越好。

该如何调和上述矛盾的现象呢?这篇论文发现在许多深度学习的设置中存在两个不同的区域。当处于 under-parameterized 区域时,测试误差是模型复杂度的函数,与经典的偏差-方差权衡预测一致呈现 U 型。而当模型充分大时,增加模型复杂度只会减少测试误差。

文章进一步发现 double descent 现象不仅与模型的尺寸的函数,还与训练的 epoch 数相关。综合上述观察,作者提出了一种新的叫做 effective model complexity (EMC) 的复杂度测量方法,并可以通过该复杂性指标来识别这两个不同的深度学习设置区域。

1. 参考文献

[1] Nakkiran, Preetum and Kaplun, Gal and Bansal, Yamini and Yang, Tristan and Barak, Boaz and Sutskever, Ilya, Deep {{Double Descent}}: {{Where Bigger Models}} and {{More Data Hurt}}, 2019.


Created with Emacs 29.4 (Org mode 9.6.15) by YangXue
Updated: 2025-01-24 Fri 01:29