Battle of the Backbones: A Large-Scale Comparison of Pretrained Models
大概在 2020 年前,计算机视觉任务中流行的主干网络主要还是随机初始化或者用 ImageNet 预训练的 CNN,其中残差网络 (ResNet) 最受欢迎。最近随着自监督学习 (SSL) 和 ViTs 的流行,涌现了许多用不同数据集训练的基于 SSL 训练方法和 ViTs 网络结构的主干网络。这篇要讲的论文(1)详细的比较了这些主干网络,阐明了这些方法的优缺点,为业界和学界构建计算机视觉系统提供了指导方向。
下面是论文的一些主要结论:
- 现代架构 (ConvNeXt-Base) 的性能明显优于普通的 ViTs 。
- 在同等数据量的前提下,SSL 模型的性能优于监督训练的同类模型。
- 在大型训练集上以监督方式预训练的卷积神经网络在大多数任务上仍然表现最佳。
- ViT 比 CNN 对预训练数据量和参数数量更敏感。
- ViT 比 CNN 更受益于规模,如果在更大规模的网络上,ViT 的性能可能超过 CNN 。
- 跨任务的性能强相关的:在 BoB 中表现最好的主干模型,在其他任务和设定中也普遍较好。
- Transformers 在端到端的预训练下表现更出色;CNN 在
linear probing
的预训练下表现更出色。 - CLIP 预训练在所有普通 ViTs 中表现最好,基于 Vision-Language 的 预训练方法有不错的前景。
- CNN 和 SSL 对对抗样本更健壮;ViT 比 CNN 更容易受到对抗性示例的影响。
论文中包含了更多的结论和实验细节,这里不再细说。非常不错的论文,推荐大家阅读,对了解目前 CV 的研究进展很有帮助,也能有效的指导计算机视觉系统的实践落地。
1. 参考文献
[1] Goldblum, Micah and Souri, Hossein and Ni, Renkun and Shu, Manli and Prabhu, Viraj and Somepalli, Gowthami and Chattopadhyay, Prithvijit and Ibrahim, Mark and Bardes, Adrien and Hoffman, Judy and Chellappa, Rama and Wilson, Andrew G. and Goldstein, Tom, Battle of the {{Backbones}}: {{A Large-Scale Comparison}} of {{Pretrained Models}} across {{Computer Vision Tasks}}, 2023.