Battle of the Backbones: A Large-Scale Comparison of Pretrained Models

大概在 2020 年前,计算机视觉任务中流行的主干网络主要还是随机初始化或者用 ImageNet 预训练的 CNN,其中残差网络 (ResNet) 最受欢迎。最近随着自监督学习 (SSL) 和 ViTs 的流行,涌现了许多用不同数据集训练的基于 SSL 训练方法和 ViTs 网络结构的主干网络。这篇要讲的论文(1)详细的比较了这些主干网络,阐明了这些方法的优缺点,为业界和学界构建计算机视觉系统提供了指导方向。

下面是论文的一些主要结论:


论文中包含了更多的结论和实验细节,这里不再细说。非常不错的论文,推荐大家阅读,对了解目前 CV 的研究进展很有帮助,也能有效的指导计算机视觉系统的实践落地。

1. 参考文献

[1] Goldblum, Micah and Souri, Hossein and Ni, Renkun and Shu, Manli and Prabhu, Viraj and Somepalli, Gowthami and Chattopadhyay, Prithvijit and Ibrahim, Mark and Bardes, Adrien and Hoffman, Judy and Chellappa, Rama and Wilson, Andrew G. and Goldstein, Tom, Battle of the {{Backbones}}: {{A Large-Scale Comparison}} of {{Pretrained Models}} across {{Computer Vision Tasks}}, 2023.


Created with Emacs 29.4 (Org mode 9.6.15) by YangXue
Updated: 2025-01-24 Fri 01:33