摘要 · 看点
来自商汤基模型团队和香港大学等机构的研究人员提出了一种大批量训练算法 AGVM (Adaptive Gradient Variance Modulator) ,不仅可以适配于目标检测任务,同时也可以适配进各类分割的任务。AGVM 可以把目标检测的训练
批量大小扩大到1536,可以帮助研究人员四分钟训练 Faster R-CNN,3.5小时把 COCO 刷到 62.2 mAP,均打破了目标检测训练速度的世界纪录。
论文名称:Large-batch Optimization for Dense Visual Predictions
Part 1 背景与动机
Part 2 方法介绍
那么,能不能直接把他们拉平呢?这直接引出了 AGVM 算法。以随机梯度下降算法为例,上角标i代表第 i 个网络模块(例如 FPN 等),上角标 1 代表骨干网络, 代表学习率,锚定骨干网络,可以直接将不同网络组件的梯度 g 的方差 :
梯度的方差 可以由以下式子估计:
方差的具体求解细节可以参考原文,本研究同样引入了滑动平均机制,防止网络训练发散。同时,研究证明了 AGVM 在非凸情况下的收敛性,讨论了动量以及衰减的处理方式,具体实现细节可以参考原文。
Part 3 实验过程
本研究首先在目标检测、实例分割、全景分割和语义分割的各种密集预测网络上进行了测试,通过下表可以看到,当用标准批量大小训练时,AGVM 相较传统方法没有明显优势,但当在超大批量下训练时,AGVM 相较传统方法拥有压倒性的优势,下图第二列从左至右分别表示目标检测,实例分割,全景分割和语义分割的表现,AGVM 超越了有史以来的所有方法:
下表详细对比了 AGVM 和传统方法,体现出了本研究方法的优势:
同时,为了说明 AGVM 的优越性,本研究进行了以下三个超大规模的实验。研究人员把 Faster R-CNN 的 batch size 放到了 1536,这样利用 768 张 A100 可以在 4.2 分钟内完成训练。其次,借助 UniNet-G,本研究可以在利用 480 张 A100 的情况下,3.5 个小时让模型在 COCO 上达到 62.2mAP(不包括骨干网络预训练的时间),极大的减小了训练时间:
甚至,在 RetinaNet 上,本研究把批量大小扩展到 10K。这在目标检测领域是从未见的批量大小,在如此大的批量下,每一个 epoch 只有十几个迭代次数,AGVM 在如此大的批量下,仍然能展现出很强的稳定性,性能如下图所示:
Part 4 结果分析
论文地址: https://arxiv.org/abs/2210.11078
项目代码: https://github.com/Sense-X/AGVM