MARS(Make vAriance Reduction Shine)是由字节跳动开发的一款创新性优化框架,旨在提升大型模型训练的效率。该框架结合了预条件梯度方法与方差减少技术,并通过缩放随机递归动量技术优化梯度估计。MARS提供了灵活的配置选项,支持全矩阵和对角Hessian近似,从而衍生出多种优化算法实例,包括基于AdamW、Lion和Shampoo的变体。实验结果显示,MARS在训练GPT-2模型时相比传统AdamW优化器表现出显著优势。
MARS(Make vAriance Reduction Shine)是由字节跳动开发的一款创新性优化框架,旨在提升大型模型训练的效率。该框架结合了预条件梯度方法与方差减少技术,并通过缩放随机递归动量技术优化梯度估计。MARS提供了灵活的配置选项,支持全矩阵和对角Hessian近似,从而衍生出多种优化算法实例,包括基于AdamW、Lion和Shampoo的变体。实验结果显示,MARS在训练GPT-2模型时相比传统AdamW优化器表现出显著优势。
发表评论 取消回复