关于 adalomo 没有 loss_scaler 只有 loss_scale 的问题

Open HappyLynn opened this issue 2 years ago • 1 comments

这是如果 clip_grad_norm 不是 None 会有问题，所以对于 adalomo 是不需要 clip_grad_norm 吗？

Nov 29 '23 02:11 HappyLynn

得益于grouped update norm, 在实验中我们观察到使用grad norm与否对adalomo的效果影响不大。并且使用grad norm会减少训练吞吐量，所以如果不是训练特别不稳定，adalomo不建议使用clip_grad_norm。

不过这里应该是个bug，adalomo没有loss_scaler这个属性，我们会之后修正这一点。

Nov 30 '23 13:11 KaiLv69