CoLLiE icon indicating copy to clipboard operation
CoLLiE copied to clipboard

关于 adalomo 没有 loss_scaler 只有 loss_scale 的问题

Open HappyLynn opened this issue 2 years ago • 1 comments

image 这是如果 clip_grad_norm 不是 None 会有问题,所以对于 adalomo 是不需要 clip_grad_norm 吗?

HappyLynn avatar Nov 29 '23 02:11 HappyLynn

得益于grouped update norm, 在实验中我们观察到使用grad norm与否对adalomo的效果影响不大。并且使用grad norm会减少训练吞吐量,所以如果不是训练特别不稳定,adalomo不建议使用clip_grad_norm。

不过这里应该是个bug,adalomo没有loss_scaler这个属性,我们会之后修正这一点。

KaiLv69 avatar Nov 30 '23 13:11 KaiLv69