CoLLiE
CoLLiE copied to clipboard
关于 adalomo 没有 loss_scaler 只有 loss_scale 的问题
这是如果 clip_grad_norm 不是 None 会有问题,所以对于 adalomo 是不需要 clip_grad_norm 吗?
得益于grouped update norm, 在实验中我们观察到使用grad norm与否对adalomo的效果影响不大。并且使用grad norm会减少训练吞吐量,所以如果不是训练特别不稳定,adalomo不建议使用clip_grad_norm。
不过这里应该是个bug,adalomo没有loss_scaler这个属性,我们会之后修正这一点。