Jeremy Sun
Jeremy Sun
您好,同求数据,请问方便分享吗,仅用于个人学习您的代码! 邮箱: [email protected]
没人管管吗
同问,求解答 @zhengsx
你这个应该是数值精度问题. 全量sft所有参数都被更新, 梯度范围会更大, 如果部分参数的梯度值过大, 容易导致训练不稳定, 可能表现为grad_norm为nan. LoRA仅更新低秩插入的权重参数, 梯度空间受限, 训练稳定. 可以先尝试单精度sft, 没问题再半精度并把梯度裁剪到更小的值, 比如1.0试试.
> 还有个问题,grid_mask2d一直都全部是True是嘛,他的作用是不是:1、生成了reg_emb。2训练的时候吧labels和output变成一维。 grid_mask2d = fill(grid_mask2d, mask2d_mat)