rtz1998

Results 1 issues of rtz1998

使用Qwen1.5-7B-Chat在dpo训练的时候出现grad_norm出现Nan值,然后模型不更新 1. 尝试将dtype变成fp32依然出现该情况 ![image](https://github.com/modelscope/swift/assets/48934245/591ad7d7-3d20-4eec-9424-b251164319b5)