GaryGao
Results
1
issues of
GaryGao
如题; 数据:训练数据使用的是aishell, 模型:LLM模型是Qwen2.5 1.5B,encoder paraformer; 训练使用2张GPU; 模型只能训练一个epoch,执行第二个echo会报错:错误如下:  当输出显示 : “2025-06-09 16:34:19 | INFO | mooer.utils.checpoint_io | checpoint_io.py:10 | Rank 1--> saving model ...” 时,会长时间停止; 此时GPU 利用率100%; 然后会报错,并退出;