GaryGao

Results 1 issues of GaryGao

如题; 数据:训练数据使用的是aishell, 模型:LLM模型是Qwen2.5 1.5B,encoder paraformer; 训练使用2张GPU; 模型只能训练一个epoch,执行第二个echo会报错:错误如下: ![Image](https://github.com/user-attachments/assets/081afe81-e975-44fc-9e14-85279e7d14f8) 当输出显示 : “2025-06-09 16:34:19 | INFO | mooer.utils.checpoint_io | checpoint_io.py:10 | Rank 1--> saving model ...” 时,会长时间停止; 此时GPU 利用率100%; 然后会报错,并退出;