MooER icon indicating copy to clipboard operation
MooER copied to clipboard

模型只能训练一个echo,然后会中断

Open GaryGao99 opened this issue 7 months ago • 2 comments

如题; 数据:训练数据使用的是aishell, 模型:LLM模型是Qwen2.5 1.5B,encoder paraformer; 训练使用2张GPU;

模型只能训练一个epoch,执行第二个echo会报错:错误如下:

Image

当输出显示 : “2025-06-09 16:34:19 | INFO | mooer.utils.checpoint_io | checpoint_io.py:10 | Rank 1--> saving model ...” 时,会长时间停止; 此时GPU 利用率100%; 然后会报错,并退出;

GaryGao99 avatar Jun 09 '25 09:06 GaryGao99

现在MooER的训练会在list层面考虑到epoch,https://github.com/MooreThreads/MooER/blob/e15cb239d1d488cadaf9a962bf9c4a0764fecc84/src/mooer/datasets/speech_dataset_shard.py#L20 如果需要训练多个epoch可以在配置里面设置num_epochs

lzl-mt avatar Jun 10 '25 03:06 lzl-mt

请问您训练的是ASR还是AST还是S2S_chat?

ltydd avatar Aug 21 '25 03:08 ltydd