Xueyun Tian
Xueyun Tian
Qwen2.5-Omni 多轮多video/audio的时候,单机多卡z3会卡住,z2+lora不会。但z2+lora在多机多卡的时候会卡住。就是会特别特别特别慢,然后最后报错是NCCL通信超时。
> > > 我也遇到了同样的问题: 使用音频+文本混合数据训练,采用 deepspeed zero3,在训练开始时卡住不动,GPU利用率是100%。 但采用 deepspeed zero2 能正常训练。 目前试了很多 deepspeed版本,均无法正常使用 zero3。 > > > > > > dpo吗 > > 不是dpo,是全量 sft。 同SFT卡住,请问解决了吗?
更新,后续尝试了: ``` buffer_size: 16 preprocessing_batch_size: 16 preprocessing_num_workers: 16 dataloader_num_workers: 16 ``` 内存依旧会缓慢上涨然后爆掉。 llamafactry:0.9.3.dev0 datasets:3.5.0 请大佬帮忙看看plz
我遇到了类似的现象。你稍微等一下应该会发现,GPU的利用率是“一阵一阵”的。我意外发现这个情况是当我copy了2条官方的mllm_video_audio里的数据,构成5条数据,bs=2,accumulate_step = 4。就会发现类似卡住的现象,需要等一阵子,直到最后会直接显示一个巨大的loss,一次更新也没有。具体的解决方案还在尝试和debug。。。。感觉是里面iter数据的时候的问题。
这个应该是torch torchaudio torchvision transformers版本的问题。非常奇怪这个事,就是在有些数据集上能跑,就会怀疑是不是卡住的数据集的问题。但实际上是上述几个包的版本问题。建议从版本问题排查。