Xueyun Tian comments

Results 5 comments of


                                            Xueyun Tian

多机多卡训练时卡住

Qwen2.5-Omni 多轮多video/audio的时候，单机多卡z3会卡住，z2+lora不会。但z2+lora在多机多卡的时候会卡住。就是会特别特别特别慢，然后最后报错是NCCL通信超时。

Qwen-Omni在混合模态数据上dpo训练时，训练卡住

> > > 我也遇到了同样的问题：使用音频+文本混合数据训练，采用 deepspeed zero3，在训练开始时卡住不动，GPU利用率是100%。但采用 deepspeed zero2 能正常训练。目前试了很多 deepspeed版本，均无法正常使用 zero3。 > > > > > > dpo吗 > > 不是dpo，是全量 sft。同SFT卡住，请问解决了吗？

streaming模式下微调Qwen2.5-Omni内存耗尽

更新，后续尝试了： ``` buffer_size: 16 preprocessing_batch_size: 16 preprocessing_num_workers: 16 dataloader_num_workers: 16 ``` 内存依旧会缓慢上涨然后爆掉。 llamafactry:0.9.3.dev0 datasets:3.5.0 请大佬帮忙看看plz

求大佬相助！单卡/多卡lora微调qwen都会卡住，但是无报错信息

我遇到了类似的现象。你稍微等一下应该会发现，GPU的利用率是“一阵一阵”的。我意外发现这个情况是当我copy了2条官方的mllm_video_audio里的数据，构成5条数据，bs=2，accumulate_step = 4。就会发现类似卡住的现象，需要等一阵子，直到最后会直接显示一个巨大的loss，一次更新也没有。具体的解决方案还在尝试和debug。。。。感觉是里面iter数据的时候的问题。

求大佬相助！单卡/多卡lora微调qwen都会卡住，但是无报错信息

这个应该是torch torchaudio torchvision transformers版本的问题。非常奇怪这个事，就是在有些数据集上能跑，就会怀疑是不是卡住的数据集的问题。但实际上是上述几个包的版本问题。建议从版本问题排查。