asirgogogo
asirgogogo
Sure, i set the "actor_rollout_ref.actor.ppo_micro_batch_size=2", OOM is still!!! How can I train when I have no idea where to start?
训练机器:4x8H800 80G
> 你这个报错看起来,升级一下库就可以了。用的是他们推荐的docker镜像吗? 相关的库已经按照这里面的升级了。fsdp下是可以跑通的,现在再尝试mg运行遇到这个问题 # VLLM version >= 0.11.0 for qwen3-vl support, recommend to use container docker://iseekyan/verl:nemo.gptoss_vllm0.11.0 # pip install -U git+https://github.com/ISEEKYAN/mbridge.git # for latest mbridge # pip install -U transformers...
> mbridge的版本问题,你看看你的mbridge/models下面有没有qwen3_vl 版本已经是最新的了,看了下qwen3_vl是有的。 感觉是缺少了hftomcore的转换步骤
> 的 mg还没跑起来,加载都没加载进去。如果是fsdp的话,32卡就可以了
> > > mbridge的版本问题,你看看你的mbridge/models下面有没有qwen3_vl > > > > > > 版本已经是最新的了,看了下qwen3_vl是有的。 > > > > 感觉是缺少了hftomcore的转换步骤 > > 没有的,应该是不需要的,我之前也以为有问题,但是现在能够正常load进来了。或者是你的mbridge调用的版本还是镜像的版本,那个版本不对。 我没有安装te,会不会是这个原因。可以请教下你的te版本是什么吗?https://github.com/NVIDIA/TransformerEngine/tree/main