asirgogogo comments

Results 9 comments of


                                            asirgogogo

How to set parameters to solve OOM！！！

Sure, i set the "actor_rollout_ref.actor.ppo_micro_batch_size=2", OOM is still!!! How can I train when I have no idea where to start?

if rollout.n is doubled, will the samples used for training doubled too?

same question

【bug】Exception raised from c10_cuda_check_implementation at /opt/conda/conda-bld/pytorch_1720538435607/work/c10/cuda/CUDAException.cpp:43 (most recent call first):

same here

RuntimeError: CUDA error: uncorrectable ECC error encountered！！！

训练机器：4x8H800 80G

ray.exceptions.ActorDiedError: The actor died unexpectedly before finishing this task.

same here

KeyError: <SupportedModel.QWEN3_MOE_VL: 'Qwen3VLMoeForConditionalGeneration'>

> 你这个报错看起来，升级一下库就可以了。用的是他们推荐的docker镜像吗？相关的库已经按照这里面的升级了。fsdp下是可以跑通的，现在再尝试mg运行遇到这个问题 # VLLM version >= 0.11.0 for qwen3-vl support, recommend to use container docker://iseekyan/verl:nemo.gptoss_vllm0.11.0 # pip install -U git+https://github.com/ISEEKYAN/mbridge.git # for latest mbridge # pip install -U transformers...

KeyError: <SupportedModel.QWEN3_MOE_VL: 'Qwen3VLMoeForConditionalGeneration'>

> mbridge的版本问题，你看看你的mbridge/models下面有没有qwen3_vl 版本已经是最新的了，看了下qwen3_vl是有的。感觉是缺少了hftomcore的转换步骤

KeyError: <SupportedModel.QWEN3_MOE_VL: 'Qwen3VLMoeForConditionalGeneration'>

> 的 mg还没跑起来，加载都没加载进去。如果是fsdp的话，32卡就可以了

KeyError: <SupportedModel.QWEN3_MOE_VL: 'Qwen3VLMoeForConditionalGeneration'>

> > > mbridge的版本问题，你看看你的mbridge/models下面有没有qwen3_vl > > > > > > 版本已经是最新的了，看了下qwen3_vl是有的。 > > > > 感觉是缺少了hftomcore的转换步骤 > > 没有的，应该是不需要的，我之前也以为有问题，但是现在能够正常load进来了。或者是你的mbridge调用的版本还是镜像的版本，那个版本不对。我没有安装te，会不会是这个原因。可以请教下你的te版本是什么吗？https://github.com/NVIDIA/TransformerEngine/tree/main