Nguyen Nhi Thanh Tai comments

Repositories
Issues
Comments

Results 3 comments of


                                            Nguyen Nhi Thanh Tai

ray OOM in tensor parallel

If anybody run vllm on Triton server Triton server will auto run your llm instance on every possible GPU. So if you have 2 GPU and you run --tensor-parallel-size 2....

[BUG] is_zero_init_model is always False when I'm using zero_init!

Maybe this link will help, https://huggingface.co/docs/transformers/main/en/deepspeed?models=pretrained+model#non-trainer-deepspeed-integration

[BUG] is_zero_init_model is always False when I'm using zero_init!

(1) In my experience, you can run ZeRO 3 with SFTrainer or Trainer (2) I dont use accelerate but I use deepspeed command like this ``` deepspeed train.py ``` You...