jqwang

Results 2 comments of jqwang

> deepspeed3就可以模型参数并行 使用了这个脚步,bash examples/lora_multi_gpu/ds_zero3.sh,还是报显存不够。是还要修改deepspeed的配置文件吗

> 把脚本里的deepspeed config文件换成deepspeed offload呢 可以用cpu进一步缩小gpu显存占用 谢谢,在这个配置文件上测试了,将pin_memory设置为False后,可以正常训练和保存checkpoint。deepspeed3默认支持的应该是FSDP吧