Tianhao Hu
Results
2
comments of
Tianhao Hu
同样存在这个问题,训练的时候也是,我发现多机和单机的显存占用没啥区别。用的deepspeed zero3