xtuner 请问chatglm3的lora微调需要多大显存呀

求助关于显存的问题，我用xtuner的qlora配置用24G的显存是可以执行微调的，但是我希望尝试不量化的lora微调就是把关于量化的配置删掉后显示lora微调的显存不够是为什么呀，我采用chatglm3的官方lora微调24G是够的呀，后来我尝试利用双卡微调也是显示不够，是不是双卡不能叠加GPU而是只能加快速度呀，求助前辈们应该如何进行不量化的lora呢

May 16 '24 07:05 Franklin-L

lora 微调的好处就是优化器状态非常少，训练参数也少。在开启 deepspeed 情况下，优化器状态是会切分到多卡的，所以显存占用会变少，但是少的不多。如果你双卡 lora 还是 OOM，可以考虑用 qlora 或者 qlora+zero3

May 17 '24 06:05 hhaAndroid

lora 微调的好处就是优化器状态非常少，训练参数也少。在开启 deepspeed 情况下，优化器状态是会切分到多卡的，所以显存占用会变少，但是少的不多。如果你双卡 lora 还是 OOM，可以考虑用 qlora 或者 qlora+zero3

前辈不知道是不是我指令的问题，我是用的我可以尝试更多的的卡，是不是卡数够多就可以lora 啊

May 17 '24 06:05 Franklin-L

你训练命令不对，你这个训练方法是 dpp，并不是用 deepspeed，单卡的话命令是对的。正确命令要加上 --deepspeed deepspeed_zero2 或者 --deepspeed deepspeed_zero3

May 17 '24 11:05 hhaAndroid

你训练命令不对，你这个训练方法是 dpp，并不是用 deepspeed，单卡的话命令是对的。正确命令要加上 --deepspeed deepspeed_zero2 或者 --deepspeed deepspeed_zero3

前辈我换成了你的指令为什么还是不行呀

Jun 28 '24 10:06 Franklin-L