xtuner 多卡微调报错

单卡qlora微调可正常启动；多卡启动报错：微信图片_20240516154210

May 16 '24 07:05 rourouZ

应该是使用了 zero3?

如果使用了 zero3，请将 transformers 和 bitsandbytes 版本更新到最新

xtuner==0.1.19 transformers==4.40.2 bitsandbytes==0.43.1

如果不想更新版本，可以使用 zero1 或 zero2

May 16 '24 07:05 pppppM

应该是使用了 zero3?

如果使用了 zero3，请将 transformers 和 bitsandbytes 版本更新到最新

xtuner==0.1.19 transformers==4.40.2 bitsandbytes==0.43.1

如果不想更新版本，可以使用 zero1 或 zero2

感谢回复！采用zero1 或 zero2可以了，但是8张V100会报OOM，同样的微调配置在1张4090上可以正常运行，这是什么原因呀？

May 16 '24 09:05 rourouZ

可能是因为 v100 上用不了 flash attention，序列越长，和 4090 的显存差距就会越明显

可以尝试用 zero3 + qlora 来降低显存，否则 llm 部分是没有被切片的，每个显卡上都会有 4bit llm 的显存占用

May 16 '24 10:05 pppppM

前辈我很您一样的情况报错很类似应该怎么修改啊

May 16 '24 13:05 Franklin-L

可能是因为 v100 上用不了 flash attention，序列越长，和 4090 的显存差距就会越明显

可以尝试用 zero3 + qlora 来降低显存，否则 llm 部分是没有被切片的，每个显卡上都会有 4bit llm 的显存占用

zero3成功跑起来了，非常感谢！

May 16 '24 13:05 rourouZ

前辈我很您一样的情况报错很类似应该怎么修改啊

采用zero3跑起来了

May 16 '24 13:05 rourouZ

前辈我很您一样的情况报错很类似应该怎么修改啊

采用zero3跑起来了

我是chatglm3微调，应该怎么用zero3 啊

May 16 '24 13:05 Franklin-L

@Franklin-L 参考这个文档

https://xtuner--664.org.readthedocs.build/zh-cn/664/acceleration/deepspeed.html

May 17 '24 08:05 pppppM

可能是因为 v100 上用不了 flash attention，序列越长，和 4090 的显存差距就会越明显

可以尝试用 zero3 + qlora 来降低显存，否则 llm 部分是没有被切片的，每个显卡上都会有 4bit llm 的显存占用

qlora与zero3现在兼容了吗，我是用lora+zero3跑起来的

May 20 '24 10:05 rourouZ

可能是因为 v100 上用不了 flash attention，序列越长，和 4090 的显存差距就会越明显可以尝试用 zero3 + qlora 来降低显存，否则 llm 部分是没有被切片的，每个显卡上都会有 4bit llm 的显存占用

qlora与zero3现在兼容了吗，我是用lora+zero3跑起来的

前辈您的指令是什么呀我的指令如下跑不起来哎，是lora和zero3

Jun 29 '24 09:06 Franklin-L