xtuner icon indicating copy to clipboard operation
xtuner copied to clipboard

多卡微调报错

Open rourouZ opened this issue 1 year ago • 10 comments

单卡qlora微调可正常启动;多卡启动报错: 微信图片_20240516154210

rourouZ avatar May 16 '24 07:05 rourouZ

应该是使用了 zero3?

如果使用了 zero3,请将 transformers 和 bitsandbytes 版本更新到最新

xtuner==0.1.19 transformers==4.40.2 bitsandbytes==0.43.1

如果不想更新版本,可以使用 zero1 或 zero2

pppppM avatar May 16 '24 07:05 pppppM

应该是使用了 zero3?

如果使用了 zero3,请将 transformers 和 bitsandbytes 版本更新到最新

xtuner==0.1.19 transformers==4.40.2 bitsandbytes==0.43.1

如果不想更新版本,可以使用 zero1 或 zero2

感谢回复!采用zero1 或 zero2可以了,但是8张V100会报OOM,同样的微调配置在1张4090上可以正常运行,这是什么原因呀?

rourouZ avatar May 16 '24 09:05 rourouZ

可能是因为 v100 上用不了 flash attention,序列越长,和 4090 的显存差距就会越明显

可以尝试用 zero3 + qlora 来降低显存,否则 llm 部分是没有被切片的,每个显卡上都会有 4bit llm 的显存占用

pppppM avatar May 16 '24 10:05 pppppM

前辈我很您一样的情况报错很类似应该怎么修改啊 image

Franklin-L avatar May 16 '24 13:05 Franklin-L

可能是因为 v100 上用不了 flash attention,序列越长,和 4090 的显存差距就会越明显

可以尝试用 zero3 + qlora 来降低显存,否则 llm 部分是没有被切片的,每个显卡上都会有 4bit llm 的显存占用

zero3成功跑起来了,非常感谢!

rourouZ avatar May 16 '24 13:05 rourouZ

前辈我很您一样的情况报错很类似应该怎么修改啊 image

采用zero3跑起来了

rourouZ avatar May 16 '24 13:05 rourouZ

前辈我很您一样的情况报错很类似应该怎么修改啊 image

采用zero3跑起来了

我是chatglm3微调,应该怎么用zero3 啊

Franklin-L avatar May 16 '24 13:05 Franklin-L

@Franklin-L 参考这个文档

https://xtuner--664.org.readthedocs.build/zh-cn/664/acceleration/deepspeed.html

pppppM avatar May 17 '24 08:05 pppppM

可能是因为 v100 上用不了 flash attention,序列越长,和 4090 的显存差距就会越明显

可以尝试用 zero3 + qlora 来降低显存,否则 llm 部分是没有被切片的,每个显卡上都会有 4bit llm 的显存占用

qlora与zero3现在兼容了吗,我是用lora+zero3跑起来的

rourouZ avatar May 20 '24 10:05 rourouZ

可能是因为 v100 上用不了 flash attention,序列越长,和 4090 的显存差距就会越明显 可以尝试用 zero3 + qlora 来降低显存,否则 llm 部分是没有被切片的,每个显卡上都会有 4bit llm 的显存占用

qlora与zero3现在兼容了吗,我是用lora+zero3跑起来的

前辈您的指令是什么呀我的指令如下跑不起来哎,是lora和zero3 image

Franklin-L avatar Jun 29 '24 09:06 Franklin-L