CogVLM2 icon indicating copy to clipboard operation
CogVLM2 copied to clipboard

请问CogVLM2是否支持多卡微调?

Open wangdong1992 opened this issue 1 year ago • 5 comments

Feature request / 功能建议

目前打算在V100 16G 4卡微调,但是报错,推理没有问题。 https://github.com/THUDM/CogVLM2/blob/main/finetune_demo/README_zh.md 根据教程,需要每张显卡显存大于57G,请问后面是否可以支持多卡微调?

Motivation / 动机

多卡微调

Your contribution / 您的贡献

wangdong1992 avatar May 23 '24 02:05 wangdong1992

模型forward没有做zero3的适配,要自己改模型结构 另外, 57G微调的是语言模型,vit部分已经冻结了,是微调不了视觉模型的

zRzRzRzRzRzRzR avatar May 23 '24 05:05 zRzRzRzRzRzRzR

@zRzRzRzRzRzRzR 为啥非要zero3?

Sleepychord avatar May 23 '24 06:05 Sleepychord

@zRzRzRzRzRzRzR 为啥非要zero3?

zero2 只能做lm_head, vit的话80G显存不够,调不了,目测是微调代码可能还需要进一步优化

zRzRzRzRzRzRzR avatar May 23 '24 07:05 zRzRzRzRzRzRzR

大神,有计划未来给个能通过zeros3进行sft的模型和指南吗?我们算力内存8*16G

tandakun avatar May 23 '24 08:05 tandakun

我们在努力,但是目前这个模型微调的话需要的显存实在太大,8卡A100都没通

zRzRzRzRzRzRzR avatar May 23 '24 10:05 zRzRzRzRzRzRzR

模型forward没有做zero3的适配,要自己改模型结构 另外, 57G微调的是语言模型,vit部分已经冻结了,是微调不了视觉模型的

如何改模型结构来适配zero3呢,各位有没有好的办法?

tiandazhao avatar May 28 '24 08:05 tiandazhao

我们在努力,但是目前这个模型微调的话需要的显存实在太大,8卡A100都没通

你好,请问当前的代码支持多机多卡训练吗

chensongcan avatar May 30 '24 08:05 chensongcan

不支持zero3,相关的修改我们还没改,支持多机多卡,但是每张卡需要70G以上显存

zRzRzRzRzRzRzR avatar Jun 02 '24 05:06 zRzRzRzRzRzRzR

不支持zero3,相关的修改我们还没改,支持多机多卡,但是每张卡需要70G以上显存

【使用零冗余优化策略2(zero2)时,至少需要73GB的GPU内存,并且需要8个GPU。 】 是说lora zero2微调需要的显存为:73GB*8=584GB吗?并且还是在视觉模块冻结的情况下?

【····'labels_en') # or 'labels_zh' or 'labels' 可以自行修改】 这里如果是labels标识包括中英一起的?

谢谢 对了,我了解到的一位同学,没做结构代码调整,微调了模型,据我所知,他只有4*A100的算力资源

chuangzhidan avatar Jun 26 '24 03:06 chuangzhidan

Feature request / 功能建议

目前打算在V100 16G 4卡微调,但是报错,推理没有问题。 https://github.com/THUDM/CogVLM2/blob/main/finetune_demo/README_zh.md 根据教程,需要每张显卡显存大于57G,请问后面是否可以支持多卡微调?

Motivation / 动机

多卡微调

Your contribution / 您的贡献

hello,我目前正在用v100部署cogvlm2,可是输出稳定是:Floating point exception(core dumped)。之前在4090单卡上部署int4模型没有问题 我想请问您在v100部署时有无不同之处

supersteve2001 avatar Jul 17 '24 02:07 supersteve2001

如何改模型结构来适配zero3呢,大概需要改哪些东西。

guyuchao avatar Jul 20 '24 13:07 guyuchao