CogVLM icon indicating copy to clipboard operation
CogVLM copied to clipboard

8张A800(80G)微调Cogagent依然报错: CUDA out of memory

Open GuoXu-booo opened this issue 2 years ago • 6 comments

System Info / 系統信息

torch 2.0.1+cu118 torchaudio 2.0.2+cu118 torchvision 0.15.2+cu118 cuda 11.8

Who can help? / 谁可以帮助到您?

1

Information / 问题信息

  • [X] The official example scripts / 官方的示例脚本
  • [ ] My own modified scripts / 我自己修改的脚本和任务

Reproduction / 复现过程

按照官方提供的脚本执行:bash finetune_cogagent_lora.sh 模型文件使用的是sat模型权重。

Expected behavior / 期待表现

官方提到微调需要的配置是4张A100即可

GuoXu-booo avatar Apr 10 '24 08:04 GuoXu-booo

跟几张卡没有关系,因为是数据并行,你只要确定单张卡容量能装下配置文件下(bs=1)的一个模型

zRzRzRzRzRzRzR avatar Apr 15 '24 01:04 zRzRzRzRzRzRzR

我也遇到了,除了train_micro_batch_size_per_gpu参数改为1,还有什么版本减少内存呢?

zhanghaobucunzai avatar Apr 24 '24 01:04 zhanghaobucunzai

不要使用deepseek 的分布式,直接运行finetune代码,from_pretrain()中设置 device-map=”auto“。 其实就是改成 单线程多GPU形式微调。自动布满全部GPU

WeiminLee avatar May 15 '24 04:05 WeiminLee

或者改成deepspeed 的PP 模式 流水线并行。 不过流水线需要你自己拆解模型为多个层;

WeiminLee avatar May 15 '24 04:05 WeiminLee

跟几张卡没有关系,因为是数据并行,你只要确定单张卡容量能装下配置文件下(bs=1)的一个模型

请问可以修改为模型并行吗(单张卡的内存较小,所以数据并行好像跑不起来)

ghost avatar Jul 20 '24 11:07 ghost

请问题主这个问题最后怎么解决的?

zhengshuo1 avatar Oct 15 '24 01:10 zhengshuo1