CogVLM 8张A800(80G)微调Cogagent依然报错： CUDA out of memory

torch 2.0.1+cu118 torchaudio 2.0.2+cu118 torchvision 0.15.2+cu118 cuda 11.8

按照官方提供的脚本执行：bash finetune_cogagent_lora.sh 模型文件使用的是sat模型权重。

官方提到微调需要的配置是4张A100即可

Apr 10 '24 08:04 GuoXu-booo

跟几张卡没有关系，因为是数据并行，你只要确定单张卡容量能装下配置文件下（bs=1）的一个模型

Apr 15 '24 01:04 zRzRzRzRzRzRzR

我也遇到了，除了train_micro_batch_size_per_gpu参数改为1，还有什么版本减少内存呢？

Apr 24 '24 01:04 zhanghaobucunzai

不要使用deepseek 的分布式，直接运行finetune代码，from_pretrain()中设置 device-map=”auto“。其实就是改成单线程多GPU形式微调。自动布满全部GPU

May 15 '24 04:05 WeiminLee

或者改成deepspeed 的PP 模式流水线并行。不过流水线需要你自己拆解模型为多个层；

May 15 '24 04:05 WeiminLee

跟几张卡没有关系，因为是数据并行，你只要确定单张卡容量能装下配置文件下（bs=1）的一个模型

请问可以修改为模型并行吗（单张卡的内存较小，所以数据并行好像跑不起来）

Jul 20 '24 11:07 ghost

请问题主这个问题最后怎么解决的？

Oct 15 '24 01:10 zhengshuo1