8张A800(80G)微调Cogagent依然报错: CUDA out of memory
System Info / 系統信息
torch 2.0.1+cu118 torchaudio 2.0.2+cu118 torchvision 0.15.2+cu118 cuda 11.8
Who can help? / 谁可以帮助到您?
Information / 问题信息
- [X] The official example scripts / 官方的示例脚本
- [ ] My own modified scripts / 我自己修改的脚本和任务
Reproduction / 复现过程
按照官方提供的脚本执行:bash finetune_cogagent_lora.sh 模型文件使用的是sat模型权重。
Expected behavior / 期待表现
官方提到微调需要的配置是4张A100即可
跟几张卡没有关系,因为是数据并行,你只要确定单张卡容量能装下配置文件下(bs=1)的一个模型
我也遇到了,除了train_micro_batch_size_per_gpu参数改为1,还有什么版本减少内存呢?
不要使用deepseek 的分布式,直接运行finetune代码,from_pretrain()中设置 device-map=”auto“。 其实就是改成 单线程多GPU形式微调。自动布满全部GPU
或者改成deepspeed 的PP 模式 流水线并行。 不过流水线需要你自己拆解模型为多个层;
跟几张卡没有关系,因为是数据并行,你只要确定单张卡容量能装下配置文件下(bs=1)的一个模型
请问可以修改为模型并行吗(单张卡的内存较小,所以数据并行好像跑不起来)
请问题主这个问题最后怎么解决的?