MiniCPM
MiniCPM copied to clipboard
[Feature Request]: Lora微调系统内存要求多少呢?
Feature request / 功能建议
使用colab的T4尝试Lora微调,使用了官方给的案例文件,模型是DPO-FP16,但是却迟迟卡顿在一开始的内存上,2小时了也不见动静,是数据太大了吗,要多久才能开始训练?
数据量应该不会影响,之前 lora finetune 的脚本我们在 2080Ti 上测试过是可以 batch size 1 跑通的,方便的话可以贴一下 colab 的共享链接
我用2080ti 22g,能跑lora,wsl下跑,显存占用是15G,但是cuda暂时没能跑满。
我们的实验结果⬆️,15g 可能是没开 offload
我用2080ti 22g,能跑lora,wsl下跑,显存占用是15G,但是cuda暂时没能跑满。