经过简单设置后,MOSS可以在16GB显存的单张显卡上运行
16G显存+32G内存勉强运行,速度比较慢,但也算可以用
只需要把moss_cli_demo.py中31至33行进行简单修改即可
model = load_checkpoint_and_dispatch(
raw_model, model_path, device_map="auto", no_split_module_classes=["MossBlock"], dtype=torch.float16, max_memory={0: "12GiB", "cpu": "26GiB"}
)
这边最大GPU内存设置为12GB是为了给CUDA kernels留出空间以避免OOM 参考:accelerate usage guides
希望可以帮到没有很多卡的业余玩家
人才啊。 GPU不够的地方用CPU来补充吗?
我使用load in 8 bit, 成功加载模型。运行速度也很快。比你这个方法的速度要快。基本上秒出。 我是3090, 24G , 单卡单机。
我使用load in 8 bit, 成功加载模型。运行速度也很快。比你这个方法的速度要快。基本上秒出。 我是3090, 24G , 单卡单机。
不知道load_checkpoint_and_dispatch和load_in_8bit能不能一起用?如果可以的话就可以在更低显存的设备上运行,在中等显存的的机器上避免内存带宽限制导致的性能下降了。
我使用load in 8 bit, 成功加载模型。运行速度也很快。比你这个方法的速度要快。基本上秒出。 我是3090, 24G , 单卡单机。
请问如何修改代码?
我使用load in 8 bit, 成功加载模型。运行速度也很快。比你这个方法的速度要快。基本上秒出。 我是3090, 24G , 单卡单机。
请问如何修改代码?
https://github.com/OpenLMLab/MOSS/issues/38
"12GiB"改成"8GiB" 可以在4070ti 12GB的显卡上跑起来, 就是回答需要5分钟
我买的阿里云gpu服务器,30GiB显存,回答都很慢 十几秒,你们怎么忍受的? max_memory={0: "30GiB", "cpu": "60GiB"}
请问您用的是windows系统吗,您能否将您更改后的moss_cli_demo.py发送过来,谢谢!
尝试使用load_in_8bit 加载 int4的模型,在NVIDIA GeForce RTX 3090 24G一块卡上运行很慢,生成一篇600字的文章要4minute