ms-swift icon indicating copy to clipboard operation
ms-swift copied to clipboard

swift export 指定 --tensor_parallel_size --gpu_memory_utilization 感觉不管用

Open LIUKAI0815 opened this issue 1 year ago • 6 comments

swift export 对百川2进行awq量化 指定 --tensor_parallel_size --gpu_memory_utilization 感觉根本不管用,指定4张卡,只会用两张卡,然后就是爆显存

LIUKAI0815 avatar May 20 '24 15:05 LIUKAI0815

quant_device_map是cpu吗

Jintao-Huang avatar May 21 '24 05:05 Jintao-Huang

这个也修改了。baichuan2-7B-chat和openbuddy-llama3-8b在24+22+15这三张卡工61G显存的情况下(第四张卡就不到5G显存),肯定会爆显存。前者最多3轮,后者到16轮,

LIUKAI0815 avatar May 21 '24 07:05 LIUKAI0815

--quant_n_samples: 量化参数, 默认为256. 当设置为--quant_method awq时, 如果出现量化的时候OOM, 可以适度降低--quant_n_samples--quant_seqlen. --quant_method gptq通常不会出现量化OOM. --quant_seqlen: 量化参数, 默认为2048. 我指定了--quant_n_samples 64 --quant_seqlen 512 占用不到10G显存,并且最好仅仅指定一张显卡,指定多张显卡容易OOM。

LIUKAI0815 avatar May 21 '24 09:05 LIUKAI0815

指定  --quant_n_samples 256  --quant_seqlen 1024   最大显存回到23-24G之间,4090最多只能到这个参数

LIUKAI0815 avatar May 21 '24 09:05 LIUKAI0815

你的量化命令是什么呀

Jintao-Huang avatar May 21 '24 10:05 Jintao-Huang

@Jintao-Huang 也就是官网提供的,我在钉钉群里问了一下,修改quant_n_samples和--quant_seqlen变小一些。还有就是我自己试了最好指定一张卡,不要多卡

LIUKAI0815 avatar May 22 '24 07:05 LIUKAI0815