swift export 指定 --tensor_parallel_size --gpu_memory_utilization 感觉不管用

Open LIUKAI0815 opened this issue 1 year ago • 6 comments

swift export 对百川2进行awq量化指定 --tensor_parallel_size --gpu_memory_utilization 感觉根本不管用，指定4张卡，只会用两张卡，然后就是爆显存

May 20 '24 15:05 LIUKAI0815

quant_device_map是cpu吗

May 21 '24 05:05 Jintao-Huang

这个也修改了。baichuan2-7B-chat和openbuddy-llama3-8b在24+22+15这三张卡工61G显存的情况下(第四张卡就不到5G显存)，肯定会爆显存。前者最多3轮，后者到16轮，

May 21 '24 07:05 LIUKAI0815

--quant_n_samples: 量化参数, 默认为256. 当设置为--quant_method awq时, 如果出现量化的时候OOM, 可以适度降低--quant_n_samples和--quant_seqlen. --quant_method gptq通常不会出现量化OOM. --quant_seqlen: 量化参数, 默认为2048. 我指定了--quant_n_samples 64 --quant_seqlen 512 占用不到10G显存，并且最好仅仅指定一张显卡，指定多张显卡容易OOM。

May 21 '24 09:05 LIUKAI0815

指定  --quant_n_samples 256  --quant_seqlen 1024   最大显存回到23-24G之间，4090最多只能到这个参数

May 21 '24 09:05 LIUKAI0815

你的量化命令是什么呀

May 21 '24 10:05 Jintao-Huang

@Jintao-Huang 也就是官网提供的，我在钉钉群里问了一下，修改quant_n_samples和--quant_seqlen变小一些。还有就是我自己试了最好指定一张卡，不要多卡

May 22 '24 07:05 LIUKAI0815