swift export 指定 --tensor_parallel_size --gpu_memory_utilization 感觉不管用
swift export 对百川2进行awq量化 指定 --tensor_parallel_size --gpu_memory_utilization 感觉根本不管用,指定4张卡,只会用两张卡,然后就是爆显存
quant_device_map是cpu吗
这个也修改了。baichuan2-7B-chat和openbuddy-llama3-8b在24+22+15这三张卡工61G显存的情况下(第四张卡就不到5G显存),肯定会爆显存。前者最多3轮,后者到16轮,
--quant_n_samples: 量化参数, 默认为256. 当设置为--quant_method awq时, 如果出现量化的时候OOM, 可以适度降低--quant_n_samples和--quant_seqlen. --quant_method gptq通常不会出现量化OOM. --quant_seqlen: 量化参数, 默认为2048.
我指定了--quant_n_samples 64 --quant_seqlen 512 占用不到10G显存,并且最好仅仅指定一张显卡,指定多张显卡容易OOM。
指定 --quant_n_samples 256 --quant_seqlen 1024 最大显存回到23-24G之间,4090最多只能到这个参数
你的量化命令是什么呀
@Jintao-Huang 也就是官网提供的,我在钉钉群里问了一下,修改quant_n_samples和--quant_seqlen变小一些。还有就是我自己试了最好指定一张卡,不要多卡