LIUKAI0815
LIUKAI0815
@jershi425 I'm using the Qwen1.5-14B-Chat
Thank you. It's been solved
这个也修改了。baichuan2-7B-chat和openbuddy-llama3-8b在24+22+15这三张卡工61G显存的情况下(第四张卡就不到5G显存),肯定会爆显存。前者最多3轮,后者到16轮,
--quant_n_samples`: 量化参数, 默认为`256`. 当设置为`--quant_method awq`时, 如果出现量化的时候OOM, 可以适度降低`--quant_n_samples`和`--quant_seqlen`. `--quant_method gptq`通常不会出现量化OOM. --quant_seqlen`: 量化参数, 默认为`2048`. 我指定了--quant_n_samples 64 --quant_seqlen 512 占用不到10G显存,并且最好仅仅指定一张显卡,指定多张显卡容易OOM。
指定 --quant_n_samples 256 --quant_seqlen 1024 最大显存回到23-24G之间,4090最多只能到这个参数
@Jintao-Huang 也就是官网提供的,我在钉钉群里问了一下,修改quant_n_samples和--quant_seqlen变小一些。还有就是我自己试了最好指定一张卡,不要多卡
nlp_mt5_dialogue-rewriting_chinese-base 有没有训练细节
如果训练完之后,可以merge lora 吗
这种情况下我理解应该就只能用QLORA训练了。因为单纯的lora训练就已经是加载16位了,而量化后的awq就是int4了,这样训练的精度就对应不上了。full全量训练应该就不更行了,这是我的理解
@Jintao-Huang 直接用默认的lora训练awq模型吗,默认的lora加载的是16/32位把?