hepj987
hepj987
是有哪些细节我没注意到么?按这个config也启动不起来,一直报: ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: -7) local_rank: 0 (pid: 20863) of binary 这是什么原因? 启动命令不就是accelerate launch src/train_XX.py +应该加的参数 ?
用最新版本的项目是可以用lora训练的,只是很奇怪,看他介绍lora是分两步走的,第一步--pretrained_model_path models 和--use_lora --lora_dropout 0.05只训练一个lora权重,第二步通过--lora_pretrained_model_path --pretrained_model_path models --use_lora --lora_dropout 0.05加载训练好的lora权重再训练。
> 用最新版本的项目是可以用lora训练的,只是很奇怪,看他介绍lora是分两步走的,第一步--pretrained_model_path models 和--use_lora --lora_dropout 0.05只训练一个lora权重,第二步通过--lora_pretrained_model_path --pretrained_model_path models --use_lora --lora_dropout 0.05加载训练好的lora权重再训练。 但是按他这个流程走,lora训练的时候 loss不降 acc也不提升
你lora训练正常么?我lora训练的时候 loss 不降 acc也不升,然后 保存的lora模型 只有几十兆,不知道怎么和原始模型一起拿来推理
@riverzhou 请问llama.cpp你是如何运行的?
现在应该还不支持,要等作者更新了
我在按流程加载7B的模型时也失败,使用generate_lm_deepspeed.py可以加载模型,generate_lm.py加载模型OOM,作者给的generate_chatllama.py脚本也会OOM。然后我按照generate_lm_deepspeed.py的方式对对generate_chatllama.py进行了修改,还是加载不了。有可以正常跑generate_chatllama.py的朋友么?
- > 看到你们新的更新了,但由于我们用的是AMD的卡,所以目前还无法使用新版本的推理方式,目前使用的还是旧版的deepspeed zero3的方式进行的推理,期待你们对cuda外的支持。 - 之前模型转换的问题确实是由于内存不够导致的,zero_pp_rank_XX_mp_rank_XX_到bin格式的转换代码里也有可以优化的地方,不需要加载全部的文件进行转换,加载新文件时释放旧文件可以减小缓存压力。
方便稍微具体说一下么?我试了下linly直接增量训练或者微调是可以的,但是lora微调 loss不下降。是lora需要先转换一下版本么?
感谢回复!我训练的时候没有转hf,我看lora也是基于tencentpretrain做的。linly也可以直接拿来做微调,应该就是tencentpretrain的格式。所以没有转成hf的。我不太理解为什么lora的时候需要转成hf格式的?