changjian hou
changjian hou
同问,没有结果
> V100,16G吗?那大概是不够的。8bit下单独加载模型就需要至少15G,就更别说包含其他训练需要存储的状态/梯度了。 > > 参考:[https://github.com/ymcui/Chinese-LLaMA-Alpaca#脚注及其他说明](https://github.com/ymcui/Chinese-LLaMA-Alpaca#%E8%84%9A%E6%B3%A8%E5%8F%8A%E5%85%B6%E4%BB%96%E8%AF%B4%E6%98%8E) 32G的V100,但是还是报了显存泄露的错误,我不确定,我设置的参数有没有问题=,=
> V100,16G吗?那大概是不够的。8bit下单独加载模型就需要至少15G,就更别说包含其他训练需要存储的状态/梯度了。 > > 参考:[https://github.com/ymcui/Chinese-LLaMA-Alpaca#脚注及其他说明](https://github.com/ymcui/Chinese-LLaMA-Alpaca#%E8%84%9A%E6%B3%A8%E5%8F%8A%E5%85%B6%E4%BB%96%E8%AF%B4%E6%98%8E) 您给的这个链接不是显存吧,是内存和空间占用的大小吧
> 我们提供的脚本中默认是训练embed_tokens和lm_head的,这两个矩阵参数量较大。如果显存不足,可以尝试不训练embed_tokens和lm_head,将SFT代码中(365~371行) > > ``` > peft_config = LoraConfig( > task_type=TaskType.CAUSAL_LM, > target_modules=target_modules, > inference_mode=False, > r=lora_rank, lora_alpha=lora_alpha, > lora_dropout=lora_dropout, > modules_to_save=modules_to_save) > ``` > > 的`module_to_save`赋值为`None` > > ```python...
> > 我们提供的脚本中默认是训练embed_tokens和lm_head的,这两个矩阵参数量较大。如果显存不足,可以尝试不训练embed_tokens和lm_head,将SFT代码中(365~371行) > > ``` > > peft_config = LoraConfig( > > task_type=TaskType.CAUSAL_LM, > > target_modules=target_modules, > > inference_mode=False, > > r=lora_rank, lora_alpha=lora_alpha, > > lora_dropout=lora_dropout, > > modules_to_save=modules_to_save)...
> 我把docker 容器关了又重新开一下,就好了 老哥,batch size为1时单卡的显存能到多生呀,我用8块A100(40g)能起来吗?
> stage 这块是怎么调整的呀,我没有在脚本和配置文件里发现相关参数  
7b 是 1.31 调试,训练成功了,13B做推理也没问题
训练方式为 
> 在[这行](https://github.com/ymcui/Chinese-LLaMA-Alpaca/blob/3e2f2529a4dc0d7567f46f1b2d3431a7d063588b/scripts/run_clm_sft_with_peft.py#L361)后面直接加`modules_to_save=None`试试或者将gradient_checkpointing关掉 因为项目本身的需求,我们将代码进行了适配,如要求peft版本、deepspeed等,因此可能因为训练参数的改动(如可训参数设置)导致代码出现error ,还请见谅~ 😬 您好,我已经安装好你们提到的peft版本了,但是deepspeed,还有其他的库都是什么版本呀 [commit id为13e53fc的Peft](https://github.com/huggingface/peft/tree/13e53fc)