changjian hou

Results 14 comments of changjian hou

> V100,16G吗?那大概是不够的。8bit下单独加载模型就需要至少15G,就更别说包含其他训练需要存储的状态/梯度了。 > > 参考:[https://github.com/ymcui/Chinese-LLaMA-Alpaca#脚注及其他说明](https://github.com/ymcui/Chinese-LLaMA-Alpaca#%E8%84%9A%E6%B3%A8%E5%8F%8A%E5%85%B6%E4%BB%96%E8%AF%B4%E6%98%8E) 32G的V100,但是还是报了显存泄露的错误,我不确定,我设置的参数有没有问题=,=

> V100,16G吗?那大概是不够的。8bit下单独加载模型就需要至少15G,就更别说包含其他训练需要存储的状态/梯度了。 > > 参考:[https://github.com/ymcui/Chinese-LLaMA-Alpaca#脚注及其他说明](https://github.com/ymcui/Chinese-LLaMA-Alpaca#%E8%84%9A%E6%B3%A8%E5%8F%8A%E5%85%B6%E4%BB%96%E8%AF%B4%E6%98%8E) 您给的这个链接不是显存吧,是内存和空间占用的大小吧

> 我们提供的脚本中默认是训练embed_tokens和lm_head的,这两个矩阵参数量较大。如果显存不足,可以尝试不训练embed_tokens和lm_head,将SFT代码中(365~371行) > > ``` > peft_config = LoraConfig( > task_type=TaskType.CAUSAL_LM, > target_modules=target_modules, > inference_mode=False, > r=lora_rank, lora_alpha=lora_alpha, > lora_dropout=lora_dropout, > modules_to_save=modules_to_save) > ``` > > 的`module_to_save`赋值为`None` > > ```python...

> > 我们提供的脚本中默认是训练embed_tokens和lm_head的,这两个矩阵参数量较大。如果显存不足,可以尝试不训练embed_tokens和lm_head,将SFT代码中(365~371行) > > ``` > > peft_config = LoraConfig( > > task_type=TaskType.CAUSAL_LM, > > target_modules=target_modules, > > inference_mode=False, > > r=lora_rank, lora_alpha=lora_alpha, > > lora_dropout=lora_dropout, > > modules_to_save=modules_to_save)...

> 我把docker 容器关了又重新开一下,就好了 老哥,batch size为1时单卡的显存能到多生呀,我用8块A100(40g)能起来吗?

> stage 这块是怎么调整的呀,我没有在脚本和配置文件里发现相关参数 ![image](https://github.com/ymcui/Chinese-LLaMA-Alpaca/assets/26632100/9eebf188-20b7-4457-9210-81862e6a9ec8) ![image](https://github.com/ymcui/Chinese-LLaMA-Alpaca/assets/26632100/642ef18c-4bc0-4824-94a4-57de18fabdde)

7b 是 1.31 调试,训练成功了,13B做推理也没问题

训练方式为 ![image](https://github.com/ymcui/Chinese-LLaMA-Alpaca/assets/26632100/8f5d26fc-8562-4134-a6d7-f72c37dc3894)

> 在[这行](https://github.com/ymcui/Chinese-LLaMA-Alpaca/blob/3e2f2529a4dc0d7567f46f1b2d3431a7d063588b/scripts/run_clm_sft_with_peft.py#L361)后面直接加`modules_to_save=None`试试或者将gradient_checkpointing关掉 因为项目本身的需求,我们将代码进行了适配,如要求peft版本、deepspeed等,因此可能因为训练参数的改动(如可训参数设置)导致代码出现error ,还请见谅~ 😬 您好,我已经安装好你们提到的peft版本了,但是deepspeed,还有其他的库都是什么版本呀 [commit id为13e53fc的Peft](https://github.com/huggingface/peft/tree/13e53fc)