changjian hou comments

Results 14 comments of


                                            changjian hou

> V100，16G吗？那大概是不够的。8bit下单独加载模型就需要至少15G，就更别说包含其他训练需要存储的状态/梯度了。 > > 参考：[https://github.com/ymcui/Chinese-LLaMA-Alpaca#脚注及其他说明](https://github.com/ymcui/Chinese-LLaMA-Alpaca#%E8%84%9A%E6%B3%A8%E5%8F%8A%E5%85%B6%E4%BB%96%E8%AF%B4%E6%98%8E) 32G的V100，但是还是报了显存泄露的错误，我不确定，我设置的参数有没有问题=，=

请问使用13B进行微调需要多大显存？

> V100，16G吗？那大概是不够的。8bit下单独加载模型就需要至少15G，就更别说包含其他训练需要存储的状态/梯度了。 > > 参考：[https://github.com/ymcui/Chinese-LLaMA-Alpaca#脚注及其他说明](https://github.com/ymcui/Chinese-LLaMA-Alpaca#%E8%84%9A%E6%B3%A8%E5%8F%8A%E5%85%B6%E4%BB%96%E8%AF%B4%E6%98%8E) 您给的这个链接不是显存吧，是内存和空间占用的大小吧

请问使用13B进行微调需要多大显存？

> 我们提供的脚本中默认是训练embed_tokens和lm_head的，这两个矩阵参数量较大。如果显存不足，可以尝试不训练embed_tokens和lm_head，将SFT代码中(365~371行） > > ``` > peft_config = LoraConfig( > task_type=TaskType.CAUSAL_LM, > target_modules=target_modules, > inference_mode=False, > r=lora_rank, lora_alpha=lora_alpha, > lora_dropout=lora_dropout, > modules_to_save=modules_to_save) > ``` > > 的`module_to_save`赋值为`None` > > ```python...

请问使用13B进行微调需要多大显存？

> > 我们提供的脚本中默认是训练embed_tokens和lm_head的，这两个矩阵参数量较大。如果显存不足，可以尝试不训练embed_tokens和lm_head，将SFT代码中(365~371行） > > ``` > > peft_config = LoraConfig( > > task_type=TaskType.CAUSAL_LM, > > target_modules=target_modules, > > inference_mode=False, > > r=lora_rank, lora_alpha=lora_alpha, > > lora_dropout=lora_dropout, > > modules_to_save=modules_to_save)...

deepspeed训练报错

> 我把docker 容器关了又重新开一下，就好了老哥，batch size为1时单卡的显存能到多生呀，我用8块A100（40g）能起来吗？

deepspeed训练报错

> stage 这块是怎么调整的呀，我没有在脚本和配置文件里发现相关参数 ![image](https://github.com/ymcui/Chinese-LLaMA-Alpaca/assets/26632100/9eebf188-20b7-4457-9210-81862e6a9ec8) ![image](https://github.com/ymcui/Chinese-LLaMA-Alpaca/assets/26632100/642ef18c-4bc0-4824-94a4-57de18fabdde)

微调13B模型,官方推荐的cuda和pytorch版本是那个呀

7b 是 1.31 调试，训练成功了，13B做推理也没问题

--modules_to_save 改为None后报错

训练方式为 ![image](https://github.com/ymcui/Chinese-LLaMA-Alpaca/assets/26632100/8f5d26fc-8562-4134-a6d7-f72c37dc3894)

--modules_to_save 改为None后报错

> 在[这行](https://github.com/ymcui/Chinese-LLaMA-Alpaca/blob/3e2f2529a4dc0d7567f46f1b2d3431a7d063588b/scripts/run_clm_sft_with_peft.py#L361)后面直接加`modules_to_save=None`试试或者将gradient_checkpointing关掉因为项目本身的需求，我们将代码进行了适配，如要求peft版本、deepspeed等，因此可能因为训练参数的改动(如可训参数设置)导致代码出现error ，还请见谅~ 😬 您好，我已经安装好你们提到的peft版本了，但是deepspeed，还有其他的库都是什么版本呀 [commit id为13e53fc的Peft](https://github.com/huggingface/peft/tree/13e53fc)