Fan

Results 4 comments of Fan

> 感谢您的关注!“llama-pro是在llama的基础上添加了8层 identity block,同时进行了通用语料的全参数训练” 您可能在这里有点误解,我们添加8层identity block后并没有进行全参数训练,只是在后面的代码和数学预训练中训练新添加的8层identity block。您提出的实验我们会考虑的,我认为我们的方法区别于您所提出的这个setting在于,我们完全保留了原先LLaMA的参数,只训练了新增加的block,希望通过这个方法保留通用能力,并训练出一些即插即用的block(对于不同领域,您可以用同一个base model然后训练新的层) 请教下@hills-code,关于 “训练出一些即插即用的block” 是否可以理解为:运行block_expansion.py后llama2_7b_hf模型出来的就是带额外扩展的block的model (假如称为llama_pro_8B),然后可以全参训练新扩展的block。我的疑问是:如果我针对两个不同领域分别训练出来了各种block,那么此时我的base model 应该是llama2_7b_hf 还是 llama_pro_8B? 实现即插即用 我理解应该是基于llama_pro_8B+其中一个领域的block参数吧?

> > 运行block_expansion.py后llama2_7b_hf模型出来的就是带额外扩展的block的model (假如称为llama_pro_8B),然后可以全参训练新扩展的block > > 扩展后的带额外的block的model我们不进行全参数训练,只对新增加的block训练;新增加的block是即插即用的模块。 > > 例如可以对数学,代码领域训练新增加的1B参数量的blocks,也可以对其他领域训练新增加的1B参数量的blocks,基座都是原来的llama-7B 'block即插即用' 指的是 llama-7B.load_state_dict(blocks checkpoint) 的意思吗?

> > 'block即插即用' 指的是 llama-7B.load_state_dict(blocks checkpoint) 的意思吗? > > 我的理解应该是llama-8B.load_state_dict(base_model_ckpt + blocks checkpoint) Thanks a lot !