Fan comments

Results 4 comments of

Fan

从 atool-build + dora 到 roadhog

期待mock方案 👍

Question regarding the difference between llama-pro and the regular llama.（关于llama-pro和普通llama之间的区别的疑问）

> 感谢您的关注！“llama-pro是在llama的基础上添加了8层 identity block，同时进行了通用语料的全参数训练” 您可能在这里有点误解，我们添加8层identity block后并没有进行全参数训练，只是在后面的代码和数学预训练中训练新添加的8层identity block。您提出的实验我们会考虑的，我认为我们的方法区别于您所提出的这个setting在于，我们完全保留了原先LLaMA的参数，只训练了新增加的block，希望通过这个方法保留通用能力，并训练出一些即插即用的block（对于不同领域，您可以用同一个base model然后训练新的层）请教下@hills-code，关于 “训练出一些即插即用的block” 是否可以理解为：运行block_expansion.py后llama2_7b_hf模型出来的就是带额外扩展的block的model (假如称为llama_pro_8B)，然后可以全参训练新扩展的block。我的疑问是：如果我针对两个不同领域分别训练出来了各种block，那么此时我的base model 应该是llama2_7b_hf 还是 llama_pro_8B？实现即插即用我理解应该是基于llama_pro_8B+其中一个领域的block参数吧？

Question regarding the difference between llama-pro and the regular llama.（关于llama-pro和普通llama之间的区别的疑问）

> > 运行block_expansion.py后llama2_7b_hf模型出来的就是带额外扩展的block的model (假如称为llama_pro_8B)，然后可以全参训练新扩展的block > > 扩展后的带额外的block的model我们不进行全参数训练，只对新增加的block训练；新增加的block是即插即用的模块。 > > 例如可以对数学，代码领域训练新增加的1B参数量的blocks，也可以对其他领域训练新增加的1B参数量的blocks，基座都是原来的llama-7B 'block即插即用' 指的是 llama-7B.load_state_dict(blocks checkpoint) 的意思吗？

Question regarding the difference between llama-pro and the regular llama.（关于llama-pro和普通llama之间的区别的疑问）

> > 'block即插即用' 指的是 llama-7B.load_state_dict(blocks checkpoint) 的意思吗？ > > 我的理解应该是llama-8B.load_state_dict(base_model_ckpt + blocks checkpoint) Thanks a lot !