denghj3
denghj3
i have some ideas: when the X is spmatrix, it is right. But when the X is np.ndarray, it will change the whole ndarray to 1?
https://arxiv.org/pdf/1902.10482v2.pdf 网上一搜就有啊
> 这取决于您添加的层数,以及训练的设置,根据我的经验8卡A100-40G是能够支持ctx-length=4096的预训练的,我试过将LoRA的rank调大到1024,使得lora和我们可训练的参数量相近,此时显存占用也是差不多的 噢我理解是llama-pro在预训练时仅需调整新加的block,所以应该远小于全参数训练所需的显存?
> 是的,但是如果新增加的要训练的层很多,同样也会带来很大的显存占用,并且训练的时候其实原有模型的参数也需要load进去,尽管不需要微调 噢噢。感谢回答!~
> 我们添加8层identity block后并没有进行全参数训练,只是在后面的代码和数学预训练中训练新添加的8层identity block。 想请问下,这里添加8层identity block后的预训练时,是只使用了增量的代码和数学数据吗?