iamreallyi9

Results 4 comments of iamreallyi9

额外提供一个实验中的信息,是否启用normalized参数对于模型的输出分布有很大的影响,

Thank you very much for your quick reply. I used face3d to generate obj to test the effect, which is not as good as the example. So I suspect that...

感谢您的建议,我计划采用add_tokens的方案,我拿已经训练好的bge,先在我的语料上pretrain,然后微调。 但是我现在有一个担心是,我这样可能会对原始的参数有较大的改变: 因为已经训练好的bge已经是产生用于计算相似度的embedding了,此时我pretrain会让它学习一种为重构句子为目标的embedding,我认为这两者会存在gap,也就是我的pretrain会对参数产生很大变化,而我的第二步微调显然是做不到像你们第二阶段训练bge的资源和效果,最终可能我的模型训练不佳 我关注到[LM-Cocktail],我觉得符合我现在的困境,但我想了解下LM-Cocktail应该在我的pretrain阶段做还是微调时做呢?还是两个阶段都需要呢,这有什么需要参考的原则吗?

补充一下,因为我发现在我的场景里涉及一些专有词汇时bge召回的有些不理想,所以我大概add了200左右的专有词汇token,因为embedding矩阵会增加一些随机参数,我不太确定这个量级是一个什么概念会带来多大影响,,,,如果影响很小的话,我或许可以试试直接继续微调而不pretrain?