iamreallyi9 comments

Results 4 comments of


                                            iamreallyi9

相似度分布变化的问题

额外提供一个实验中的信息，是否启用normalized参数对于模型的输出分布有很大的影响，

how to make the example jpg+obj+npz?

Thank you very much for your quick reply. I used face3d to generate obj to test the effect, which is not as good as the example. So I suspect that...

感谢您的建议，我计划采用add_tokens的方案，我拿已经训练好的bge，先在我的语料上pretrain，然后微调。但是我现在有一个担心是，我这样可能会对原始的参数有较大的改变：因为已经训练好的bge已经是产生用于计算相似度的embedding了，此时我pretrain会让它学习一种为重构句子为目标的embedding，我认为这两者会存在gap，也就是我的pretrain会对参数产生很大变化，而我的第二步微调显然是做不到像你们第二阶段训练bge的资源和效果，最终可能我的模型训练不佳我关注到[LM-Cocktail]，我觉得符合我现在的困境，但我想了解下LM-Cocktail应该在我的pretrain阶段做还是微调时做呢？还是两个阶段都需要呢，这有什么需要参考的原则吗？

tokenizer的相关问题

补充一下，因为我发现在我的场景里涉及一些专有词汇时bge召回的有些不理想，所以我大概add了200左右的专有词汇token，因为embedding矩阵会增加一些随机参数，我不太确定这个量级是一个什么概念会带来多大影响，，，，如果影响很小的话，我或许可以试试直接继续微调而不pretrain？