128Ghe980

Results 12 comments of 128Ghe980

> 参考评估代码:https://github.com/FlagOpen/FlagEmbedding/blob/master/FlagEmbedding/baai_general_embedding/finetune/eval_msmarco.py#L146 > > 排序指标的测试逻辑:给定一个query, 从候选集corpus中找到相似度最大的k条文本,判断positive是否在这k条样本中。 因此需要一个corpus。没有的话,也可以把所有query的positive都合在一起作为候选集。 明白喽。谢谢

> you are probably using a old version of transformers from doc: > > > Requirements > > transformers>=4.37.0. > > Warning > > 🚨 This is a must because...

> 通义团队的同学你们好! > > 我有个小问题。我看你们sft的代码的时候,你们的attention mask只覆盖了padding的token,并没有覆盖prompt中user和system的部分。请问这是刻意为之吗?因为根据我的历史经验,包括你们1.0的代码,一般微调的时候都是会mask掉user和system的部分的。是否全部计算loss会比只计算assistant的loss的方法获得更好的效果? > > 期待你们的回复! 老哥你代码是直接进transformer包里看的吗?我看他们的例子里直接trainer就完事儿了,没看见细节

> 不是一直都是0,看起来是正常的。 但是,loss很小,说明这个任务过于简单了,模型可能无法学到太多东西。建议增加batch size,以及挖掘难样本,提高任务难度。 ok,谢谢提醒

> 不是一直都是0,看起来是正常的。 但是,loss很小,说明这个任务过于简单了,模型可能无法学到太多东西。建议增加batch size,以及挖掘难样本,提高任务难度。 我算力不是太够,batchsize没法提高了,请问项目支持梯度累计吗?

> 大概几千条就可以较好的微调向量模型,当然在保证质量的情况下微调数据越多越好。 train_group_size,我们一般设为2或者8,效果通常不错。 好的,谢谢。另外问一下,你们那个LLM-embedder输出的embedding维度是多少呢?

> > > 大概几千条就可以较好的微调向量模型,当然在保证质量的情况下微调数据越多越好。 train_group_size,我们一般设为2或者8,效果通常不错。 > > > > > > 好的,谢谢。另外问一下,你们那个LLM-embedder输出的embedding维度是多少呢? > > 是base规模的模型,输出向量768维 ok谢谢,另外还有一个问题,我现在有Q-A问答对和Q-Q query对,这两种能混合起来进行finetune吗?

> > > > > 大概几千条就可以较好的微调向量模型,当然在保证质量的情况下微调数据越多越好。 train_group_size,我们一般设为2或者8,效果通常不错。 > > > > > > > > > > > > 好的,谢谢。另外问一下,你们那个LLM-embedder输出的embedding维度是多少呢? > > > > > > > > > 是base规模的模型,输出向量768维...

> > > > > 大概几千条就可以较好的微调向量模型,当然在保证质量的情况下微调数据越多越好。 train_group_size,我们一般设为2或者8,效果通常不错。 > > > > > > > > > > > > 好的,谢谢。另外问一下,你们那个LLM-embedder输出的embedding维度是多少呢? > > > > > > > > > 是base规模的模型,输出向量768维...

> 可以参考我们之前使用的中文指令:“为这个句子生成表示以用于检索相关文章:”。 直接在q-a数据上加,训练时不设置instruction参数。 ok,明白了,谢谢