libingbingd
libingbingd
求大佬帮忙看下为啥,写代码这个api接口是可以调通的
引用:是可以尝试的,但需要注意一些潜在的问题:由于会使用In-batch的negative,如果同一个batch出现了两个一样的query,那么另一个query的正样本会被错误的当成当前query的负样本;同时也有可能某个query数据过多,过多的优化那个query。 ---------------------------------------------------------- 没太理解这个: 我的数据集是这样{query:"A", pos:["B","C","D"], neg:["E","F","G"]} 就是pos里是个列表,发现微调完效果并不好; 然后我就把pos都拆开了,上边的一条拆成3条: {query:"A", pos:["B"], neg:["E","F","G"]} {query:"A", pos:["C"], neg:["E","F","G"]} {query:"A", pos:["D"], neg:["E","F","G"]} 拆分后的效果有明显的提升; 按照您说的那个意思是C和D的正样本被错误的当成query:A的负样本?
我的为啥效果会提升这么明显, 参数设置:--num_train_epochs=5 \ --per_device_train_batch_size=10
怎么看有没有在一个batch里呢