FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

微调的训练数据

Open Vincent2Liu opened this issue 2 years ago • 3 comments

想问一下bge-large-zh模型微调的三元组数据有开源出来的吗,自己构造训练数据效率有点慢,想先在开源数据集上微调一下看看效果

Vincent2Liu avatar Sep 27 '23 01:09 Vincent2Liu

我们构造的数据集在https://data.baai.ac.cn/details/BAAI-MTP 。也可以使用一些开源的标签数据进行尝试,如T2ranking。

staoxiao avatar Sep 27 '23 07:09 staoxiao

我们构造的数据集在https://data.baai.ac.cn/details/BAAI-MTP 。也可以使用一些开源的标签数据进行尝试,如T2ranking。

这个数据集太大了,有六百多个G,可以切出来一些小的数据集出来啊

kxleee avatar Sep 27 '23 10:09 kxleee

搭车问一个问题,微调数据集的格式为{"query": str, "pos": List[str], "neg":List[str]},下载了智源的训练bge embedding的数据集,如 {'query': '很差的一本书', 'pos': ['很差的一本书,内容空泛,有的章节还文不对题' ], 'neg': ['冲着这个牌子一贯的高颜值,在特价时入手一两个还是极好的,吸管杯大小合适一岁宝宝开始自己拿,不过不经摔和图案掉漆是硬伤,喜欢这个牌子的可以姑且买之,价格合适时推荐。亚马逊正品保真,送货快,比自己海淘方便划算', '偏大,不是很满意,中间那段还是类似松紧带。', '质量不错…不过还没上身试…不知道上身效果如何…', '好像是姚老师上课的讲稿,非常通俗生动,十分有趣,文科小白也觉得压力不大。我想所谓大家可能就是这样吧,做人深藏不露,叙事深入浅出,从不会没事儿抖个机灵、掉个书袋。', '鞋子穿了不到两周,鞋底的logo脱落,找售后说超过规定时间不退不换,跟亚瑟士官方联系,竟然我回复我不影响使用,不予退换,我日了狗了,你们嚣张,我就这里发发牢骚', '电镀漆的效果一般,做工质量粗糙程度一般而已', '申请了退货还发货,找不到联系人,以后还是不来买了', '砂比较细腻,不会伤到脸,用完以后脸滑滑的,还是不错的', '书从管理的多维度,对建筑建设过程中的管理,做了系统性的介绍。', '因为工作的需要购买的,书是正版。质量好,有需要教材的亲可以考虑购买。' ]},这里面有两个点不太明白,一是关于query,按照RAG场景下使用的情况,这个query应该是个问句,如“这本书怎么样?“,但在下载下来的数据集中,这个query是个陈述句;二是落地到具体某一个业务场景(如法律或其他等)的时候,这个微调数据集如何构建,业务场景的数据就是一大堆质量较好的文档,如何根据这些文档构建query、pos、neg,以微调模型学到场景的embedding?

amutong avatar Jan 23 '24 00:01 amutong