希望可以精简一下数据集
首先感谢!非常棒的开源工作,对我的研究帮助很大
但开源的数据集中英文加起来有500多G,这实在是太大了,无论是下载还是处理都几乎无法在一台常规机器上完成
我注意到数据集的格式是{"query": str, "pos": List[str], "neg":List[str]} 是否可以精简出一版只有一个pos和一个neg的数据集版本 pos随机取一个,neg也随机取一个或者用现有的bge模型sample出一个都可以
这将会非常有帮助,谢谢
其实大部分数据就就一个pos和neg。资源不足的话,可以使用一下有标签的小数据集,如t2ranking, dulreader。
你好请问使用的数据集在哪里说明了啊?我也想跑一个自己的模型
MTP数据:https://data.baai.ac.cn/details/BAAI-MTP,微调数据:https://github.com/FlagOpen/FlagEmbedding/tree/master/FlagEmbedding/baai_general_embedding#frequently-asked-questions
其实大部分数据就就一个pos和neg。资源不足的话,可以使用一下有标签的小数据集,如t2ranking, dulreader。
感谢回复,但是我不想损失数据分布和数据质量,能不能帮忙随机sample一下出个10G级别的数据版本,这个量级对个人研究者应该是比较合适的