FlagEmbedding 希望可以精简一下数据集

首先感谢！非常棒的开源工作，对我的研究帮助很大

但开源的数据集中英文加起来有500多G，这实在是太大了，无论是下载还是处理都几乎无法在一台常规机器上完成

我注意到数据集的格式是{"query": str, "pos": List[str], "neg":List[str]} 是否可以精简出一版只有一个pos和一个neg的数据集版本 pos随机取一个，neg也随机取一个或者用现有的bge模型sample出一个都可以

这将会非常有帮助，谢谢

Dec 14 '23 09:12 awdrgyjilplij

其实大部分数据就就一个pos和neg。资源不足的话，可以使用一下有标签的小数据集，如t2ranking, dulreader。

Dec 19 '23 05:12 staoxiao

你好请问使用的数据集在哪里说明了啊？我也想跑一个自己的模型

Dec 19 '23 12:12 Victoriaheiheihei

MTP数据：https://data.baai.ac.cn/details/BAAI-MTP，微调数据：https://github.com/FlagOpen/FlagEmbedding/tree/master/FlagEmbedding/baai_general_embedding#frequently-asked-questions

Dec 20 '23 06:12 staoxiao

其实大部分数据就就一个pos和neg。资源不足的话，可以使用一下有标签的小数据集，如t2ranking, dulreader。

感谢回复，但是我不想损失数据分布和数据质量，能不能帮忙随机sample一下出个10G级别的数据版本，这个量级对个人研究者应该是比较合适的

Dec 21 '23 12:12 awdrgyjilplij