MNBVC 我有大量算力，支持开源项目，请大家把数据尽量洗干净

大家好，我是 https://www.zhihu.com/question/570713548/answer/2845310510

记得n年前我也上里屋，哈哈。建议项目建个 Discord，可以在 Discord 找我：https://discord.gg/bDSBUMeFpc

Jan 30 '23 03:01 BlinkDL

1.越往后的包数据清洗的越干净。我们在第一阶段（到本月底，项目成立一个月整，且顺利完成1Tb数据堆量小目标）后，会启动对历史数据压缩包的重新清洗打包工作。 2.我们的判断是，堆量的优先级更高，数据人人能洗。目前数据清洗任务由yufei的组负责，可以去里屋或者Trello向这个组提需求和提供代码(另一个issue中有项目进展Trello的链接)。 3.我们也有将数据集放到huggingface上的精加工计划，目前pomelo在负责其中一块工作，可以去里屋催他。 4.这是一个社区主导的项目，里屋社区是项目主要讨论区。

Jan 30 '23 06:01 esbatmop

另外这里有 900G 中文语料 https://huggingface.co/datasets/oscar-corpus/OSCAR-2201 语料多了之后需要做去重，之前有论文发现过度重复对于模型性能有影响

Jan 30 '23 12:01 BlinkDL

在收录数据时会尽量避免不重复收录. 但是不同来源数据间的去重并不是这个语料集需要考虑的工作. 本语料集对标的是chatGPT训练使用的40T数据,这份包括了网页数据的40T数据也是没有做内部去重的.

Jan 30 '23 13:01 esbatmop

个人建议。现在放到huggingface上的数据属于法律文书甚至还有学习强国上的。这些包含了部分隐私信息的情况。个人任务这部分数据还是暂时不公开或者脱敏的好，不然很容易担责。

Mar 15 '23 07:03 zhiqiangohuo

个人建议。现在放到huggingface上的数据属于法律文书甚至还有学习强国上的。这些包含了部分隐私信息的情况。个人任务这部分数据还是暂时不公开或者脱敏的好，不然很容易担责。

这部分数据是国家有法律法规明确公开公示的。请你指出来包含隐私信息的具体文件。

Mar 22 '23 08:03 esbatmop

在收录数据时会尽量避免不重复收录. 但是不同来源数据间的去重并不是这个语料集需要考虑的工作. 本语料集对标的是chatGPT训练使用的40T数据,这份包括了网页数据的40T数据也是没有做内部去重的.

请教一下chatGPT使用了40T数据，这一信息是从哪里来获得的呢？

Oct 18 '23 07:10 Zoisaang

另外这里有 900G 中文语料 https://huggingface.co/datasets/oscar-corpus/OSCAR-2201 语料多了之后需要做去重，之前有论文发现过度重复对于模型性能有影响

OSCAR-2201是一个多语种的文本库，Huggingface上总共123GB，请问它解压之后含有900GB的中文语料吗？

Oct 25 '23 02:10 xinghuang2050