MNBVC icon indicating copy to clipboard operation
MNBVC copied to clipboard

我有大量算力,支持开源项目,请大家把数据尽量洗干净

Open BlinkDL opened this issue 3 years ago • 7 comments

大家好,我是 https://www.zhihu.com/question/570713548/answer/2845310510

记得n年前我也上里屋,哈哈。建议项目建个 Discord,可以在 Discord 找我:https://discord.gg/bDSBUMeFpc

BlinkDL avatar Jan 30 '23 03:01 BlinkDL

1.越往后的包数据清洗的越干净。我们在第一阶段(到本月底,项目成立一个月整,且顺利完成1Tb数据堆量小目标)后,会启动对历史数据压缩包的重新清洗打包工作。 2.我们的判断是,堆量的优先级更高,数据人人能洗。目前数据清洗任务由yufei的组负责,可以去里屋或者Trello向这个组提需求和提供代码(另一个issue中有项目进展Trello的链接)。 3.我们也有将数据集放到huggingface上的精加工计划,目前pomelo在负责其中一块工作,可以去里屋催他。 4.这是一个社区主导的项目,里屋社区是项目主要讨论区。

esbatmop avatar Jan 30 '23 06:01 esbatmop

另外这里有 900G 中文语料 https://huggingface.co/datasets/oscar-corpus/OSCAR-2201 语料多了之后需要做去重,之前有论文发现过度重复对于模型性能有影响

BlinkDL avatar Jan 30 '23 12:01 BlinkDL

在收录数据时会尽量避免不重复收录. 但是不同来源数据间的去重并不是这个语料集需要考虑的工作. 本语料集对标的是chatGPT训练使用的40T数据,这份包括了网页数据的40T数据也是没有做内部去重的.

esbatmop avatar Jan 30 '23 13:01 esbatmop

个人建议。现在放到huggingface上的数据属于法律文书甚至还有学习强国上的。 这些包含了部分隐私信息的情况。个人任务这部分数据还是暂时不公开或者脱敏的好,不然很容易担责。

zhiqiangohuo avatar Mar 15 '23 07:03 zhiqiangohuo

个人建议。现在放到huggingface上的数据属于法律文书甚至还有学习强国上的。 这些包含了部分隐私信息的情况。个人任务这部分数据还是暂时不公开或者脱敏的好,不然很容易担责。

这部分数据是国家有法律法规明确公开公示的。请你指出来包含隐私信息的具体文件。

esbatmop avatar Mar 22 '23 08:03 esbatmop

在收录数据时会尽量避免不重复收录. 但是不同来源数据间的去重并不是这个语料集需要考虑的工作. 本语料集对标的是chatGPT训练使用的40T数据,这份包括了网页数据的40T数据也是没有做内部去重的.

请教一下chatGPT使用了40T数据,这一信息是从哪里来获得的呢?

Zoisaang avatar Oct 18 '23 07:10 Zoisaang

另外这里有 900G 中文语料 https://huggingface.co/datasets/oscar-corpus/OSCAR-2201 语料多了之后需要做去重,之前有论文发现过度重复对于模型性能有影响

OSCAR-2201是一个多语种的文本库,Huggingface上总共123GB,请问它解压之后含有900GB的中文语料吗?

xinghuang2050 avatar Oct 25 '23 02:10 xinghuang2050