我有大量算力,支持开源项目,请大家把数据尽量洗干净
大家好,我是 https://www.zhihu.com/question/570713548/answer/2845310510
记得n年前我也上里屋,哈哈。建议项目建个 Discord,可以在 Discord 找我:https://discord.gg/bDSBUMeFpc
1.越往后的包数据清洗的越干净。我们在第一阶段(到本月底,项目成立一个月整,且顺利完成1Tb数据堆量小目标)后,会启动对历史数据压缩包的重新清洗打包工作。 2.我们的判断是,堆量的优先级更高,数据人人能洗。目前数据清洗任务由yufei的组负责,可以去里屋或者Trello向这个组提需求和提供代码(另一个issue中有项目进展Trello的链接)。 3.我们也有将数据集放到huggingface上的精加工计划,目前pomelo在负责其中一块工作,可以去里屋催他。 4.这是一个社区主导的项目,里屋社区是项目主要讨论区。
另外这里有 900G 中文语料 https://huggingface.co/datasets/oscar-corpus/OSCAR-2201 语料多了之后需要做去重,之前有论文发现过度重复对于模型性能有影响
在收录数据时会尽量避免不重复收录. 但是不同来源数据间的去重并不是这个语料集需要考虑的工作. 本语料集对标的是chatGPT训练使用的40T数据,这份包括了网页数据的40T数据也是没有做内部去重的.
个人建议。现在放到huggingface上的数据属于法律文书甚至还有学习强国上的。 这些包含了部分隐私信息的情况。个人任务这部分数据还是暂时不公开或者脱敏的好,不然很容易担责。
个人建议。现在放到huggingface上的数据属于法律文书甚至还有学习强国上的。 这些包含了部分隐私信息的情况。个人任务这部分数据还是暂时不公开或者脱敏的好,不然很容易担责。
这部分数据是国家有法律法规明确公开公示的。请你指出来包含隐私信息的具体文件。
在收录数据时会尽量避免不重复收录. 但是不同来源数据间的去重并不是这个语料集需要考虑的工作. 本语料集对标的是chatGPT训练使用的40T数据,这份包括了网页数据的40T数据也是没有做内部去重的.
请教一下chatGPT使用了40T数据,这一信息是从哪里来获得的呢?
另外这里有 900G 中文语料 https://huggingface.co/datasets/oscar-corpus/OSCAR-2201 语料多了之后需要做去重,之前有论文发现过度重复对于模型性能有影响
OSCAR-2201是一个多语种的文本库,Huggingface上总共123GB,请问它解压之后含有900GB的中文语料吗?