MNBVC
MNBVC copied to clipboard
MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、...
在下载过程中又发现如下两个数据集有报错,请问可以麻烦再更新一下吗: 1. wikipedia数据集中的`https://huggingface.co/datasets/liwu/MNBVC/resolve/main/wiki/20230198/58.jsonl.gz`还有一个JSONDecodeError的问题 2. code_metadata数据集报错:`FileNotFoundError: Couldn't find file at https://huggingface.co/datasets/liwu/MNBVC/resolve/main/code/metadata/20230302/20000000-21000000.jsonl.gz`
RT
包含种子文件和磁力链接,分目录种子打包并提供特征码。附带说明文件。
请问下,我看7月19日已处理了5357GB的数据,那huggingface上目前上传了多少数据呢?
在抽样观察20230147/huggingface.20230147.1.网页/61.jsonl时,发现数组下标为12的json中含有无法正常显示的字符:  用jieba分词后显示为:  我使用chatGPT建议的以下代码正则匹配“无法正常显示的字符”: def count_unprintable_characters(string): pattern = r'[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]' matches = re.findall(pattern, string) return len(matches) 发现在该jsonl的10万条json中,有超过1.1万条有这种情况。 请问这是正常的还是语料出错了?
考虑提供和commoncrawl一样的下载方式吗
我现在威力同步后的数据打开看很多数据很乱, 看起来就是没有清洗的,且目录跟抱脸的目录也不一致, 请问数据是一样的吗, 是一样的我就不重复下载了,感谢回复
大家好,我是 https://www.zhihu.com/question/570713548/answer/2845310510 记得n年前我也上里屋,哈哈。建议项目建个 Discord,可以在 Discord 找我:https://discord.gg/bDSBUMeFpc