MNBVC issues

wikipedia与code_metadata数据有误

1

在下载过程中又发现如下两个数据集有报错，请问可以麻烦再更新一下吗： 1. wikipedia数据集中的`https://huggingface.co/datasets/liwu/MNBVC/resolve/main/wiki/20230198/58.jsonl.gz`还有一个JSONDecodeError的问题 2. code_metadata数据集报错：`FileNotFoundError: Couldn't find file at https://huggingface.co/datasets/liwu/MNBVC/resolve/main/code/metadata/20230302/20000000-21000000.jsonl.gz`

fitexmage

huggingface被墙，是否考虑也往modelscope平台上传一份数据

4

如题

MrZixi

是否考虑通过IPFS分发数据？

3

RT

POFK

添加BT种子分享方式

包含种子文件和磁力链接，分目录种子打包并提供特征码。附带说明文件。

jiyun

huggingface数据进度

3

请问下，我看7月19日已处理了5357GB的数据，那huggingface上目前上传了多少数据呢？

guozhiyao

无法正常显示的字符编码

4

在抽样观察20230147/huggingface.20230147.1.网页/61.jsonl时，发现数组下标为12的json中含有无法正常显示的字符： ![image](https://github.com/esbatmop/MNBVC/assets/17806440/fab474fa-c38f-4420-8fd5-c8da06416fb5) 用jieba分词后显示为： ![image](https://github.com/esbatmop/MNBVC/assets/17806440/9f27c825-0846-4717-bf3f-2fcddebd58c5) 我使用chatGPT建议的以下代码正则匹配“无法正常显示的字符”： def count_unprintable_characters(string): pattern = r'[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]' matches = re.findall(pattern, string) return len(matches) 发现在该jsonl的10万条json中，有超过1.1万条有这种情况。请问这是正常的还是语料出错了？

LlinWing

现在我知道你了，一起低调的搞大事

1

Trangle

数据分发有考虑过使用S3进行存储和提供下载吗

1

考虑提供和commoncrawl一样的下载方式吗

chinoll

威力里的数据跟抱脸里的数据是否一样?

5

我现在威力同步后的数据打开看很多数据很乱, 看起来就是没有清洗的,且目录跟抱脸的目录也不一致, 请问数据是一样的吗, 是一样的我就不重复下载了,感谢回复

Gierry

我有大量算力，支持开源项目，请大家把数据尽量洗干净

7

大家好，我是 https://www.zhihu.com/question/570713548/answer/2845310510 记得n年前我也上里屋，哈哈。建议项目建个 Discord，可以在 Discord 找我：https://discord.gg/bDSBUMeFpc

BlinkDL

MNBVC
MNBVC copied to clipboard

Metadata

wikipedia与code_metadata数据有误

huggingface被墙，是否考虑也往modelscope平台上传一份数据

是否考虑通过IPFS分发数据？

添加BT种子分享方式

huggingface数据进度

无法正常显示的字符编码

现在我知道你了，一起低调的搞大事

数据分发有考虑过使用S3进行存储和提供下载吗

威力里的数据跟抱脸里的数据是否一样?

我有大量算力，支持开源项目，请大家把数据尽量洗干净

← Metadata

Owner

Metadata

MNBVC MNBVC copied to clipboard

Metadata

← Metadata

Owner

Metadata

MNBVC
MNBVC copied to clipboard