Willard Sheen

Results 1 issues of Willard Sheen

预训练数据集数据似乎远多于发布的论文元数据集。 在训练模型时为了去重,我简单校验了两个数据,似乎是不重叠的? 方便简要说明下预训练数据的来源和内容吗 - 预训练的数据集 - csl.jsonl - 2310165 line - 论文元数据 - csl_camera_readly.tsv - 396209 line