CSL icon indicating copy to clipboard operation
CSL copied to clipboard

关于预训练数据的来源

Open wiserxin opened this issue 2 years ago • 1 comments

预训练数据集数据似乎远多于发布的论文元数据集。 在训练模型时为了去重,我简单校验了两个数据,似乎是不重叠的? 方便简要说明下预训练数据的来源和内容吗

  • 预训练的数据集
    • csl.jsonl
    • 2310165 line
  • 论文元数据
    • csl_camera_readly.tsv
    • 396209 line

wiserxin avatar Aug 29 '23 02:08 wiserxin

csl仓库已更新用于预训练的数据,和csl来源相同


发件人: Willard Sheen @.> 发送时间: Tuesday, August 29, 2023 10:45:28 AM 收件人: ydli-ai/CSL @.> 抄送: Subscribed @.***> 主题: [ydli-ai/CSL] 关于预训练数据的来源 (Issue #11)

预训练数据集数据似乎远多于发布的论文元数据集。 在训练模型时为了去重,我简单校验了两个数据,似乎是不重叠的? 方便简要说明下预训练数据的来源和内容吗

  • 预训练的数据集 * csl.jsonl * 2310165 line
  • 论文元数据 * csl_camera_readly.tsv * 396209 line

― Reply to this email directly, view it on GitHubhttps://github.com/ydli-ai/CSL/issues/11, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AE3SPVZ374RPQDKNMEJGRY3XXVJURANCNFSM6AAAAAA4CH7X7E. You are receiving this because you are subscribed to this thread.Message ID: @.***>

ydli-ai avatar Aug 29 '23 03:08 ydli-ai