ChengyuBERT icon indicating copy to clipboard operation
ChengyuBERT copied to clipboard

训练时报错,请问下competition_train.db是做什么的,

Open Viserion-nlper opened this issue 2 years ago • 1 comments

请问下competition_train.db是做什么的呢? 我在熟读您的代码的时候,有几个疑问: 1、Preprocessing中: image 这些official_*.db是干嘛的?可以替换吗? └── txt_db ├── hfl │   └── chinese-bert-wwm-ext │   ├── external_pretrain.db │   ├── official_dev.db │   ├── official_out.db │   ├── official_ran.db │   ├── official_sim.db │   ├── official_test.db │   └── official_train.db └── visualjoyce └── chengyubert_2stage_stage1_wwm_ext -> ../hfl/chinese-bert-wwm-ext 这些db文件没有下载路径,麻烦解答下哈,感谢

Viserion-nlper avatar Nov 21 '23 10:11 Viserion-nlper

都是生成的tokenize之后的ids文件,通过preprocess生成的,如果不需要这一步,可以跳过去直接tokenize之后传递给模型

Vimos avatar Nov 24 '23 02:11 Vimos