ChengyuBERT
ChengyuBERT copied to clipboard
训练时报错,请问下competition_train.db是做什么的,
请问下competition_train.db是做什么的呢?
我在熟读您的代码的时候,有几个疑问:
1、Preprocessing中:
这些official_*.db是干嘛的?可以替换吗?
└── txt_db
├── hfl
│ └── chinese-bert-wwm-ext
│ ├── external_pretrain.db
│ ├── official_dev.db
│ ├── official_out.db
│ ├── official_ran.db
│ ├── official_sim.db
│ ├── official_test.db
│ └── official_train.db
└── visualjoyce
└── chengyubert_2stage_stage1_wwm_ext -> ../hfl/chinese-bert-wwm-ext
这些db文件没有下载路径,麻烦解答下哈,感谢
都是生成的tokenize之后的ids文件,通过preprocess生成的,如果不需要这一步,可以跳过去直接tokenize之后传递给模型