nbcc
Results
2
issues of
nbcc
Pretraining 的收敛指标没有横向对比的可能;ELECTRA 核心优势是在下游 finetuning 任务上的表现,较 bert/roberta 收敛加快。中文上是否观察到这个现象呢?
请教一个实验细节  新增参数在 Finetuning 训练中是完全随机初始化的吗?