ELECTRA tiny 是否观察到收敛快于 Roberta tiny 呢 (finetuning 任务上)?
Pretraining 的收敛指标没有横向对比的可能;ELECTRA 核心优势是在下游 finetuning 任务上的表现,较 bert/roberta 收敛加快。中文上是否观察到这个现象呢?
ELECTRA的核心优势在pretraing的时候 disc能够 利用所有token(比mlm只用15%的数据利用率更高),卖点主要在 预训练(更少的迭代次数 达到 相当的结果)(参加table-6: electra 在不同的模型大小下,迭代次数 少于 通常的 roberta和bert 以及table2: train flop相当的情况下,效果更好; train flop为roberta的四分之一,效果基本持平或者更好)
下游微调 收敛快慢无所谓(lr大一些 epoch少一点,lr小,epoch大一些,反正 拿dev 做验证就行)
而且,electra pretrain的指标很重要,如果 disc 的 指标上不去,基本微调的效果也很差
ELECTRA的核心优势在pretraing的时候 disc能够 利用所有token(比mlm只用15%的数据利用率更高),卖点主要在 预训练(更少的迭代次数 达到 相当的结果)(参加table-6: electra 在不同的模型大小下,迭代次数 少于 通常的 roberta和bert 以及table2: train flop相当的情况下,效果更好; train flop为roberta的四分之一,效果基本持平或者更好)
下游微调 收敛快慢无所谓(lr大一些 epoch少一点,lr小,epoch大一些,反正 拿dev 做验证就行)
我表述不够清楚:不同 steps 下,Pretraining 模型的金标准是看该 checkpoint 在 finetuning 任务上的效果。ELECTRA 通过 100% label 学习,宣称Pretraining阶段同 step 下的 checkpoint,在下游 finetuning 上效果更好。因此,我的问题是,tiny 模型是否观察到这个?
这个还没有对比过,我可以上传 robert-tiny、electra-tiny 的中间checkpoint 用于 验证,我个人 时间、资源 限制 没有 做过类似的实验