ELECTRA ELECTRA tiny 是否观察到收敛快于 Roberta tiny 呢 (finetuning 任务上)？

Pretraining 的收敛指标没有横向对比的可能；ELECTRA 核心优势是在下游 finetuning 任务上的表现，较 bert/roberta 收敛加快。中文上是否观察到这个现象呢？

Mar 24 '20 03:03 nbcc

ELECTRA的核心优势在pretraing的时候 disc能够利用所有token（比mlm只用15%的数据利用率更高），卖点主要在预训练（更少的迭代次数达到相当的结果）（参加table-6: electra 在不同的模型大小下，迭代次数少于通常的 roberta和bert 以及table2: train flop相当的情况下，效果更好； train flop为roberta的四分之一，效果基本持平或者更好）下游微调收敛快慢无所谓（lr大一些 epoch少一点，lr小，epoch大一些，反正拿dev 做验证就行）

Mar 24 '20 03:03 yyht

而且，electra pretrain的指标很重要，如果 disc 的指标上不去，基本微调的效果也很差

Mar 24 '20 03:03 yyht

ELECTRA的核心优势在pretraing的时候 disc能够利用所有token（比mlm只用15%的数据利用率更高），卖点主要在预训练（更少的迭代次数达到相当的结果）（参加table-6: electra 在不同的模型大小下，迭代次数少于通常的 roberta和bert 以及table2: train flop相当的情况下，效果更好； train flop为roberta的四分之一，效果基本持平或者更好）下游微调收敛快慢无所谓（lr大一些 epoch少一点，lr小，epoch大一些，反正拿dev 做验证就行）

我表述不够清楚：不同 steps 下，Pretraining 模型的金标准是看该 checkpoint 在 finetuning 任务上的效果。ELECTRA 通过 100% label 学习，宣称Pretraining阶段同 step 下的 checkpoint，在下游 finetuning 上效果更好。因此，我的问题是，tiny 模型是否观察到这个？

Mar 24 '20 08:03 nbcc

这个还没有对比过，我可以上传 robert-tiny、electra-tiny 的中间checkpoint 用于验证，我个人时间、资源限制没有做过类似的实验

Mar 24 '20 08:03 yyht