ELECTRA icon indicating copy to clipboard operation
ELECTRA copied to clipboard

ELECTRA tiny 是否观察到收敛快于 Roberta tiny 呢 (finetuning 任务上)?

Open nbcc opened this issue 5 years ago • 4 comments

Pretraining 的收敛指标没有横向对比的可能;ELECTRA 核心优势是在下游 finetuning 任务上的表现,较 bert/roberta 收敛加快。中文上是否观察到这个现象呢?

nbcc avatar Mar 24 '20 03:03 nbcc

ELECTRA的核心优势在pretraing的时候 disc能够 利用所有token(比mlm只用15%的数据利用率更高),卖点主要在 预训练(更少的迭代次数 达到 相当的结果)(参加table-6: electra 在不同的模型大小下,迭代次数 少于 通常的 roberta和bert 以及table2: train flop相当的情况下,效果更好; train flop为roberta的四分之一,效果基本持平或者更好) image 下游微调 收敛快慢无所谓(lr大一些 epoch少一点,lr小,epoch大一些,反正 拿dev 做验证就行)

yyht avatar Mar 24 '20 03:03 yyht

而且,electra pretrain的指标很重要,如果 disc 的 指标上不去,基本微调的效果也很差

yyht avatar Mar 24 '20 03:03 yyht

ELECTRA的核心优势在pretraing的时候 disc能够 利用所有token(比mlm只用15%的数据利用率更高),卖点主要在 预训练(更少的迭代次数 达到 相当的结果)(参加table-6: electra 在不同的模型大小下,迭代次数 少于 通常的 roberta和bert 以及table2: train flop相当的情况下,效果更好; train flop为roberta的四分之一,效果基本持平或者更好) image 下游微调 收敛快慢无所谓(lr大一些 epoch少一点,lr小,epoch大一些,反正 拿dev 做验证就行)

我表述不够清楚:不同 steps 下,Pretraining 模型的金标准是看该 checkpoint 在 finetuning 任务上的效果。ELECTRA 通过 100% label 学习,宣称Pretraining阶段同 step 下的 checkpoint,在下游 finetuning 上效果更好。因此,我的问题是,tiny 模型是否观察到这个?

nbcc avatar Mar 24 '20 08:03 nbcc

这个还没有对比过,我可以上传 robert-tiny、electra-tiny 的中间checkpoint 用于 验证,我个人 时间、资源 限制 没有 做过类似的实验

yyht avatar Mar 24 '20 08:03 yyht