yyht

Results 8 comments of yyht

ELECTRA的核心优势在pretraing的时候 disc能够 利用所有token(比mlm只用15%的数据利用率更高),卖点主要在 预训练(更少的迭代次数 达到 相当的结果)(参加table-6: electra 在不同的模型大小下,迭代次数 少于 通常的 roberta和bert 以及table2: train flop相当的情况下,效果更好; train flop为roberta的四分之一,效果基本持平或者更好) ![image](https://user-images.githubusercontent.com/14133687/77385372-e3229980-6dc2-11ea-8b65-533dd63ff683.png) 下游微调 收敛快慢无所谓(lr大一些 epoch少一点,lr小,epoch大一些,反正 拿dev 做验证就行)

而且,electra pretrain的指标很重要,如果 disc 的 指标上不去,基本微调的效果也很差

这个还没有对比过,我可以上传 robert-tiny、electra-tiny 的中间checkpoint 用于 验证,我个人 时间、资源 限制 没有 做过类似的实验

bert_config_tiny.json 是 discriminator的参数配置文件(为了与同样规模的roberta-tiny对比,gen是disc的1/4) finetuning的时候 直接使用 PyCLUE 包(使用官方bert源码,scope=‘electra’)以及 把 官方代码里面的layer-wise learning rate decay 加入 对应的optimier即可

1. I initizlied \alpha to zero 2. the initialization are followed by official BERT initialization: ebmbedding matrix and kernel matrix are initialized via: def create_initializer(initializer_range=0.02): """Creates a `truncated_normal_initializer` with the...

thanks for your help. I made some mistakes for hyparameters and it could run normally. Since you have done some experiments with bert-base config, i am wondering wheather tta could...

no,I could provide you my preteained Chinese tradition base for spell correction or do it together ---Original--- From: "zhu143xin"

i only had released lm adaptation with finetuing which could accelerate convergence speed and get more robust model.