18782961008
18782961008
我尝试用RoBERTa-wwm-ext-large模型替换bert生成候选字符,确实在召回率上有了约6%的提升。同时调研资料时看到去年又出了一个新的MLM叫ELECTRA,作者有关注到吗,由于RoBERTa跟bert用法是一样的所以比较好验证,但我不知道ELECTRA是不是可以继续用你的源码微调训练后替换bert做DAE
> hi请问你复现实验结果是在某种类型的机器上fine-tune的模型呀,这里的fine-tune实际上是bert的pre-train对吧?对机器gpu要求有多高,谢谢 实验复现是bert基础上fine-tune和pre-training,bert的GPU要求12G
> > > hi请问你复现实验结果是在某种类型的机器上fine-tune的模型呀,这里的fine-tune实际上是bert的pre-train对吧?对机器gpu要求有多高,谢谢 > > > > > > 实验复现是bert基础上微调和预训练,bert的GPU要求12G > > 训练前的步骤learning_rate设置的多少呢,跑了多长时间呀 train_batch_size=32 --max_seq_length=128 --max_predictions_per_seq=20 --num_train_steps=10000 --num_warmup_steps=2000 --learning_rate=2e-5 我的在GPU上大概跑了20个小时
> > > > > hi请问你复现实验结果是在某种类型的机器上fine-tune的模型呀,这里的fine-tune实际上是bert的pre-train对吧?对机器gpu要求有多高,谢谢 > > > > > > > > > > > > 实验复现是bert基础上微调和预训练,bert的GPU要求12G > > > > > > > > > 训练前的步骤learning_rate设置的多少呢,跑了多长时间呀 >...
遇到同样的问题,lmdploy版本是0.3.0