nbcc
nbcc
> ELECTRA的核心优势在pretraing的时候 disc能够 利用所有token(比mlm只用15%的数据利用率更高),卖点主要在 预训练(更少的迭代次数 达到 相当的结果)(参加table-6: electra 在不同的模型大小下,迭代次数 少于 通常的 roberta和bert 以及table2: train flop相当的情况下,效果更好; train flop为roberta的四分之一,效果基本持平或者更好) >  > 下游微调 收敛快慢无所谓(lr大一些 epoch少一点,lr小,epoch大一些,反正 拿dev 做验证就行) 我表述不够清楚:不同 steps 下,Pretraining 模型的金标准是看该 checkpoint...
> Has there been any attempt to use data from the same interval (2017 to 2020) used in the Llama paper?
> @nbcc 用 pytorch 的 nn.Linear 定义的参数,看源码使用 kaiming_uniform_ 做的参数初始化 > > 另外感谢您的认可,期待你们的工作。。现在这个工作缺陷有点多,尤其是速度方面太慢了,整理代码后的实验现在都没跑完 用 paddle 复现了一下 MWA 策略(基于开源的 ERNIE,在 lcqmc 数据集验证)。和 ERNIE 1.0 论文评估方式一致,采用 max(dev acc) 选取 checkpoint,得到 test acc;多次取平均后,test acc...