Alaya
Alaya copied to clipboard
参数设置疑问
很有价值的工作,但还有两个问题想请教一下:
-
Q1:Weight Decay和Gradient Clip与其他开源模型似乎不一致,一般Weight Decay设置为0.01,梯度裁减设置为1,请问贵团队这样设计的理由及物理含义是什么?
-
Q2:贵团队有打算开源预训练数据集吗?
Thanks
你好,感谢提问。
Q1:我们使用的DecoupledAdamW优化器将learning rate和weight decay参数解绑了,所以weight decay需要设置更小的数值。请参考:https://github.com/mosaicml/composer/blob/dev/composer/optim/decoupled_weight_decay.py#L247
Q2:不好意思,我们目前没有打算开源训练数据集。