Alaya icon indicating copy to clipboard operation
Alaya copied to clipboard

参数设置疑问

Open echo-valor opened this issue 2 years ago • 1 comments

很有价值的工作,但还有两个问题想请教一下:

  • Q1:Weight Decay和Gradient Clip与其他开源模型似乎不一致,一般Weight Decay设置为0.01,梯度裁减设置为1,请问贵团队这样设计的理由及物理含义是什么?

  • Q2:贵团队有打算开源预训练数据集吗?

Thanks

echo-valor avatar Dec 13 '23 02:12 echo-valor

你好,感谢提问。

Q1:我们使用的DecoupledAdamW优化器将learning rate和weight decay参数解绑了,所以weight decay需要设置更小的数值。请参考:https://github.com/mosaicml/composer/blob/dev/composer/optim/decoupled_weight_decay.py#L247

Q2:不好意思,我们目前没有打算开源训练数据集。

SS-YuJJ avatar Jan 19 '24 03:01 SS-YuJJ