DeepRec
DeepRec copied to clipboard
AdamAsync-Optimizer.md中提到的adam更新公式切换到原始版本,解决nan问题,请问nan问题是如何引起的
文档:https://deeprec.readthedocs.io/zh/latest/AdamAsync-Optimizer.html
我觉得可能是以下原因,下面两张图分别是adam 和 adamasync的代码。adam的代码我写注释的地方是那行代码的等价版本,他异步训练的时候-v +v两个v的取值不一样,可能导致v变成负数,开方出现nan。