Night-Quiet

Results 2 comments of Night-Quiet

这一步我个人感觉是这样的, 因为这是一个自定义的Autograd, 所以这个backward其实就是一种自定义, 自定义一种反向传播的梯度计算方法, 当backward完全和forward相同是就没必要重写这个, 而有时候我们更新梯度的时候, 是有一定的取舍和更改, 这里就是在梯度计算的时候, 舍弃constant的影响 当然, 我也觉得作者应该进行一定的解释

> Hey @Night-Quiet, > > Could you please add a reproducible code snippet? Also on the newest version, no GPU memory should be allocated anymore at all :-) > >...