Gradient-Centralization icon indicating copy to clipboard operation
Gradient-Centralization copied to clipboard

A New Optimization Technique for Deep Neural Networks

Results 6 Gradient-Centralization issues
Sort by recently updated
recently updated
newest added

文章中该方法主要用在了深度神经网络方面,我想知道在transformer结构中, AdamW_GCC, AdamW_GCC2等会不会比AdamW更优秀。

Can u add licence ? Please

求问作者,是不是深度越浅就越没有提升啊?我在ResNet上apply,用的FER2013表情database,用SGD大概72% accuracy左右,改用SGD_GC后基本一样,甚至还低了...用的是Res18,要不我再用Res34对比一下?

大佬 ,训练超级慢,这个怎么解决啊

I tried to use Adam_GC, but got the errors. Pytorch version: 1.3.0 ``` File "Adam.py", line 82, in step state['exp_avg'] = torch.zeros_like(p, memory_format=torch.preserve_format) TypeError: zeros_like() received an invalid combination of...

Hi, @Yonghongwei 在实例分割里面是有FC层作为分类,所以应该使用`Adam_GC`, 但是我使用在语义分割模型中,是没有FC层的,所以我应该使用`Adam_GCC`, 我在语义分割模型里面加了一些 Attention模块后,里面带有一些`nn.Linear()`层,我现在应该使用`_GCC` or `_GC`? 感谢回答!