Gradient-Centralization issues

请问该方法在以transformer为主结构的目标检测任务中有效吗

文章中该方法主要用在了深度神经网络方面，我想知道在transformer结构中， AdamW_GCC, AdamW_GCC2等会不会比AdamW更优秀。

wokeyide1999

没有提升issue

7

求问作者，是不是深度越浅就越没有提升啊？我在ResNet上apply，用的FER2013表情database，用SGD大概72% accuracy左右，改用SGD_GC后基本一样，甚至还低了...用的是Res18，要不我再用Res34对比一下？

ZangHuanyu

incorrect keywords: memory_format

2

I tried to use Adam_GC, but got the errors. Pytorch version: 1.3.0 ``` File "Adam.py", line 82, in step state['exp_avg'] = torch.zeros_like(p, memory_format=torch.preserve_format) TypeError: zeros_like() received an invalid combination of...

jin-s13

关于语义分割的问题

3

Hi, @Yonghongwei 在实例分割里面是有ＦＣ层作为分类，所以应该使用`Adam_GC`，但是我使用在语义分割模型中，是没有ＦＣ层的，所以我应该使用`Adam_GCC`，我在语义分割模型里面加了一些 Attention模块后，里面带有一些`nn.Linear()`层，我现在应该使用`_GCC` or `_GC`？感谢回答！

GewelsJI

Gradient-Centralization
Gradient-Centralization copied to clipboard

Metadata

请问该方法在以transformer为主结构的目标检测任务中有效吗

licence

没有提升issue

训练非常慢

incorrect keywords: memory_format

关于语义分割的问题

← Metadata

Owner

Metadata

Gradient-Centralization Gradient-Centralization copied to clipboard

Metadata

请问该方法在以transformer为主结构的目标检测任务中有效吗

licence

没有提升issue

训练非常慢

incorrect keywords: memory_format

关于语义分割的问题

← Metadata

Owner

Metadata

Gradient-Centralization
Gradient-Centralization copied to clipboard