guanxiao_li
guanxiao_li
作者您好,感谢您的工作。 在文章中我看到LE(.) 表示 local enhancing component of MTA for value V by a depth-wise convolution. 对应代码中为 `v1 = v1 + self.local_conv1(v1.transpose(1, 2).reshape(B, -1, C//2). transpose(1, 2).view(B,C//2, H//self.sr_ratio, W//self.sr_ratio)).\ view(B, C//2,...
你好,感谢您的工作。我有一个关于学习率的问题。我注意到您文章中写到 initial learning rate is 0.01,之后分别在200k,400k和450k时reduce by factor of 10 请问这样的设计是出于什么考虑呢? 我还注意到代码中您的学习率设置是与STTN一致的:initial learning rate is 0.0001,reduce at 400k by factor of 10 您是否测试过这二者的区别? 希望得到您的解答!!!