ResT
ResT copied to clipboard
EMSA
大佬们江湖救急,我是新手想问一下ResT中的EMSA自注意力的泛化能力怎么样?能不能在别的transformer网络中替换MSA?EMSA的代码是rest.py中48-67行定义的Attention这个类吗?求告知,谢谢!
应该不是,除了Attention这个类,还有下边Block中的deforward()中的第一行,Attention中我好像没发现有Residual connect,如果加上Block才是完整的EMSA,还有这个EMSA(v1)和CMT中的LMSHA结构非常像,那个图画得更容易理解一些, 如有不对,请指出。