euler
euler copied to clipboard
关于lshne中的single_view_loss的含义的疑问
请教下:感觉single_view_loss这部分loss贡献度很少,信息都被multi_view attention的loss贡献了,single_view_loss的意义是类似transformer中的纠偏,防止学的太差?
如果是这样的是不是对attention的信息量很不自信^_^ , 是不是需要加个参数,p q 去控制下loss 的weight更好。