persona icon indicating copy to clipboard operation
persona copied to clipboard

训练AttentionRouting一直出现没有梯度的warning正常吗

Open LoveNingBo opened this issue 4 years ago • 2 comments

image

LoveNingBo avatar Nov 08 '21 09:11 LoveNingBo

@LoveNingBo 不好意思,刚看到。训练中命令行有一个参数--attn_alpha,默认值1会禁止decoder的cls层参与训练,对模型来说是正常的。但我不知道你是否用了专门的训练框架,模型内存在未参与计算的层时有些训练框架会报错退出,如果只是warning能继续训练且loss下降了,那就没有影响。

ghosthamlet avatar Nov 11 '21 09:11 ghosthamlet

另外这个代码库只是试验用的,可能有很多bug,尽可能不要用在正式产品中。

ghosthamlet avatar Nov 11 '21 09:11 ghosthamlet