persona
persona copied to clipboard
训练AttentionRouting一直出现没有梯度的warning正常吗

@LoveNingBo 不好意思,刚看到。训练中命令行有一个参数--attn_alpha,默认值1会禁止decoder的cls层参与训练,对模型来说是正常的。但我不知道你是否用了专门的训练框架,模型内存在未参与计算的层时有些训练框架会报错退出,如果只是warning能继续训练且loss下降了,那就没有影响。
另外这个代码库只是试验用的,可能有很多bug,尽可能不要用在正式产品中。