nostalgiaer
Results
1
comments of
nostalgiaer
参照于Llama而言,一般传给forward的attention mask多数只是把哪些是padding,哪些不是padding指明出来,而一般模型内部会构造causal attention(俗称三角阵),这一步就是把后面的token mask掉。