nostalgiaer comments

Results 1 comments of


                                            nostalgiaer

参照于Llama而言，一般传给forward的attention mask多数只是把哪些是padding，哪些不是padding指明出来，而一般模型内部会构造causal attention（俗称三角阵），这一步就是把后面的token mask掉。