Transformer_Relative_Position_PyTorch
Transformer_Relative_Position_PyTorch copied to clipboard
显存溢出
使用Relative Position后显存占用明显增加是什么原因呢?
Relative Position embedding占用的显存就是比绝对位置编码多的。一个长度为5的序列,相对位置编码就有5x5个embedding,每个token要保存该token和其余所有token的相对位置编码。