Li Boyang

Results 3 issues of Li Boyang

楼主你好,我对于这个attention的mask还有一点小问题。 目前我在处于测试阶段,生成任务就是简单的复制,给5个数字,然后生成相同的5个数字。这个任务应该很简答, 所以我就用了bert和一个全连接softmax就结束了。 在训练过程中我对这个attention的mask设置有了点问题,如下: 举个例子,batch_size=1,我的5个数字是12345。 我在训练的过程中设置了最大长度是15,我给的输入是: [[CLS],1,2,3,4,5,[SEP],1,2,3,4,5, [PAD],[PAD]] 7个字符的segment_0,6个segment_1,还有2个pad。 这里我不知道第二个句子要不要加SEP,因为我们是生成任务,如果给了[SEP],那到最后一个SEP的时候我生成出来的应该是啥。。 第二个就是attention mask, 如上文,我的输入是size:[1,15] 所以这个attention mask我就设置的是size[1,15,15] 和楼主图里的设置一样,segment_0的mask全部为1,这样mask矩阵的前7行就是7个1加上8个0 之后segment_1,第一个数字的生成,attention不到自己,也是7个1加上8个0,么? 之后第二个数字,就是8个1加上7个0,以此类推。 最后两行的PAD就全部0. 具体的矩阵就是下面这样的,有点大,辛苦楼主了。 ([[1., 1., 1., 1., 1., 1., 1., 0., 0., 0.,...

- VSCode Version: 1.71.1 - Local OS Version: MacOS Monterey 12.5.1 - Remote OS Version: v0.87.2022090715 - Remote Extension/Connection Type: SSH - Logs: No logs Besides, if i install the...

ssh
info-needed

### 🐛 Describe the bug LlamaRM is not a huggingface transformer module but LoraModule, while llamaRM.model is a huggingface transformer model. So LlamaRm has no function "resize_token_embeddings" but LlamaRM.model has....

bug