Li Boyang
Li Boyang
I meet the same problem. Did you find any methods to solve this?
I have already set "extensions.autoCheckUpdates": false and "extensions.autoUpdate": false, but remote-ssh extension is still updated automatically, how can i change the setting so that i can use v0.84? For pre-release,...
> Yes, we are almost same. But for me, it's worse. Sometimes there is even no "remote resources monitor" icon in the leftbar. When I reinstall this plugin and I...
> Hello! Could one of your provide the ssh logs? They can be found by going to `terminal` then `output` then selecting `Remote-SSH` from the dropdown menu on the right....
好的,我先给第二个句子也加上SEP。 之后attentionmask,正常的bert输入应该是和句子一样维度,比如我这里是input是[1,15],attention也应该是[1,15]这样才能表示位置的一一对应,但是在训练过程中,我设置的这个attentionmask是[1,15,15],也就是说一个15的长度的句子,我给的attentionmask矩阵是[15,15],我想的是训练过程中的应该是并行的,在我这个复制任务条件下,就是走了一次decoder,但是对每个位置生成,这样想是对的么?这个是我看了Transformers的源码得到的结论,训练过程每个batch只有一次decoder,生成过程则是生成多长字符走多少次decoder,如果不对,希望楼主指出。。 如果是对的话,那我想的就是,生成第一个字符,也就是segment_0的第一个字符,上面的假设就是数字1,这个生成考虑的是[15,15]的attentionmatrix中的[:1,:],就是第一行,这里我用切片表示了。 然后第二个数字2,使用的是[15,15]的attentionmaskmatrix中的[1:2,:],就是第二行。 以此类推,不知道我这样的操作对UNLIM的理解对不对。 我在坐loss的时候对输出进行了切片,只计算生成的1,2,3,4,5,[SEP]这六个字符的交叉熵。 我还没有进行inference,因为训练时loss降不下去,然后发现loss降不下去是因为模型对每一个字符都是相同的生成,就是全1,全sep等等。 谢谢楼主,又长篇大论的一通,这个问题已经困扰我一个星期了,我都没有解决。。
那我这样设置attentionmask矩阵对么,我看官方实例给的代码都是attentionmask张量和input张量同纬度,这里我是给了个方阵。。而且loss的时候我通过切片,只输出了生成的那6个字符(1,2,3,4,5,SEP),就这6个字符和标准的做loss,这个也没问题么。。 我确实没想的复杂, 所以就先做个小测试,但是不知道为什么,它就是输出全一样的字符,这个字符是啥都可能,我根本想不通哪里不对,都是按照论文的思路来的并且还看过好多别人写的心得啥的。。 如果楼主方便,能不能麻烦你针对我这个情况给一个attentionmask的输入呢,如果5个字符太长,2个也行,能意思一下就可以。。谢谢了。。
就是segment_0的SEP和segment_1的所有有效字符么?
好的,我去改改试试,那attentionmask我的设置有问题么,我心里总是有点没底。。
好的,感谢!我这就去试试