renjunxiang

Results 12 comments of renjunxiang

这个项目好久之前的,印象中应该是把txt汇总成Tang_Poetry.pkl

好的,抽时间会补上评估

非常感谢您的解答。 由于transformer更新了,我看最新的代码,BERT支持mask三维输入[batch_size, from_seq_length, to_seq_length]. 但是我遇到一个问题,不知道我的用法对不对,您有空的话希望能解答一下。 ``` text=['[CLS]', '我', '爱', '北', '京'] attention_mask = [[[1., 0., 0., 0., 0.], [1., 1., 0., 0., 0.], [1., 1., 1., 0., 0.], [1., 1.,...

我知道了,刚才逐层dubug发现,第一个BertSelfAttention输出的最后一个字符tensor是一样的。 但是因为前面的字符attention_mask不一样,导致前面四个字符的向量不同。后面再次走BertSelfAttention的时候,hiddenstate肯定不同,导致注意力权重和分数在2-12层BertSelfAttention的输出发生变化。

比如说: 第一层 [1,2,3,4,5]->[1.1,2.1,3.1,4.1,5] [1,2,3,4,5]->[1,2,3,4,5] 第二层 [1.1,2.1,3.1,4.1,5]->[1.2,2.2,3.2,4.2,5.1] [1,2,3,4,5]->[1,2,3,4,5] 我这样的理解应该对吧。所以说就算是文本生成,在训练的时候 [cls] source [sep] target [sep]中,是否对source也执行下三角mask同样会对target的效果造成影响,因为attention会逐层叠加。

你好,可能是gensim版本问题。这是挺早写的,gensim的细节不太记得了,就是遍历文本,查询词库词向量,拼接每个词语的词向量成为句向量,可以根据你的gensim相应版本自行debug修改

当时是实体识别用bert,链指用词向量,长度瓶颈在实体识别,现在可以换成nezha一类的变长模型处理长文本,或者全部用rnn来做

不会吧,自注意力就是改了下序列的权重分布,不影响维度吧

你好,请从以下仓库下载:、

你好,可以参考,有很详细的说明,本质就是一种简单的自注意力机制。