hellokitty753159
hellokitty753159
[20, [8, [14, [73]], [14, [36]], [4, [28]]], [4, [1516], [660]], [19, [15, [11, [8, [4, [169], [66], [4]]], [4, [4]]]], [15, [11, [8, [4, [4, [6599]], [9, [7, [4]]]]],...
您的keras版本config中词汇表的大小设置的是10000,因为在您给的pkl文件中dict['\']=0,dict['\']=0,dict['UNK']=1 其实\ \是相同的,所以len=10000+1 **keras版本** convert函数中 return [vocab.get(w, 0) for w in words]在将本文转换为数字的时候,您将unk默认值设置为0,但是pkl中unk是1阿。 而且您的 return pad_sequences(data, maxlen=len, padding='post', truncating='post', value=0)中填充的是0,在pkl中是和是为0的,与pad的意义是否相符阿?,这里是不是存在问题阿。我刚接触nlp不久,不知道我的理解是不是对的。 在我的立即填充应该是pad标识符,就是您pytorch版本中的数据pad=0,\=1,\=2,\=3,这里的pad就是0。与json数据相符。 关于keras版本的数据我在做将文本转换为数字的数据时(因为文本—>数字映射——>pkl) dict['\']=0,dict['\']=0,dict['UNK']=1,我这么改下面的函数合理么? (1)return [vocab.get(w, 1) for w in words],将默认从vocab.get(w, 0)改成vocab.get(w,...