Rango_WNZ

Results 2 issues of Rango_WNZ

我注意到在脚本create_pretraining_data.py中564行, masked_lms.append(MaskedLmInstance(index=index, label=tokens[index])) 这一行制作MLM预测标签时,label采用的是tokens[index],而tokens为了全词掩盖,在预处理阶段对部分字做了"##"处理,按照这一行的逻辑,全词掩盖后MLM的监督标签中,将有很大部分由带有前缀"##"的token组成。这种情况在英文中是可以理解的,因为在fine tune阶段英文词同样会做wordpiece处理,但中文在fine tune阶段却不会做分词处理,这在中文中合理吗?

line 18 in model_adem_with_encoder.py self.vocab_size, self.embed_size = self.init_embedding.shape maybe it is self.vocab_size, self.embedding_size = self.init_embedding.shape