Rango_WNZ issues

Repositories
Issues
Comments

Results 2 issues of


                                            Rango_WNZ

关于MLM中，中文全词掩盖的预测标签问题

我注意到在脚本create_pretraining_data.py中564行， masked_lms.append(MaskedLmInstance(index=index, label=tokens[index])) 这一行制作MLM预测标签时，label采用的是tokens[index]，而tokens为了全词掩盖，在预处理阶段对部分字做了"##"处理，按照这一行的逻辑，全词掩盖后MLM的监督标签中，将有很大部分由带有前缀"##"的token组成。这种情况在英文中是可以理解的，因为在fine tune阶段英文词同样会做wordpiece处理，但中文在fine tune阶段却不会做分词处理，这在中文中合理吗？

A mistake in model_adem_with_encoder.py

line 18 in model_adem_with_encoder.py self.vocab_size, self.embed_size = self.init_embedding.shape maybe it is self.vocab_size, self.embedding_size = self.init_embedding.shape