renjunxiang

Results 2 issues of renjunxiang

非常感谢您开源这个项目,让我学习了bert做文本生成的思想方法,还有几个问题想请教一下。 1.训练的数据的生成,一种是文本对[cls] source [sep] target [eos] [sep],另一种是拼在一起[cls] source target [eos] [sep],您认为这两种那种更合理呢?我倾向前者 2.预测下一个字符,是采用[cls]的分类吗。比如输入1234,我要预测 5678,[cls] 1 2 3 4 [sep] 5 6 [sep],是[cls]预测 7 吗?还是6这个位置的tensor预测7? 3.我看了前面的issue,如果只做文本生成,重点应该是target,训练的时候没必要计算source 的loss吧,应该是只需要对target位置进行attention mask然后计算target部分的loss就可以了吧。 4.Seq2SeqModel中的forward函数我看到了tril下三角函数,还有修改了BertModel中的extended_attention_mask。训练过程中,source =1234,target = 5678。传进去12345678,是可以一次自动mask5678后面位置字符,一起预测概率计算损失;还是要手动处理做四次不同的mask,1234mmmm->5、12345mmm->6、123456mm->7、1234567m->8...

你好,请问引用这个数据集的格式是什么,谢谢