laiqinghan

Results 5 comments of laiqinghan

哥,解决了吗,我也遇到这个问题,看着是预测出来字符长度跟target的字符个数没匹配上,这样的话可以给预测的字符进行padding后在计算交叉熵吗

> 下个迭代会支持megatron+deepspeed做大规模预训练 大约啥时间呢,有大约的时间点吗,最近对这个需求比较迫切