speech-evalution

Results 2 comments of speech-evalution

你好,我也遇到这个问题,请问有找到原因、解决嘛, 我这边分析:多卡ddp训练中,在做validate_epoch时,不同rank在同步iterator_stop会有异常, if iterator_stop > 0:误触发,rank=0会提前结束batch推理,而且会提前跳过同步状态,直到后续保存模型同步状态异常,第2张卡同步超时。

我在跑sanm_kws的demo, 两个现象, 1, rank=0, dist.barrier()时, rank=1走到dist.all_reduce(val_loss_avg, op=dist.ReduceOp.SUM), 这个时候rank=0会跳过阻塞。 2,rank=0, dist.all_reduce(iterator_stop, dist.ReduceOp.SUM)时, rank=1走到dist.all_reduce(weight, op=dist.ReduceOp.SUM), 这个时候rank=0,iterator_stop可能会随机超大数