speech-evalution comments

Repositories
Issues
Comments

Results 2 comments of


                                            speech-evalution

单卡训练可以，但是多卡训练报NCLL超时

你好，我也遇到这个问题，请问有找到原因、解决嘛，我这边分析：多卡ddp训练中，在做validate_epoch时，不同rank在同步iterator_stop会有异常， if iterator_stop > 0：误触发，rank=0会提前结束batch推理，而且会提前跳过同步状态，直到后续保存模型同步状态异常，第2张卡同步超时。

我在跑sanm_kws的demo，两个现象， 1， rank=0, dist.barrier()时， rank=1走到dist.all_reduce(val_loss_avg, op=dist.ReduceOp.SUM)，这个时候rank=0会跳过阻塞。 2，rank=0, dist.all_reduce(iterator_stop, dist.ReduceOp.SUM)时， rank=1走到dist.all_reduce(weight, op=dist.ReduceOp.SUM)，这个时候rank=0,iterator_stop可能会随机超大数