Cuixixin
Results
1
comments of
Cuixixin
@liyuance 第一个问题,我这边也遇到过类似的,个别节点success,个别节点处于running状态,但我这边只是某个epoch完成,并不是所有训练已完成,感觉是hang住了,不是必现,在google和咨询其他小伙伴后了解到tf hang住的情况是有概率发生的,比如一些io操作会导致,不知道你这边是否有遇到过这种情况,如果有的话一般如何处理?