standalone mode issue
hi, run the command, the train will always block on DEBUG:data loader ready: sh FedVision/examples/paddle_mnist/run.sh 127.0.0.1:10002
if i run sh FedVision/examples/paddle_mnist/run.sh 127.0.0.1:10003, maser2 can train normally, however, master1 can't work normally, why?
我用中文描述下我的问题: 目前按照standalone的执行流程,目前我能正常跑起来。 但是如果只使用sh FedVision/examples/paddle_mnist/run.sh 127.0.0.1:10002,也就是启动master1, 从log中看到一直blocker在data loader ready:,不能正常跑起来。如果这个时候我启动sh FedVision/examples/paddle_mnist/run.sh 127.0.0.1:10003, master2我从log中看到能够正常训练。这个时候在启动sh FedVision/examples/paddle_mnist/run.sh 127.0.0.1:10004,master3也不能正常训练。 我的问题是:master1、master2、master3、master4,不应该都可以启动并且跑起来,为什么同时启动就是master2能够正常跑,其他三个都不正常?为什么是master2?
我用中文描述下我的问题: 目前按照standalone的执行流程,目前我能正常跑起来。 但是如果只使用sh FedVision/examples/paddle_mnist/run.sh 127.0.0.1:10002,也就是启动master1, 从log中看到一直blocker在data loader ready:,不能正常跑起来。如果这个时候我启动sh FedVision/examples/paddle_mnist/run.sh 127.0.0.1:10003, master2我从log中看到能够正常训练。这个时候在启动sh FedVision/examples/paddle_mnist/run.sh 127.0.0.1:10004,master3也不能正常训练。 我的问题是:master1、master2、master3、master4,不应该都可以启动并且跑起来,为什么同时启动就是master2能够正常跑,其他三个都不正常?为什么是master2?
有可能是因为数据没有预先下载好? 尝试在实验之前,到data 目录执行下脚本
肯定是下载好了的哈,不然master2怎么能跑起来,启动master1和master2,master2就能跑起来,单独启动任何一个master都不能跑起来?
你好,我也遇到了相同的问题,请问你解决了吗