FedVision icon indicating copy to clipboard operation
FedVision copied to clipboard

standalone mode issue

Open kevinsummer219 opened this issue 4 years ago • 4 comments

hi, run the command, the train will always block on DEBUG:data loader ready: sh FedVision/examples/paddle_mnist/run.sh 127.0.0.1:10002

if i run sh FedVision/examples/paddle_mnist/run.sh 127.0.0.1:10003, maser2 can train normally, however, master1 can't work normally, why?

kevinsummer219 avatar Mar 25 '21 09:03 kevinsummer219

我用中文描述下我的问题: 目前按照standalone的执行流程,目前我能正常跑起来。 但是如果只使用sh FedVision/examples/paddle_mnist/run.sh 127.0.0.1:10002,也就是启动master1, 从log中看到一直blocker在data loader ready:,不能正常跑起来。如果这个时候我启动sh FedVision/examples/paddle_mnist/run.sh 127.0.0.1:10003, master2我从log中看到能够正常训练。这个时候在启动sh FedVision/examples/paddle_mnist/run.sh 127.0.0.1:10004,master3也不能正常训练。 我的问题是:master1、master2、master3、master4,不应该都可以启动并且跑起来,为什么同时启动就是master2能够正常跑,其他三个都不正常?为什么是master2?

kevinsummer219 avatar Mar 25 '21 09:03 kevinsummer219

我用中文描述下我的问题: 目前按照standalone的执行流程,目前我能正常跑起来。 但是如果只使用sh FedVision/examples/paddle_mnist/run.sh 127.0.0.1:10002,也就是启动master1, 从log中看到一直blocker在data loader ready:,不能正常跑起来。如果这个时候我启动sh FedVision/examples/paddle_mnist/run.sh 127.0.0.1:10003, master2我从log中看到能够正常训练。这个时候在启动sh FedVision/examples/paddle_mnist/run.sh 127.0.0.1:10004,master3也不能正常训练。 我的问题是:master1、master2、master3、master4,不应该都可以启动并且跑起来,为什么同时启动就是master2能够正常跑,其他三个都不正常?为什么是master2?

有可能是因为数据没有预先下载好? 尝试在实验之前,到data 目录执行下脚本

sagewe avatar Mar 29 '21 08:03 sagewe

肯定是下载好了的哈,不然master2怎么能跑起来,启动master1和master2,master2就能跑起来,单独启动任何一个master都不能跑起来?

kevinsummer219 avatar Mar 29 '21 10:03 kevinsummer219

你好,我也遇到了相同的问题,请问你解决了吗

zhangfx123 avatar Jan 10 '22 11:01 zhangfx123