distributeTensorflowExample
distributeTensorflowExample copied to clipboard
distribute tensorflow example
如下所示,在两台服务器上分别跑了三个命令,一直是这种状态,是什么原因呢? 2017-09-28 20:22:28.534732: I tensorflow/core/distributed_runtime/master.cc:209] CreateSession still waiting for response from worker: /job:ps/replica:0/task:0 2017-09-28 20:22:28.534903: I tensorflow/core/distributed_runtime/master.cc:209] CreateSession still waiting for response from worker: /job:worker/replica:0/task:1 2017-09-28 20:22:38.535062: I tensorflow/core/distributed_runtime/master.cc:209] CreateSession...
Hello, why can't the optimizer's learning rate use placeholders in distributed code?
参数更新的困惑?
您好,看到您的demo对我有很大启发,学到很多,在此有三个疑问还望指教: 每个worker都会得到一个loss,这些loss不需要求均值再反传吗? 所有机器分布式训练的目的,是每个机器分别做一个step以加快到达最大step的速度吗,本来多机器是因为训练集分辨率过大,希望通过分布式加大batch_size的,但多机器貌似起不到这个作用? 假如四个机器,每个机器四个卡,那么是不是需要四个卡需要些多gpu训练然后loss求均值,然后四个机器各自做各自的step?
实验的时候发现最终tensorboard输出的loss与worker1和worker2都不一样,原因是不是因为tensorboard中输出的loss是ps整合后的呢?
错误详情如下: ERROR:tensorflow:================================== Object was never used (type ): If you want to mark it as used call its "mark_used()" method. It was originally created here: File "distribute.py", line 98, in...
同步数据无法通信
楼主thewintersun您好, 我做分布式并行测试您的代码的时候,指定了一台电脑为ps,服务器上的两个GPU卡分别为两个worker; 一台worker地址设置如下: --ps_hosts=192.168.4.227:2230 --worker_hosts=192.168.4.25:2224,192.168.4.25:2225 --job_name=worker --task_index=0 然后出现不停的等待对方worker响应,然而没有开始执行计算: 2018-12-13 12:02:12.073144: I tensorflow/core/distributed_runtime/master.cc:267] CreateSession still waiting for response from worker: /job:worker/replica:0/task:0 2018-12-13 12:02:29.539926: I tensorflow/core/distributed_runtime/master.cc:267] CreateSession still waiting for response from...
hi,您好,想问以下start_queue_runners这个是做什么的? 我在tensorflow的cifar10的单机多GPU,和这儿的同步更新,都看见要调用这个。 可是异步更新却不需要,请问这是为什么呢
我在Windows电脑上也运行命令,得出 > CUDA_VISIBLE_DEVICES > 不是内部或命令,也不是可运行的程序。 问题可能有点蠢,多谢解答,如果您有时间。
PS端的输出
您好,非常感谢您贡献代码,我跑了您的程序。但是我现在的问题是,两个worker都在提示等待ps端的相应,但是ps端一值没有响应 下面是截图 ps 端:  worker1:  worker2:  发现两个worker都在等待ps的响应,但是不知道这个为什么没有响应, 请问您知道这个原因吗?