分布式tensorflow如何关闭server?
创建两个ps server,两个worker client,运算然后退出。但是问题是两个worker client运行完退出后,ps server的Container并没有退出,因为还停在server.join()里。
我的问题是:
- ps server不退出的原因是什么?
- 如何在client计算完成后关闭server?
同一台机器的两个Container不能通信么。worker一直卡着没有日志
正常情况下,worker运行结束后,am会向ps container发出作业完成信号,ps接收信号自行退出。此处没退出的原因需要排查日志分析。 同台机器可以启两个container,worker卡住需查看逻辑具体分析。是跑的demo出现的问题?
是跑Tensorflow demo出现的问题。。现在用了两台机器的NodeManager就是跑不通,其中一个是这个状态一直卡在这,个人感觉是因为另一个worker提前结束了,导致这个worker一直等着通信。
为什么Container会很快Complete呢?

而且demo是没问题的,我把demo.py 在同台机器,和不同机器跑都是没问题的
麻烦先排查下最早出现COMPLETE状态的container的退出原因(截图中是containerxxx_000003优先退出):是否存在RUNNING;如果存在RUNNING状态,则查看container日志的最后退出信息;若无,则查看NM端日志判断退出原因。因后边提示有task time out 日志,可能由于container中途被kill等原因导致的异常退出状态,与AM心跳通信超时。
@jiarunying Thank you!问题找到了。看了下NM日志内存配置小了,这个NM内存怎么从2G突然到了6G,然后到降下来,没想到这么吃内存
