dailong
dailong
 同一台机器的两个Container不能通信么。worker一直卡着没有日志
是跑Tensorflow demo出现的问题。。现在用了两台机器的NodeManager就是跑不通,其中一个是这个状态一直卡在这,个人感觉是因为另一个worker提前结束了,导致这个worker一直等着通信。  为什么Container会很快Complete呢? 
而且demo是没问题的,我把demo.py 在同台机器,和不同机器跑都是没问题的
@jiarunying Thank you!问题找到了。看了下NM日志内存配置小了,这个NM内存怎么从2G突然到了6G,然后到降下来,没想到这么吃内存  
这是hadoop 版本问题,2.6及以下没有build 方法
模型路径下的quantization.py文件:52与53行之间和62与64行之间分别加入weight = weight.to(torch.float)就可以了 @feyxong