JiaRunYing

Results 14 comments of JiaRunYing

hadoop2.6.0请拉取新版本代码,修改pom.xml文件,使用cdh的hadoop对应版本进行重新编译

正常情况下,worker运行结束后,am会向ps container发出作业完成信号,ps接收信号自行退出。此处没退出的原因需要排查日志分析。 同台机器可以启两个container,worker卡住需查看逻辑具体分析。是跑的demo出现的问题?

麻烦先排查下最早出现COMPLETE状态的container的退出原因(截图中是containerxxx_000003优先退出):是否存在RUNNING;如果存在RUNNING状态,则查看container日志的最后退出信息;若无,则查看NM端日志判断退出原因。因后边提示有task time out 日志,可能由于container中途被kill等原因导致的异常退出状态,与AM心跳通信超时。

https://github.com/Qihoo360/XLearning/blob/master/doc/faq_cn.md 中的9项内容有对应说明

1、TensorFlow example的示例脚本是基于1.1版本写的,xlearning仅为调度平台,原则上支持的TensorFlow版本不受限制(内部使用1.12版本没有问题) 2、pb保存模型出错需要根据作业的报错情况具体分析

这种情况建议直接使用hdfs进行存储,TensorFlow支持对hdfs文件的读取

$XLEARNING_HOME/logs files is for the jobhistory start service, not related to the application. Please see the RM log or AM error log information at the local hadoop log dir or...

现在不支持Kerberos,欢迎有需求的小伙伴们修改并提pr (*^▽^*)

local resource 下载超时,排查: 1)cacheFile,cacheArchive,file等文件数据及大小,如果较大,则通过调整 --conf xlearning.localresource.timeout 大小,单位为毫秒; 2)cacheArchive的压缩格式是否为hadoop支持的格式; 3)具体信息可以结合container所在节点的nodemanager日志确认排查

目前不支持kerberos验证