DeepRec
DeepRec copied to clipboard
分布式训练期间ps的cpu持续增长,训练效率下降问题
训练期间ps的cpu使用率变化情况
训练期间chief的cpu使用率变化情况(worker类似)
训练期间每秒训练批次变化情况
tf1.15版本,使用1chief 1ps 4worker进行分布式训练,训练期间ps的cpu持续增长,chief和worker的cpu后续有降低的情况,每秒训练批次也变少了,这是因为什么原因?
请使用perf 查看一下ps 进程的cpu时间主要消耗在哪些函数里面,再进一步分析这些消耗是否合理
请使用perf 查看一下ps 进程的cpu时间主要消耗在哪些函数里面,再进一步分析这些消耗是否合理
推测,随着训练数据多,ps的table越来越大,查询消耗的cpu会越来越多,速度会越来越慢?