分布式训练期间ps的cpu持续增长，训练效率下降问题

Open Christian9971 opened this issue 1 year ago • 3 comments

tf1.15版本，使用1chief 1ps 4worker进行分布式训练，训练期间ps的cpu持续增长，chief和worker的cpu后续有降低的情况，每秒训练批次也变少了，这是因为什么原因？

Aug 02 '24 02:08 Christian9971

请使用perf 查看一下ps 进程的cpu时间主要消耗在哪些函数里面，再进一步分析这些消耗是否合理

Aug 06 '24 01:08 candyzone

请使用perf 查看一下ps 进程的cpu时间主要消耗在哪些函数里面，再进一步分析这些消耗是否合理

发现cpu时间主要消耗在Lookup这里，请问有什么解决办法吗？

Aug 21 '24 10:08 Christian9971

推测，随着训练数据多，ps的table越来越大，查询消耗的cpu会越来越多，速度会越来越慢？

Sep 11 '25 08:09 haolujun