DeepRec icon indicating copy to clipboard operation
DeepRec copied to clipboard

分布式训练期间ps的cpu持续增长,训练效率下降问题

Open Christian9971 opened this issue 1 year ago • 3 comments

训练期间ps的cpu使用率变化情况

image

训练期间chief的cpu使用率变化情况(worker类似)

image

训练期间每秒训练批次变化情况

image

tf1.15版本,使用1chief 1ps 4worker进行分布式训练,训练期间ps的cpu持续增长,chief和worker的cpu后续有降低的情况,每秒训练批次也变少了,这是因为什么原因?

Christian9971 avatar Aug 02 '24 02:08 Christian9971

请使用perf 查看一下ps 进程的cpu时间主要消耗在哪些函数里面,再进一步分析这些消耗是否合理

candyzone avatar Aug 06 '24 01:08 candyzone

请使用perf 查看一下ps 进程的cpu时间主要消耗在哪些函数里面,再进一步分析这些消耗是否合理

8338E47F-127B-47E2-ABE7-08B05CC34B6A 发现cpu时间主要消耗在Lookup这里,请问有什么解决办法吗?

Christian9971 avatar Aug 21 '24 10:08 Christian9971

推测,随着训练数据多,ps的table越来越大,查询消耗的cpu会越来越多,速度会越来越慢?

haolujun avatar Sep 11 '25 08:09 haolujun