KubeFATE icon indicating copy to clipboard operation
KubeFATE copied to clipboard

Is there any way to figure out why the kube-fate is so slow?

Open gxcuit opened this issue 3 years ago • 3 comments

Describe the bug 为了表述清楚,暂用中文。 在使用kube-fate via docker-compose 时候,发现建模速度很慢。单机版不存在这个问题,主要是无法定位问题 例如下述的任务,从提交到启动花费了近半分钟。对于横向lr,单机版只需要3分钟,而docker-compose 部署的,需要7分钟 image

不清楚是kube-fate 的问题还是fateflow 的问题,下述是fateflow 的log

(请忽略时区问题) 在board中看到是42分32秒提交的任务,但在flow的log中42分56秒才收到请求

image

看上去网络也不存在问题,通过请求version接口,响应也很快 image

我在(#3565)[https://github.com/FederatedAI/FATE/issues/3565] 里,好像也存在这个问题?观察第一张图的submit time 和start time

Desktop (please complete the following information):

  • kube fate 1.7.0 via docker-compose

gxcuit avatar May 13 '22 01:05 gxcuit

单机版和集群版任务流程不完全相同,不能简单对比时间,你可以看下这个链接,FATE任务的执行过程。 https://federatedai.github.io/FATE-Flow/latest/fate_flow/#overall-design

owlet42 avatar May 17 '22 04:05 owlet42

单机版和集群版任务流程不完全相同,不能简单对比时间,你可以看下这个链接,FATE任务的执行过程。 https://federatedai.github.io/FATE-Flow/latest/fate_flow/#overall-design

感谢回复! 我能使用单机版的执行流程,但host和guest在两台机器上吗?

gxcuit avatar May 19 '22 04:05 gxcuit

感谢回复! 我能使用单机版的执行流程,但host和guest在两台机器上吗?

单机版不支持多机器联邦,你需要使用集群版的FATE。

owlet42 avatar Jul 06 '22 06:07 owlet42