nacos icon indicating copy to clipboard operation
nacos copied to clipboard

Nacos 2.1.0集群操作下线某台机器后不会自动断grpc连接引发故障

Open goto456 opened this issue 3 years ago • 8 comments

  • 环境:Nacos 2.1.0,Dubbo 2.7.16
  • 操作步骤:在Nacos 集群web管理页面,点击“下线”某个节点;
  • 现象:只是将该节点机器从集群中剔除,但是还有dubbo的实例与下线的节点机器保持着grpc长连接并未断开;而此时该机器上的实例已经不全了,导致dubbo的服务发现出现故障。
  • 期望:web页面点击“下线”某节点后,出发该下线的节点机器断开grpc连接,触发dubbo实例重新和其他未下线的节点机器建立连接。

goto456 avatar Sep 15 '22 08:09 goto456

你下线的是服务端的节点还是实例?

realJackSun avatar Sep 15 '22 08:09 realJackSun

如果是服务端节点的话,”下线“按钮在早期点击之后,会断开gRPC连接的;但由于下线功能存在一些问题,后来后端把这个按钮暂时关闭了,但是前端还保留。。如果社区有朋友有兴趣,可以重新理一下这个下线和上线的逻辑 image

realJackSun avatar Sep 15 '22 08:09 realJackSun

如果是客户端节点的话,”下线”按钮本来就是在告知其他节点,不要再去访问该节点。

我觉得正确操作流程,应该是, 1、在Dubbo侧修改配置 2、在Nacos服务端上下线 3、摘除该instance

realJackSun avatar Sep 15 '22 08:09 realJackSun

是下线nacos集群的节点,不是下线dubbo的实例

goto456 avatar Sep 15 '22 13:09 goto456

如果是服务端节点的话,”下线“按钮在早期点击之后,会断开gRPC连接的;但由于下线功能存在一些问题,后来后端把这个按钮暂时关闭了,但是前端还保留。。如果社区有朋友有兴趣,可以重新理一下这个下线和上线的逻辑 image

我是nacos2.1.0版本,前端点击“下线”按钮后,其他集群节点的cluster.conf中把下线的这个节点的ip剔除了,但是grpc没断开,应该就是你说的这个意思吧。

goto456 avatar Sep 15 '22 13:09 goto456

如果是服务端节点的话,”下线“按钮在早期点击之后,会断开gRPC连接的;但由于下线功能存在一些问题,后来后端把这个按钮暂时关闭了,但是前端还保留。。如果社区有朋友有兴趣,可以重新理一下这个下线和上线的逻辑 image

我是nacos2.1.0版本,前端点击“下线”按钮后,其他集群节点的cluster.conf中把下线的这个节点的ip剔除了,但是grpc没断开,应该就是你说的这个意思吧。

data: "/v1/core/cluster/server/leave API not allow to use temporarily."

Daydreamer-ia avatar Sep 16 '22 10:09 Daydreamer-ia

服务端下线接口有很多问题,最新版本已经禁用了,等待社区重新设计之后再补充。

KomachiSion avatar Sep 21 '22 06:09 KomachiSion

服务端下线接口有很多问题,最新版本已经禁用了,等待社区重新设计之后再补充。

好的,感谢答疑

goto456 avatar Sep 22 '22 02:09 goto456

请问下如果手动在cluster.conf中移除某个节点是否一样存在这个问题?谢谢。如果我手动移除前,现在SLB侧将该节点ip移除,再做cluster.conf 操作,是否就不会遇到此问题?

Linzyoo avatar Dec 16 '23 05:12 Linzyoo