Lucky-cloud
Lucky-cloud copied to clipboard
feat: add Micrometer/Prometheus metrics and tracing; document Sentinel rules at gateway
背景
缺少统一的指标与分布式追踪,排障与容量规划困难。网关已提到限流/熔断(Sentinel),需把规则落地并版本化。
目标
- 为核心服务接入 Micrometer + Prometheus 导出
/actuator/prometheus。 - 接入分布式追踪(OpenTelemetry/OTLP),可在本地观测链路(Jaeger/Tempo 等)。
- 整理并版本化网关的 Sentinel 规则,提供规则样例与说明。
- 提供 Grafana Dashboard 样板(可选)。
交付内容
- [ ] 为
im-gateway、im-server、im-auth、im-connect开启 Actuator 基础端点与 Prometheus - [ ] OTEL 导出器与采样率参数化(环境变量)
- [ ] 新增
ops/sentinel-rules/*.json(或 Nacos 配置项)并给出生效路径 - [ ] 文档:
docs/observability/README.md(如何抓指标、看 Trace、应用/回滚 Sentinel 规则) - [ ] (可选)
ops/grafana-dashboards/*.json
验收标准
-
/actuator/health与/actuator/prometheus可访问(非生产可直连,生产需鉴权) - 本地可看到端到端 Trace(网关→服务→消息队列/存储)
- Sentinel 规则可按文档加载与生效(限流生效可验证)
测试步骤
- 启动观测栈(Prometheus/Grafana/Jaeger)。
- 产生若干请求,确认指标曲线与 Trace span 正常。
- 应用一条简单限流规则,验证被限流时返回码/文案与恢复情况。
范围外
- 生产级报警体系;本 PR 聚焦采集与演示。
风险与回滚
- 观测对性能有一定开销;默认采样率与端点暴露需谨慎,支持关闭。
- Sentinel 规则误配导致流量受限,需提供回滚策略与“空规则”。
标签建议
type/feat area/observability area/gateway ops
项目太庞大,目前bug较多,等后续稳定后添加 SkyWalking 并开发相关