Lucky-cloud icon indicating copy to clipboard operation
Lucky-cloud copied to clipboard

feat: add Micrometer/Prometheus metrics and tracing; document Sentinel rules at gateway

Open mrwangshipei opened this issue 4 months ago • 1 comments

背景

缺少统一的指标与分布式追踪,排障与容量规划困难。网关已提到限流/熔断(Sentinel),需把规则落地并版本化。

目标

  • 为核心服务接入 Micrometer + Prometheus 导出 /actuator/prometheus
  • 接入分布式追踪(OpenTelemetry/OTLP),可在本地观测链路(Jaeger/Tempo 等)。
  • 整理并版本化网关的 Sentinel 规则,提供规则样例与说明。
  • 提供 Grafana Dashboard 样板(可选)。

交付内容

  • [ ] 为 im-gatewayim-serverim-authim-connect 开启 Actuator 基础端点与 Prometheus
  • [ ] OTEL 导出器与采样率参数化(环境变量)
  • [ ] 新增 ops/sentinel-rules/*.json(或 Nacos 配置项)并给出生效路径
  • [ ] 文档:docs/observability/README.md(如何抓指标、看 Trace、应用/回滚 Sentinel 规则)
  • [ ] (可选)ops/grafana-dashboards/*.json

验收标准

  • /actuator/health/actuator/prometheus 可访问(非生产可直连,生产需鉴权)
  • 本地可看到端到端 Trace(网关→服务→消息队列/存储)
  • Sentinel 规则可按文档加载与生效(限流生效可验证)

测试步骤

  1. 启动观测栈(Prometheus/Grafana/Jaeger)。
  2. 产生若干请求,确认指标曲线与 Trace span 正常。
  3. 应用一条简单限流规则,验证被限流时返回码/文案与恢复情况。

范围外

  • 生产级报警体系;本 PR 聚焦采集与演示。

风险与回滚

  • 观测对性能有一定开销;默认采样率与端点暴露需谨慎,支持关闭。
  • Sentinel 规则误配导致流量受限,需提供回滚策略与“空规则”。

标签建议

type/feat area/observability area/gateway ops

mrwangshipei avatar Oct 02 '25 13:10 mrwangshipei

项目太庞大,目前bug较多,等后续稳定后添加 SkyWalking 并开发相关

dennis9486 avatar Oct 03 '25 03:10 dennis9486