Please turn JavaScript on

快猫星云 Flashcat | 一站式智能观测平台 on 快猫星云Flashcat

Is this your feed? Claim it!

Publisher:  Unclaimed!
Message frequency:  1.58 / day

Message History

灭火图只有卡片飘红还不够。 它只能告诉你“哪里可能异常”。真正减少排障弯路的,是下钻规则。 一张支付接口卡片飘红后,值班人不应该再问:日志在哪个索引?Trace 里服务名叫什么?Grafana 大盘地址是什么?时间范围怎么选?接口路径填哪个字段? 下钻规则要做的事很直接:把异常对象和相关日志、Trace、仪表盘、其他卡片、拓扑、只读工作流连接起来,并自动带上时间范围、服务名、接口路径、实例地址、集群、环境等上下文。 所以,下钻规则不是“加几个链接”,而是把团队排障经验固化成产品路径。 先设计排障路径,再配置入口 很多团队一开始就问“能不能跳到日志、Trace、Grafana”。这不是最好的起点。

Read full story
灭火图真正跑起来以后,最怕的不是卡片少,而是卡片不可维护。 手工建卡片,短期看很快:一个接口一张、一个服务一张、一个实例一张。系统一变,问题就来了:新对象没人补,旧对象没人删,阈值和标签开始漂移,下钻参数也不一致。 灭火图的推荐方式不是手工堆卡片,而是用卡片规则批量生成卡片。卡片规则解决四件事: 从数据源自动发现观测对象。 统一卡片路径、名称、标签、指标和异常条件。 让系统变化后卡片能周期更新。 给下钻、告警、SLO 和 FlashAI 留下稳定对象上下文。 一句话:卡片规则不是省时间的小工具,而是灭火图可维护性的基础。

Read full story
Zabbix 接入 Flashduty,不是要替换 Zabbix。 Zabbix 继续负责监控主机、网络、数据库、中间件和各种基础设施。Flashduty 负责接住 Zabbix 发出来的告警,把它变成可分派、可认领、可升级、可复盘的故障。

Read full story
Prometheus 告警接入 Flashduty,最短路径其实很简单。 不用替换 Prometheus。 不用重写告警规则。 不用先把所有团队和值班表都设计完。 第一步只要做一件事:让 Alertmanager 通过 Webhook 把告警推送到 Flashduty。

Read full story
很多团队不是不知道要做故障复盘。 他们的问题是:复盘太难写,也太容易写废。 故障刚恢复时,值班人要补业务,研发要修根因,Leader 要同步管理层,客服要回复客户。等真正开始写复盘报告,已经过去了几天。 这时候最常见的场景是:翻告警记录、翻群聊、翻监控截图、翻工单、问当时谁做了什么、凭记忆补时间线,最后写出一份看起来完整、但很难指导改进的报告。 这种复盘报告通常有两个问题。 第一,它像事故说明,不像改进工具。报告写了“发生了什么”,但没有讲清楚为什么发生、哪里响应慢、下一步谁来改。 第二,它太依赖人肉整理。每次都从空白页开始,复盘质量取决于当事人有没有时间、耐心和写作能力。 AI 可以解决一部分问题,但边界要说清楚。AI 不应该替团队下根因结论,也不应该替负责人承诺改进项。AI 最适合做的是:把已经存在的故障上下文整理成结构化初稿,让团队不用从空白页开始。

Read full story