复盘不是查责任人,是画清楚故障怎么一步步滑下去的。开头就定调:这次故障暴露了哪个环节的响应断层。时间线只写关键节点,跳过谁几点打了几个电话这种废话。每个原因后面必须带一句“下次怎么卡住它”,不能光说“网络波动”。最狠的一招是把技术原因翻译成流程漏洞,比如“DNS解析超时”改成“缺乏第三方服务健康检查机制”。