复盘不是讲谁干错了,是讲流程哪根筋没绷住。你写信息中心报告,故障部分别写时间线流水账,重点盯三个断点:预警有没有响、切换有没有卡、回滚有没有拖。每个断点下只写两句话,当时系统在干什么,人手在干什么。别解释原因,写动作。比如“告警阈值设在CPU 92%,但扩容脚本触发线是95%”,这就够了。