📚 运维 全难度 📦 Anthropic

incident-response

线上事故响应流程:定位、止损、根因、复盘。

8.5 /10 ★★★★☆
📅 2026-06-15 · 🕒 5 分钟阅读 · 最后更新 2026-06-15 · 来源: Anthropic · 分析测评
#sre#incident#on-call
📄 相关文章

📊 评分明细

功能完备度
8.5 核心功能齐全
🎯 易用性
8.2 安装即用
🔧 可扩展性
8.3 声明式配置
🔗 生态协同
8.4 可链式调用
🛡️ 稳定性
8.8 内置验证流程

🎯 适用场景

sreincidenton-call

incident-response 快速入门

让 AI 在生产事故中”当一个冷静的副驾驶”,按标准流程帮你定位、止损、复盘。

这是什么?解决什么问题?

incident-response 是社区在 JackyST0/awesome-agent-skills 索引下收录的一个 Anthropic 生态 Skill,核心用途是线上事故响应流程的标准化。它解决的问题,是事故发生时最常见的几个”组织性灾难”:

  • 不知道谁在管这件事,一群人在群里来回 @ 浪费 10 分钟。
  • 没人敢下”止损决策”,大家都在”再观察一下”,错过黄金止损窗口。
  • 事故结束后没人写复盘报告,同样的事故 3 个月后再来一次。
  • 复盘报告变成”甩锅大会”,而不是”系统改进输入”。

这个 Skill 沉淀的标准流程是 SRE 行业广泛采用的四阶段模型:

  1. 检测与定位(Detect):确认事故、确定影响面、拉值班人进战时频道。
  2. 止损(Contain):快速止血——回滚、限流、切流量、关功能,任何”能让事故不再扩大”的动作优先。
  3. 根因分析(RCA):止损后,做 5-Whys、时间线复盘,找到根本原因。
  4. 复盘与改进(Postmortem):写无指责复盘报告,产出可执行的 Action Items,跟踪落地。

它适合的场景:生产事故的标准化处理、新人 on-call 培训、事故复盘文档生成、运维 SOP 沉淀。

准备工作

  1. 一个支持 Skill 加载的 AI 编程助手(Claude Code / Cursor)。
  2. 团队有事故沟通频道(Slack / 飞书 / 企业微信)。
  3. 有事故级别定义(SEV1/2/3)、有 on-call 轮值表。
  4. Clone 仓库:
    git clone https://github.com/JackyST0/awesome-agent-skills.git
    
  5. 软链 Skill:
    ln -s awesome-agent-skills/skills/incident-response ~/.claude/skills/incident-response
    

3 步快速上手

第 1 步:安装 Skill

重启 AI 助手,Skill 生效。

第 2 步:验证安装

向 AI 发送请求:

“用 incident-response 给我一个 SEV1 事故的标准化处理流程清单,包含检测、止损、根因、复盘四个阶段。”

如果 AI 输出的是分阶段的 checklist,每阶段有明确的”完成定义”和”角色”,说明 Skill 加载成功。

第 3 步:用 incident-response 跑第一个任务

任务 1:事故实时辅助

假设你正在处理一个”支付接口 5xx 飙升”的事故,在战时频道里问 AI:

“我们现在支付服务 5xx 飙升到 30%,持续 10 分钟。请按 incident-response 流程,先帮我列出止损建议。”

AI 会输出:

## 阶段 1:止损(优先级最高,5 分钟内)

### 立即可做(30 秒内)
- [ ] 检查是否有最近一次部署,如果是,触发 `kubectl rollout undo deployment/payment`
- [ ] 检查是否是新功能导致,临时关闭"新支付渠道"功能开关(Feature Flag)

### 30 秒 - 2 分钟
- [ ] 拉取最近 5 分钟的 ERROR 日志,看是否有 stack trace 集中爆发
- [ ] 检查下游银行/三方支付接口连通性

### 2 - 5 分钟
- [ ] 启动限流:payment 服务对外部 QPS 限制到 50%
- [ ] 启动备用支付通道
- [ ] 通知客服:暂停向用户推送支付成功消息

任务 2:Postmortem 报告生成

事故解决后,让 AI 帮你写 Postmortem:

“请基于以下时间线,生成一份 incident-response 标准的 Postmortem 报告:

10:00 - 监控告警:支付服务 5xx > 5%
10:05 - on-call 张三确认事故,SEV1
10:08 - 发现是 14:30 部署的 v2.3.1 引入了新支付 SDK,有内存泄漏
10:15 - 回滚到 v2.3.0
10:20 - 5xx 恢复到 0.1%
10:30 - 复盘会开始
```"

AI 会输出结构化的 Postmortem 模板,包括时间线、根因、影响面、Action Items。

## 常见踩坑

1. **止损和根因混在一起做**。事故中同时想"止血"和"找原因",结果两头都做不好。Skill 强调"先止损,后根因",分阶段进行。
2. **没人有决策权**。"再观察一下"是事故中最贵的一句话,Skill 强调"指定 Incident Commander",所有止损决策由他一人拍板。
3. **状态不同步**。群里讨论热火朝天,实际在操作的人不知道,Skill 强调"所有进展在战时频道同步,主对话禁用"。
4. **复盘报告变成甩锅**。"都是张三的代码没测好"这种话术无助于改进,Skill 要求"无指责文化(blameless)",关注系统而非个人。
5. **Action Items 没有 owner 和 deadline**。复盘报告里"以后注意"是没用的,要"张三在 6 月 30 日前加上支付 SDK 内存监控"。
6. **不复盘"小事故"**。SEV3 也要写 Postmortem,否则小问题会演变成大问题,Skill 建议"所有 SEV1/2 必写,SEV3 抽样写"。

## 初级用法

**用法 1:事故响应 SOP 沉淀**。让 AI 按 Skill 帮你把团队的事故流程整理成标准 SOP,新人 on-call 直接照着做。

**用法 2:Postmortem 模板生成**。让 AI 按 Skill 帮你生成 Postmortem 模板(Markdown / Notion 数据库),事故后填空就行。

**用法 3:On-call 培训**。让 AI 模拟一个事故场景,让你按 Skill 流程走一遍,锻炼"战时反应"。

## 高级玩法

**玩法 1:GameDay 演练**。让 AI 在测试环境注入"事故"(比如 kill 某个 pod),让团队按 Skill 流程演练,事后 review 哪里没做对。

**玩法 2:自动止损剧本**。让 AI 帮你写"事故剧本"(Runbook),某些固定事故模式(如磁盘满、OOM)触发后自动执行,不需要人参与。

**玩法 3:SLO / Error Budget**。让 AI 帮你设计 SLO(Service Level Objective),比如"月可用性 99.95%",超了就停所有非必要发布,强制改进。

## 小技巧

1. **战时频道要单一**。一个事故一个频道,所有讨论只在这里发生,避免信息分散。
2. **Incident Commander 不能写代码**。IC 只能协调,不能亲自 debug,否则没人做决策。Skill 强调角色分离。
3. **时间戳精确到分钟**。Postmortem 时间线不要写"上午""下午",写 `10:00` `10:08`,方便后续回溯。
4. **截图胜过千言万语**。监控图、ERROR 日志截图都贴到 Postmortem,新人能直观理解事故。
5. **Action Items 进 Issue 跟踪**。不要让 Postmortem 停在文档里,每条 Action 都要建 Issue,设 owner 和 due date。

## 常见问题 FAQ

**Q1: 这个 Skill 跟 incident-response 有什么关系?必须装吗?**

A: Skill 是给 AI Agent 用的"技能包",能告诉 Agent 怎么按特定规范工作。**不是必须装**——如果你的项目规模小、要求不高,不装也能用。但装上能让 Agent 输出的质量更高、更符合最佳实践,推荐装。

**Q2: 这个 Skill 适合哪些 AI Agent?Cursor?Claude Code?其他?**

A: incident-response 来自 Anthropic,主要面向支持 Skill 机制的 Agent。常见兼容 Agent 包括 Claude Code、Cursor、OpenCode、Windsurf 等。具体兼容性请查 Skill 官方文档。

**Q3: 装了这个 Skill 后,会拖慢 Agent 响应吗?**

A: 会的——Skill 通常会增加 prompt 长度,导致响应变慢、token 消耗增加。但质量提升明显。建议:1) 只装项目必需的 Skill;2) 用 Skill 启动/加载/卸载机制按需加载;3) 定期清理不用的 Skill。

**Q4: 怎么验证 Skill 装对了?**

A: 在 Agent 中输入"列出已加载的 Skill"或类似命令。如果 Skill 出现在列表里,说明装对了。然后用 Skill 跑一个相关任务,看输出是否符合 Skill 规范。

**Q5: 这个 Skill 有许可证吗?能商用吗?**

A: 取决于 incident-response 的许可证。常见许可证包括 MIT(完全自由)、Apache-2.0(自由但有专利条款)、源可用(可看不能用)、GPL(强开源)。商用前请查仓库 LICENSE 文件。
## 参考链接

- incident-response 索引:https://github.com/JackyST0/awesome-agent-skills
- Google SRE Book(事故章节):https://sre.google/sre-book/managing-incidents/
- Atlassian Incident Handbook:https://www.atlassian.com/incident-management/handbook
- PagerDuty 事故响应指南:https://response.pagerduty.com/
- Etsy Debriefing Facilitation Guide:https://extfiles.etsy.com/DebriefingFacilitationGuide.pdf
---
> 本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。

incident-response Skill 多维度简评

综合评分:8.5 / 10 ⭐⭐⭐⭐ 类别:工程方法 来源:anthropics/skills 定位:故障应急响应:On-call 流程、Postmortem、Runbook 自动化。

声明:本文基于官方文档和公开资料整理,未经过 MagicNetWorld 实测。


一、核心定位与价值

incident-response 是 Anthropic 官方 Skills 仓库中的工程方法 Skill,面向 SRE 和运维团队。该 Skill 将 Google SRE 方法论中的事故管理最佳实践封装为 AI Agent 可执行的工作流,帮助团队在事故发生时快速响应、记录和处理,并在事故结束后生成结构化的 Postmortem 报告。

核心价值:故障应急响应:On-call 流程、Postmortem、Runbook 自动化。


二、核心能力清单

能力实现方式适用场景
事故声明生成结构化事故通知生产事故、On-call
状态更新模板定时 StatusPage 更新生产事故、对外沟通
Postmortem 模板无指责文化的事后分析事故复盘
Runbook 自动化分步操作指引常见故障处理
时间线记录事故全程时间线事后追溯

三、典型使用场景

场景 1:事故声明和沟通

提示词:
API 服务出现 5xx 错误率升高,帮我生成一份 StatusPage 事故声明,包含影响范围、用户影响和初步排查方向

Skill 根据事故类型生成标准化的事故声明模板。

场景 2:Postmortem 编写

提示词:
基于本次事故的时间线和根本原因,编写一份无指责的 Postmortem 报告

生成的 Postmortem 通常包含:事故时间线、根本原因分析、影响评估、修复措施和长期改进计划。

场景 3:Runbook 创建

提示词:
为数据库连接池耗尽故障创建一份 Runbook,包含诊断步骤、应急措施和回滚方案

Skill 自动生成分步骤的操作手册。

场景 4:与 PagerDuty 集成

提示词:
从 PagerDuty 获取最近 3 个告警,帮我分析是否为关联事故

Skill 支持与主流监控和告警工具的接口对接。


四、Postmortem 核心结构

一个完整的 Postmortem 报告包含以下要素(参考 Google SRE 实践):

  1. 事故摘要:时间、影响范围、持续时间
  2. 时间线:从发现到解决的关键事件
  3. 根本原因:技术层面的根因分析(5-Why)
  4. 影响评估:用户影响、业务影响
  5. 修复措施:已执行的即时修复
  6. 改进计划:长期预防措施和行动项
  7. 经验教训:团队从事故中学到了什么

五、常见使用误区

#误区说明正确做法
1”事故后写 Postmortem 太慢”使用 AI 模板生成初稿,人工补充细节事故后 24-48 小时内完成
2”小事故不需要 Postmortem”小事故可能暴露系统性风险设置事故等级阈值,但都记录
3”Runbook 写一次就够了”系统在变化,Runbook 需要持续更新每次事故后审查相关 Runbook
4”AI 不能处理真实事故”AI 辅助标准化流程,人工做关键决策AI 处理模板化工作,人做判断

六、安装与配置

# 通过 Claude Code 插件市场安装
/plugin marketplace add anthropics/skills
/plugin install incident-response@anthropic-agent-skills

# 手动安装
git clone https://github.com/anthropics/skills.git
cp -r skills/incident-response ~/.claude/skills/

七、总结

核心价值

  • 标准化事故响应流程
  • 自动化 Postmortem 生成
  • Runbook 创建与维护
  • 事故沟通模板

适用人群

  • SRE 工程师 / DevOps / 技术 Lead

投入产出比:⭐⭐⭐⭐ —— 推荐安装

incident-response Skill 将 Google SRE 的事故管理最佳实践融入 AI Agent 工作流,适合希望标准化事故响应流程的工程团队。


参考资料

📦 快速安装

1 Git Clone
git clone https://github.com/JackyST0/awesome-agent-skills.git
2 开发模式
ln -s awesome-agent-skills/skills/incident-response ~/.claude/skills/incident-response