运维要学会“故意低效”：AI导致“技能退化”

随着 GPT-5.3 和 Claude-4.6 的发布，OpenClaw 的风行，智能运维似乎终于要到达某种“奇点”。从日志异常检测、根因分析，甚至故障自愈，AI SRE 智能体替代日常运维工作看起来已成定局。但我发现，SigNoz 公司上周发表了一篇观察(AI Isn’t Replacing SREs. It’s Deskilling Them)，同时还有另一份相似的科研论文(How AI Impacts Skill Formation)，二者共同论证了一个概念：AI 不是在赋能 SRE，而是让 SRE “技能退化”。

01 自动化铁律：高效背后的系统性风险

文中引用了 Bainbridge 在 1983 年提出的“自动化铁律”（Ironies of Automation）作为核心依据。其定义指出：“自动化系统越先进、越可靠，人类操作员需要做的事情就越少，他们熟练处理故障的可能性就越小。”

从参与者退化为“监视器”：人类运维逐渐被降级为 AI 运维的监视器，但人类在生物学上不擅长“长时间保持被动监测”的认知状态。
AI RCA（根因分析）的局限：LLM 是根据常见问题训练的。对于 1% 的“黑天鹅”级复杂故障（AI 大概率会出现幻觉），一个技能退化的人类运维将无法接管。
长期认知负荷：虽然自动化降低了短期劳动，但增加了长期的系统性风险，因为人类运维逐渐失去了“第一性原理”推理能力。

02 航空业实战：向飞行员学习“故意低效”

为解决技能退化的风险，SigNoz 的博客提出了一个跨行业类比：航空业对自动驾驶系统的处理方式。现代客机早就能实现全自动飞行。然而，航空公司会强制执行“手动操控时间”政策。要求飞行员在气象条件允许、系统完全可以自动运行的情况下，故意脱离自动系统，低效地亲手操控飞机。

这种实战练习的核心价值在于：维持飞行员的“肌肉记忆”和“情境感知”。它确保在自动化系统失效的极端危机时刻，人类机组人员可以即刻接管飞行系统，而不是从头翻手册。

03 SRE 范式：引入防御性“故意手动排障”

将这一原则应用于运维领域，意味着我们必须在 AI SRE 的设计中，引入防御性“故意低效”的人工时刻：

策略 A：强制性“无 AI 调试时间” 在非紧急故障或定期演练中，强制禁止使用 AI 智能体系统，让运维工程师回归基础工具。以及将混沌工程作为技能退化的具体缓解策略：通过人为注入故障并要求 SRE 徒手排障，维持其工程直觉。
策略 B：对 AI RCA 的“情境复盘” SRE 不能仅点击“修复”或接受 AI 的 RCA。在复盘会议中，强制手动重构逻辑链路：要求运维在不使用 AI 的情况下，从 Metrics、Tracing 和 Logging 出发，验证并解释“为什么”这是根因。

参考资料：

SigNoz Newsletter: “AI isn’t replacing SREs, it’s deskilling them”
arXiv:2601.20245: “How AI Impacts Skill Formation”