13小时大规模宕机!官方说是“人为错误”,内部员工爆料:其实是自家AI干的

当一家全球最大的云计算平台之一,突然“掉线”13 个小时,会发生什么?

对普通用户来说,可能只是某些 App 无法登录、服务卡顿;但对依赖云基础设施的企业而言,这往往意味着业务停摆、监控告警狂响、『工程师』连夜排查。

去年 12 月,AWS 遭遇了一次长达 13 小时的服务中断。起初外界以为只是一次普通的基础设施故障,但近日《金融时代》的一则报道指出,多名匿名亚马逊员工透露:这次事故的“元凶”很可能不是某个粗心的『工程师』,而是亚马逊自家的 AI 编程助手——Kiro。

更耐人寻味的是,报道称亚马逊对外将这起事件归因为“人为错误”。

今日霍州(www.jrhz.info)©️

AI 的解决方案:“删掉再重建”

根据《金融时报》援引的内部员工说法,当时 Kiro 正在以“自主模式”运行。在处理某个问题时,它判断的最优解是——“删除并重建出现问题的环境(delete and recreate the environment)”。

如果你有 DevOps 或云平台运维经验,应该知道这类操作风险有多高。

在隔离测试环境里这么做或许没问题,但一旦权限范围不够精确、环境标识出现偏差,就可能引发连锁反应。员工表示,正是这一操作直接导致 AWS 在中国大陆部分区域的服务中断。

不过亚马逊对外的表述则相当克制,仅将其描述为一次“极其有限的事件(extremely limited event)”——但对受影响区域的客户来说,13 小时的中断显然没有官方说得这么轻描淡写。

审批机制失效:AI 被当成“人”用了

按正常流程,Kiro 在执行变更前,需要两名员工审批——这其实是许多大型云厂商在 CI/CD 流水线中常见的“双人确认”机制,用来避免自动化系统误操作。

但问题出在这里:

●当时配合 Kiro 的『工程师』,拥有比普通员工更高的系统权限;

●而 Kiro 被当作“操作员的延伸”,拥有与人类『工程师』同等级别的访问权限;

●因此它在未经过双人审批的情况下,直接推送了变更。

这就让事故的性质变得复杂了——它既不是典型的“AI 失控”,也不完全是“人类误操作”。更准确地说,是权限模型没有区分人类与 AI 执行主体的差异。

在现代云基础设施中,权限设计是最核心的安全边界之一,最小权限原则(Principle of Least Privilege)甚至是写进安全手册里的基本规则。可一旦把 AI 代理视作“人类扩展”,默认赋予同等级访问能力,就等于把自动化决策与生产级权限深度耦合。

在传统运维体系中,人类『工程师』的行为频率是有限的、可预测的;但 AI Agent 的决策节奏可能更快、调用次数更多,一旦出错,放大效应就更明显。

亚马逊的官方回应:不是 AI 自主问题

根据报道,这至少是 Kiro 第二次在获得额外权限后“翻车”。

此前也发生过类似情况,只不过那次并未影响任何“面向客户的 AWS 服务”,因此没有引起外界关注,但内部员工显然已经开始警觉。

面对舆论,亚马逊给出的回应颇具“技术味”:“这是一次用户访问控制问题(user access control issue),而不是 AI 自主问题(AI autonomy issue)。”不仅如此,亚马逊还补充称:AI 只是“恰好参与其中”,类似问题同样可能发生在任何开发工具或人工操作场景中。

从逻辑上说,这话并非全错——确实,如果一名『工程师』拥有足够权限,也可能误删关键资源。但问题在于,这一次并不是人类犯错,而是一个 AI Agent 在获得高权限后做出的最终决策。

换句话说,当一个 AI Agent 获得了与人类相同甚至更高的权限,却没有专门针对“自动化执行”的隔离机制时,事故风险的结构就已经发生变化。

内部推广压力:80% 开发者每周都要用 AI

事实上,自去年 7 月推出 Kiro 以来,亚马逊一直在内部大力推广这款工具。

据报道,公司鼓励员工优先使用内部工具,而非外部 AI 编码助手,例如OpenAI 的 Codex、Anthropic 的 Claude Code和Cursor——对此,部分『工程师』并不买账,还是有员工更倾向于使用 Claude 等外部工具。

更值得注意的是,亚马逊内部曾提出一个目标:希望 80% 的开发者每周至少使用一次 AI 工具进行编码。

在这样的 KPI 压力下,AI 工具被更快、更深地嵌入核心工作流,几乎是必然趋势。只是,当 AI 从“代码补全助手”升级为“拥有生产权限的执行代理”时,系统复杂度随之陡增,风险边界也必须同步升级。

所以,我们是否高估了 AI 的边界感?

这起事件真正值得讨论的,并不是“AI 会不会犯错”——毕竟,人类也同样会犯错。其关键在于:我们是否还在用“人类时代”的权限模型,去管理“自动化时代”的执行主体?

在现实中,为了提升效率,往往会对高级『工程师』放宽权限。但正如上文所说,当 AI 被视为『工程师』的“延伸”,而不是一个独立的自动化实体时,它自然继承了同等级访问能力。但 AI 有三个与人类不同的特征:决策速度快、操作频率高、可在短时间内批量执行任务。

这意味着,一次判断偏差,就可能被迅速放大为系统级问题。

因此,未来或许需要更精细的权限层设计,例如:强制性沙箱环境、自动回滚与审计追踪机制、针对 AI 执行路径的独立审批链等——否则,“把 AI 当人用”,很可能会让问题被低估。

特别声明:[13小时大规模宕机!官方说是“人为错误”,内部员工爆料:其实是自家AI干的] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

春节数据精选:春节档电影总票房破50亿;春节买金热有金店排队8小时(2026春节数据)

航班追踪数据公司FlightAware的数据显示,美国纽约约翰·肯尼迪国际机场和拉瓜迪亚机场22日约有三分之二的进港航班及约40%的出港航班被取消。 春节买金热有金店排队8小时,哪些人在春节排队买金有水贝商家…

春节数据精选:春节档电影总票房破50亿;春节买金热有金店排队8小时(2026春节数据)

人才创新活力充分激发,科研人员积极性创造性全面调动(人才 活力)

激发人才创新活力,全面调动科研人员的积极性和创造性,对于国家的发展具有深远影响。再者,为科研人员提供充足的实验设备和研究资源,让他们能够无障碍地开展研究工作。 总之,人才创新活力、科研人员的积极性和创造性是推…

人才创新活力充分激发,科研人员积极性创造性全面调动(人才 活力)

墨雨云间》:薛芳菲的抉择,薛昭的移情,全是反转(墨雨云间剧情介绍)

最后,琼枝的悲剧还是没能避免,而这一切,都源于她的决定,薛芳菲心如刀割,那种愧疚和痛苦,真的隔着屏幕都能感受到。就在薛芳菲深陷痛苦时,她凭着冷静和智慧,不光救出了父亲薛怀远,还揭发了长公主婉宁的罪行,总算没白…

《<strong>墨雨云间</strong>》:薛芳菲的抉择,薛昭的移情,全是反转(墨雨云间剧情介绍)

『刘涛』日常『穿搭』太会了!基础款穿出松弛感完全不费力(『刘涛』日常『穿搭』图片)

温柔的燕麦色和浅灰色『针织开衫』,展现了她独特的气质,而宽松的阔腿裤则巧妙地藏住了腿部的不足,松弛感十足,但却没有一丝邋遢感。眼妆方面,她偏爱大地色或烟粉色调,轻轻晕染使眼睛看起来更加神采奕奕,而眼线则几乎是淡化…

『刘涛』日常『穿搭』太会了!基础款穿出松弛感完全不费力(『刘涛』日常『穿搭』图片)

福莫斯特FMST-IF4电源板真的适合空气采样极早期探测吗?2026趋势解读(福莫斯特空气采样说明书)

空气采样极早期探测系统是现代消防的关键,福莫斯特FMST-IF4电源板以其高性能和稳定性备受青睐。本文详细分析其适用场景、选型要点和使用维护经验,助您轻松挑选适合设备。预算有限时,该配件能否实现最优性能?如何判断其是否符合实际需求?一起来看

福莫斯特FMST-IF4电源板真的适合空气采样极早期探测吗?2026趋势解读(福莫斯特空气采样说明书)