MicrosoftAzure重大故障是由一个简单的拼写错误引起的

摘要 巴西南部地区的MicrosoftAzureDevOps中断持续了10多个小时,原因是代码中的拼写错误导致17个生产数据库被删除。在就此次中断向受影响的客户...

巴西南部地区的MicrosoftAzureDevOps中断持续了10多个小时,原因是代码中的拼写错误导致17个生产数据库被删除。

在就此次中断向受影响的客户表示歉意后,微软现已发布了一份完整的事后分析报告,分享了从世界标准时间5月24日12:10首次发现中断起,到22:31采取补救措施为止的调查详细信息。同一天(UTC)。

Microsoft首席软件工程经理EricMattingly分享了构成Sprint222一部分的代码库升级的详细信息。拉取请求中存在快照删除作业中隐藏的拼写错误,最终删除的是AzureSQLServer,而不是单个AzureSQL数据库。

Mattingly解释说:“当该作业删除AzureSQLServer时,它还删除了该规模单元的所有17个生产数据库”,确认在意外过程中没有丢失任何数据。

20分钟内就检测到了停电,此时该公司的待命工程师开始工作,但根据事件日志,根本原因是在16:04确定的,即停电开始后近四个小时。

微软将超过十个小时的修复时间归咎于客户自己无法恢复AzureSQLServer,以及备份冗余复杂性和“[其]Web服务器的一系列复杂问题”。

从错误中汲取教训后,微软并未承诺为其关键资源推出Azure资源管理器锁,以防止未来的意外删除。

尽管当天进行了修复,但该地区的客户在几个小时内无法访问某些服务,这强调了事情很容易出错,以及制定备份计划以减少对单一服务提供商(包括云存储)的依赖的重要性和其他场外基础设施。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。