AWS 数据中心再出断电事故，丢失数据超过1TB

责任编辑：cres |来源：企业网D1Net 2019-09-05 15:18:20 本文摘自：云技术

美国劳动节（9月第一个星期一）周末，亚马逊网络服务中心的一个数据中心发生断电，导致部分客户数据丢失。

我们被告知，当电源耗尽，备份生成器随后出现故障时，一些虚拟服务器实例就会消失，而一些云承载的卷就会被销毁，必须从备份中恢复（在可能的情况下）。

今天一位注册读者向我们透露，周六上午，亚马逊的云业务开始在其us - east -1地区遭遇崩溃。

我们的情报人员告诉我们，他们在Amazon的云托管Elastic Block Store（EBS）中有超过1TB的数据，这些数据在宕机期间消失了：他们被告知“与您的EBS卷相关的底层硬件发生了故障，与卷相关的数据不可恢复。”

我们的读者要求保持匿名，他能够手动从大约8小时前方便地拍摄的EBS快照中恢复数据。没有这个备份，他们可能无法恢复任何丢失的信息：亚马逊的工程师们能够恢复绝大多数被击落的系统，尽管不是所有的存储容量都能在这次硬着陆中幸存下来。

AWS工作人员告诉那些不幸的客户，尽管他们试图恢复丢失的比特和字节，但有些1和0被永久打乱了：“少量的卷是驻留在硬件损失的不利影响的力量。但是，由于power事件造成的损坏，这些卷的底层EBS服务器还没有恢复。

“在进一步尝试恢复这些卷之后，它们被确定为不可恢复的。”

与此同时，一个客户和技术顾问Andy Hunt，不仅在推特上抱怨说，他们的数据在断电时被破坏，但还声称失败的原因并不是迅速传达到用户：“AWS电源故障，备用发电机失败，造成他们死亡EBS服务器，它带着我们所有的数据。然后他们花了四天的时间才弄明白并告诉我们。

“提醒：云只是莱斯顿的一台电源不好的计算机。”

记者无法联系到AWS发言人置评。

“受损”

虽然AWS的状态页面上公布了一些停机时间的细节，但El Reg看到了一系列更详细的通知，这些通知向客户解释了这个错误。

就在 11：00 PDT之前，AWS指出，“在US-East-1地区的六个可用区域之一的十个数据中心中，有一个出现了公用电力故障。备用发电机立即启动，但由于我们仍在调查的原因，在 06：00 PDT左右开始迅速失灵。”

“这导致该可用性区域中7.5%的实例在 06：10 PDT之前失败，”报告继续说道。“在过去几个小时内，我们已经恢复了大多数实例，但在可用性区域内仍有1.5%的实例有待恢复。EBS也存在类似的影响，我们将继续恢复EBS中的卷。在该区域启动新实例将继续正常工作。”

大约几小时后，在太平洋标准时间13：30分，AWS澄清并扩展了它的说明如下：

在 04：33 PDT，位于US-East-1地区六个可用区域之一的十个数据中心之一出现了公用电力故障。我们的备用发电机立即启动，但在06：00 PDT左右开始失灵。这影响了可用性区域中7.5%的EC2实例和EBS卷。

在PDT为 07：45 时，受影响的数据中心已完全恢复供电。到 10：45 PDT时，除1%以外的所有实例都恢复了，到 12：30 PDT时，只有0.5%的实例仍然受损。自影响开始以来，我们一直在努力恢复剩余的实例和卷。少量剩余的实例和卷托管在硬件上，这些硬件受到断电的不利影响。我们将继续努力恢复所有受影响的实例和卷，并将通过个人健康仪表板与其余受影响的客户进行通信。为了立即恢复，我们建议尽可能替换任何剩余的受影响的实例和卷。

因此，根据Amazon的说法，实际上，在美国西海岸时间周六凌晨，AWS数据中心断电，一个半小时后，备份生成器发生故障，在可用性区域内，每10台EC2虚拟机和EBS卷中只有1台宕机。

几个小时后，99.5%的受影响系统已经恢复，而在那些仍然“受损”的系统中，有些是不可恢复的，这迫使订阅者取出备份——假设他们保留了备份。

关键字：数据中心