亚马逊云计算数据中心遭雷击更多细节

责任编辑:sunshine

2011-08-17 09:50:04

摘自:赛迪网

上周,亚马逊在都柏林数据中心遭雷击,当时亚马逊表示数据中心需要10天左右时间来维修。本周,亚马逊发布了一份详细的事故报告。

上周,亚马逊在都柏林数据中心遭雷击,当时亚马逊表示数据中心需要10天左右时间来维修。本周,亚马逊发布了一份详细的事故报告。

为什么发电机无法启动

一般来说,当市电中断时,数据中心会无缝启用备用发电机。可编程逻辑控制器(PLC)能够实现发电机与供电系统的同步。在这种情况下,其中一个PLC没有完成与发电机连接。目前,亚马逊观测了该PLC的状态和行为,主要原因是PLC的接地故障导致它没有正常工作。“我们正在与供应商,并进行进一步分析,以确认所涉及的设备。”亚马逊表示,将增加更多的冗余和其PLC的隔离,并与供应商的工作添加一个备份的PLC。

管理软件存在的问题

在一些情况下,软件程序会管理复杂的复苏过程。第一次停电后不久。“管理服务器接收请求,要求继续管理受影响区域。但由于在受影响的可用性区域管理服务器无法访问,路由到这些服务器的请求失败。其次,在管理服务器接收到请求,但这些请求开始大量的排队。“我们重载管理服务器接收请求,等待这些排队的请求完成。这两个因素的结合,导致长时间的延时和更高的错误发生。”

EBS软件的问题

在停机中,受影响最严重是亚马逊的弹性块存储(EBS)。软件错误检测到停电前,在恢复过程中产生了诸多问题。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号