2017年2月的最后一天,对于IT圈来说,注定是多灾多难的一天。2月27日晚上,百度发生宕机,移动搜索功能长期无法使用。 3月1日凌晨,AWS的S3业务宕机5小时,导致一大批美国网站服务受损。两个事件都证明了一件事儿,业界“老大”一宕机,大家都得跟着受苦……
进入信息化社会后,数据量大幅度增加,IT变革一直在继续,而AWS的S3业务可谓是云计算鼻祖级业务。根据SimilarTech的数据显示,S3托管着148213个网站和121761个独立域名,几乎都是美国网站。在前排前100万的网站里,S3的使用率为0.8%,影响力巨大。
例如Airbnb、Pinterest、Time,、CNBC、Docker、IFTTT、Medium、Nest、News Corp、Quora、Razer、Slack、Sailthru和Zendesk等都是AWS S3的用户。5个小时的宕机时间,让此次事故成为AWS历史上公共云服务出错最长且影响最大的一次。
Amazon S3
AWS官方信息显示,Amazon Simple Storage Service (Amazon S3)是一种对象存储,它具有简单的Web服务接口,可用于在Web上的任何位置存储和检索任意数量的数据。它能够提供99.999999999%的持久性,并且可以在全球大规模传递数万亿对象。
然而,Amazon S3无论有多少个“9”作为保障,可在云中提供功能多丰富的对象存储。一但出现“高出错率”,或者像这次的某些数据库服务的查询失败,以及Amazon Simple Email Service的问题,尽管没有文件丢失/损坏报告,但是大批公司业务都受到了影响,也就是说这些企业对于Amazon S3的绑定十分严重。
国内外无独有偶的两次大规模宕机事件,其实都让我们抛出了一个同样的问题,当我们过分依赖一个平台时,就会丧失部分灵活性,我们应该记得留一个Plan B。