数据中心业务中断事件频发所带来的启示

责任编辑:贾世华

作者:harbor

2015-06-26 09:27:23

来源:企业网D1Net

原创

既上个月支付宝出现断网故障之后,阿里巴巴旗下手机淘宝业务又出现了中断。

既上个月支付宝出现断网故障之后,阿里巴巴旗下手机淘宝业务又出现了中断。6月24日中午,淘宝客户端、手机页面出现了瘫痪,表现为登陆失败、搜索物品出现网络连接失败提示,造成此时故障的原因还是网络系统故障。而就在6月21日,阿里巴巴旗下的阿里云位于香港的数据中心刚刚发生了长达12小时的业务中断,造成业务中断的原因是电力故障。作为中国互联网的排头兵,阿里巴巴收获了诸多荣誉,其业务能力一直受人所称道,然而最近连续的数据中心断网事件已经让我们对其数据中心的稳定性产生了担忧。财大气粗的阿里向来在数据中心建设上舍得投入,每年都要在世界各地新建一些数据中心,同时也保持着高额的数据中心设备采购额,数据中心也不断采纳新的技术,比如VXLAN、虚拟化、大数据等技术都有实际应用,阿里整个数据中心就是一个非常先进、复杂的IT生态环境,这样的数据中心有些故障再所难免,但是频繁的,长时间的出故障那就是阿里的不对了。阿里的技术水平,数据中心的建设管理水平都是无庸质疑的,在中国的所有数据中心里是非常靠前的,较为先进的,但即便如此依然发生了这么多严重故障,值得人们深思。阿里表现尚且如此,那其它的数据中心岂不更差了。其实就在昨天中午,知乎网也突然打不开了,大概经过了1个多小时,基本功能才逐步恢复,并且主页长时间一直没有恢复,造成知乎网故障的原因是机房出了问题,再往前了说还有携程、网易都在上个月出现数据中心故障,造成业务的长时间中断。除了互联网,再看其它行业,6月23日山东联通出现大规模网络故障,3G、4G用户都受到影响,宽带网络完全中断无法连接;6月24日泉州移动网络故障,导致手机打不通;不仅在国内,在美国故障同样再所难免,美国务院官员称,由于计算机硬件故障,近两周内无法向全球各地的旅行者发放签证,还有很多就不列举了。这些都是在近一个月发生的各种网络故障,影响范围广泛。

随着人们对数据中心网络的依赖,使得这类断网事件受到广泛关注,毕竟断网给人们的工作和生活带来了诸多不便,这也从侧面反映了人们的所有活动均和数据中心密切相关,人们从来没有像现在这样如此关注数据中心的断网。现在是只要哪里有数据中心中断,立即就会在新闻中出现,这也说明这类事件已经受到了人们的广泛关注,这样就对数据中心的稳定性提出了更高的要求,当然频繁的中断是不可接受的。按照数据中心等级的定义,全年业务中断超过2小时,就达不到4A的高等级数据中心的要求,然而我们很多数据中心依然可以评为4A;我们部署有各种各样的备份技术,但是关键时刻依然起不到作用;我们每年在数据中心上投入大量投入、扩张,稳定性天天挂在嘴边,却时不时地依然有中断发生,理想总是很丰满,现实却是很残酷。现在很多数据中心其实已经将业务的稳定性摆在第一要位,很多数据中心的运维人员的工作考核就是和数据中心的稳定性有关,如果数据中心一年内发生了长时间的业务中断,那么收入和奖金都会大幅度下降,所以从数据中心运维人员角度来将,是非常不希望数据中心出现中断故障的,那么为何避免不了呢?

其实,数据中心的运维人员只是数据中心里的其中一个环节而已,这些人员也只是做一些系统的日常维护,故障的定位处理。数据中心里实际上是非常复杂的系统,涉及到供电、空调、布线、各种各样的电子设备,一个数据中心拥有几千台设备都很正常,像阿里的数据中心在全国各地以及海外都有,数十万的各种服务器、网络设备、存储设备等,这样庞大的系统,实际上几乎天天都会出现这样那样的问题,相比长时间中断事件,每天内部数据中心也要处理各种各样的故障。然而,大家并不知道下一个故障点在哪里,在设计之初考虑的可能故障,却未必出现,总是在大家的意料之外,所以遇到有些故障时,恢复、切换备用链路等工作就无法很快实施,造成业务的长时间中断。其实很多的数据中心都有各种各样的业务备份,有时故障可以几秒钟就完成切换,业务上根本感知不到,但在实际操作中,由于无法很快知道故障位置,备份就没法很快实施。还有就是不少的数据中心是没有备份的,因为备份意味着要投入双份或者多份的资金建设,对于数据中心是不小的开支,有时甚至是一种投资浪费,所以很多数据中心宁愿冒险,对于频率不高的故障点不做备份。当然,也不是哪里都有备份就好,过多的部署备份系统会使得整个数据中心变得臃肿,反而会降低数据中心的运行效率,所以采用什么样的备份系统和方式,考验着数据中心人员的智慧。数据中心里的所有设备都是采购的,所以只有这些设备厂商的技术人员才对这些设备最了解,一旦设备发生故障后,也只有原厂的人员解决的速度最快,因此一些数据中心的故障恢复,由于可以得到原厂的技术支持就可以缩短故障恢复的时间,但并不是每个数据中心都能享受到原厂技术服务的,这可能要支付高额的服务费用。这样看来,要保证数据中心业务的稳定性,并非易事。涉及的系统太多,技术太广泛,我们只能期望这类断网事件能少发生些,但是根本无法避免,那么谁会是下一个呢?相信很快又会出现。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号