数据中心里故障分析的“望闻问切”四诊

责任编辑:贾世华

作者:harbor

2014-12-03 11:16:09

来源:企业网D1Net

原创

数据中心里的故障每天其实都在上演,只是我们很少感知到而已,只有出现非常严重的故障时,我们才能感受得到。

我们在日常工作和生活中享受着信息时代的便利,殊不知这背后有着成千上万的技术工程师在辛勤地工作着。数据中心里的故障每天其实都在上演,只是我们很少感知到而已,只有出现非常严重的故障时,我们才能感受得到。一个优秀的数据中心,在业务处理的各个方面都会考虑备份,当任何一台设备出现问题时,业务都会向其它设备平滑迁移,只有在很少的情况下,所有的备份机制都出问题时,业务才会受到影响。数据中心要做到不出问题几乎是做不到的,这其中有各种各样的原因:硬件的,软件的,操作的,人为的等等。那么一旦数据中心遇到了故障,如何快速的去分析和诊断呢?中医里讲究望闻问切。望,指观气色;闻,指听声息;问,指询问症状;切,指摸脉象。各称四诊。这里引用中医里的“望闻问切”来说明一下数据中心故障诊断的四大方法。

当接手一个数据中心故障时,往往最先从业务部门得知,这时要检查整个数据中心承载业务的运行情况,检查网管监控的各个节点流量是否出现异常,检查业务访问是集中于一定区域还是特定的几台服务器,尽量缩小故障查找的范围,要进行有目的的观察。业务上异常的表现必然和数据中心基础设施:服务器、网络、存储、安全等有关联。要通过“望”,透过业务故障的表面现象,看到问题的本质。比如我们通过网页去访问银行卡系统,如果访问失败,那么表现可能是多种多样的,可能是输入用户名无法登陆,可能是访问个人数据出错,也可能是无法完成查询、异地转帐等各种具体业务功能。当短时间内无法确知问题产生的来源时,要通过“望”对数据中心整体业务运行状况做检查,看是否有和平日里相比运行异常的地方。根据这些差异,推断可能问题出在了哪里。

并不是所有的问题都那么好发现,有的隐藏得很深。这就需要“闻”。“闻”指的是通过一些诊断手段去分析现有数据中心的运行状态是否正常。比如可以通过PING工具,对数据中心里的各个设备进行访问,看是否有不可达的。通过模拟业务访问,看是否能够正常操作,具体是什么操作是失败的,将故障进行分解。要知道数据中心里的设备多达数千台,运行的应用也有数十种,怎么能够快速找到故障点是一件非常耗时的事情。通过“闻”对数据中心做各种模拟测试,就可以排除干扰,将故障表现集中在一点,然后才能对症下药。

“望”和“闻”都是通过各种手段快速地找到是哪里有故障,有时这些手段得到的结果容易是片面的,甚至根本没有时间去做,那么从现场得到的故障表现描述就非常关键了。根据现场人员的反馈,了解问题最初的现象,从问题的表现上来推断可能哪里出现了问题。比如有人反馈搜索系统出现了问题,在搜索框里输入字符总是得到搜索失败的结果,根据这样的描述,我们将故障放在运行搜索业务的集群系统里。在这个集群系统里可能还包含着几百台同时工作的服务器,还有网络设备和存储设备,到底是哪里出了问题。那么看搜索是否只有特定的字符搜不到,是否是因为延迟过大而不得到结果,是否是有服务器出现挂死,而导致访问这台都得不到结果,等等。通过了解详细的故障描述,那么就基本可以确定故障分析的方向,然后再去细化。“问”的环节至关重要,不仅要听现场人员的反馈,还要进行咨询,有时现场人员只是将看到的故障一部分表现说出来,并不了解数据中心系统运行的机制,所以需要主动进行“问”,用自己的思路去询问。了解的越准确,了解的越细节,那么排除故障所耗费的时间就越短。如果反馈的现象本身就是错误的,往往将技术人员带入到了错误的分析过程里,甚至找不到故障的原因。所以有些时候也不能完全依赖“问”得到的信息,还要结合“望”和“闻”,综合分析和判断,最终找到故障点。

根据故障描述,通过“切”来查找故障根因。“切”就是具体的诊治了,通过“望”,“闻”,“问”,基本将故障缩小在几台设备之间,或者是一个应用系统中的某个部分,这时就要对故障涉及的设备进行深入诊治。数据中心涉及的设备五花八门,任何设备都有出问题的可能,当已经将故障缩小在了某个设备上时,通过平时积累的设备运维指导进行分析,如果无法找到原因,立即求助设备厂商支援。为了缩小业务故障的时间,可能将业务割接到其它设备上。“切”的过程需要有对设备内部运行机制非常精通的人才能诊治。这也像我们不舒服时去看病一样,根据哪里难受先挂个内科或者外科,然后医生根据描述,再让做各种检查,缩小范围,可能再到骨科或者颈椎科做进一步判断,然后再分头骨还是腿骨,最终将病变部位找到。通过“切”就是要消除病根,彻底解决问题。

通过“望闻问切”对数据中心里发生的各种故障进行诊治,往往可以节省解决故障的时间,作为数据中心里的故障排查专家,尤其要掌握好“望闻问切”的本领。现在的数据中心认证已经有了故障排查专家的认证了,其主要考核的就是对故障分析过程的掌握情况。一个数据中心故障分析的专家往往并不需要对所有的技术都精通,实际上也做不到,但是要有一个分析问题的清晰思路,能够透过故障现象看到问题的本质。正如中医里的四诊,数据中心里也需要四诊。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号