当前位置:数据中心技术专区 → 正文

数据中心运维的关键在于“防患于未然”

责任编辑:cres 作者:harbor |来源:企业网D1Net  2016-08-25 09:14:00 原创文章 企业网D1Net

数据中心运维是老生常谈了,网络上有很多数据中心运维的技术和管理手段,通过学习这些知识的确能够提升对运维的理解。不过,很多技术都在强调如何进行运维,将更多笔墨放到了阐述运维的方法上。运维的工具和方法也多达数十种,这也使得数据中心的运维,几乎可以衍生出来一门技术学科。数据中心人员要掌握数种运维的工具使用,学习运维方面的各种技术、技巧。每年数据中心在运维上,都要投入不菲的资金,包括购入各种运维设备、技术培训、运维的工具等等。各位是否想过:如果我们能在数据中心可能出现的故障之前,将隐患消除掉,反而不必在后期运维的工作上多下功夫,这正是所谓的“防患于未然”,在祸患发生之前就加以预防,这才是数据中心运维的真正目的。“亡羊补牢,为之晚矣”,如果数据中心故障已经发生,就会给业务带来损失,这时采用再好的修复措施都失去了重要意义,损失已经产生。
 
一般的数据中心运维都是在出了事之后去解决,这叫做“遇病治病”。这时候已经影响了数据中心业务的正常运行,已经给数据中心造成了损失,这样运维的工作是失败的。随着数据中心网络的扩大,业务需求的增加,这样运维的方式对数据中心发展不利。还好已经有越来越多人意识到这点,于是很多数据中心开始强调预防,这叫做“以预治病”,会预测出数据中心某个设备有问题就提前把它换掉,或者把存在隐患的薄弱环节进行巩固,对现有系统进行不断改造,消除一切可能存在的隐患点,以预防为主,这样可以大大避免一些严重故障出现。比如数据中心网络部分汇聚端口流量在高峰期,偶有带宽跑满的情况,这时就要及时增加设备或带宽,避免对业务有影响;当部分服务器的CPU占用率超过50%,就要检查服务器上承载的业务是否过重,优化服务器上的业务软件,关停一些不必要运行的软件;防火墙上的过滤规则是否过期,不断增加一些新病毒攻击流量类型的过滤,避免新的网络病毒对数据中心造成伤害,这些预防性的防护可以有效减少故障的发生。可是假如一个人体质本身就很弱,做再多的防护,也可能有摔倒的那一天,莫不如去积极锻炼,提升自身体质,强身健体,避免摔倒,就算摔倒也可以很快爬起来,这就是“未病治病”,主动加强身体锻炼。对于数据中心就是在数据中心建设之前,就要考虑到其未来数年甚至数十年的发展,使得数据中心具有强大扩展性;同时根据网络状况、业务承载状况,设计完善的冗余、备份系统,使得整个数据中心可以高效运转,坚决要求数据中心不带“病”运行,只有整个数据中心所有系统都能高效、稳定运行,这样建设的数据中心才能交付,才能进入到运维阶段。在数据中心建设之前,就将未来可能遇到的问题都考虑尽量全面,数据中心设计为未来发展留有至少30%的空间,数据中心采用的技术,应可以实现向未来新技术平滑过渡的能力。
 
数据中心运维的真正目的,在于能真正做到“防患于未然”,当数据中心建成后,大的框架很难再做变化,尤其是数据中心带有业务运行后,再去更改设备配置、升级软件、变更都是非常麻烦的事儿,需要在对业务无影响下进行。有时改变对业务影响太大,根本无法实施。这也是要做到“未病治病”的真正意义。一旦数据中心建成投产后,运维的作用在于发现隐患,已经无法做到“未病治病”,只能做“以预治病”。通过各种运维的工具和手段,数据中心技术人员能够及时了解到数据中心的运行状态,一旦出现安全隐患,可以及时预警或者是以其他方式通知相关人员,让技术人员有时间处理和解决,避免影响数据中心业务的正常使用,将一切问题的根本扼杀在摇篮当中,这种以防为主的运维理念得到越来越多人的认可,数据中心运维,应该主动地去预防,而不是坐等下一次故障的出现。
 
“以预治病”可不是说说那么简单,这需要做大量的信息收集和诊断工作。现在,在市面上就可以找到一些以采集数据为主的运维工具,可以在数据中心里通过部署一些这类的工具,通过这些工具可以获得数据中心各个环节的运行参数,通过对这些参数进行综合分析,找出薄弱环节,一一进行改进。数据中心的运行状态是不断变化,需要观察这些参数变化,一旦出现偏离正常的数值,及时纠正。还要周期性对数据中心进行各种故障模拟和演练,通过这些演练找到现有系统中的缺陷,并进行改进,只要演练顺利通过,避免真出了故障时,业务无法切换到备用系统中来,确保所有的备用系统都好用,随时准备投入运行。主动地去预防,找出数据中心里随时可能出现的隐患,避免小隐患造成大事故。运维的工具还是周期性地采集数据中心所有设备运行日志,一旦设备报出异常日志,运维的工具可以及时发现,并将信息发送给相关技术人员,等待处理,也可以通过提前设定好的执行程序,当发现异常日志,由运维的工具可以自动切换业务流经的端口、链路、设备、路由等等,将业务切换到备用系统上来,避免对业务造成影响。
 
数据中心运维的关键在于“防患于未然”,应该重点强调的是“防患于未然”中的“防”。在故障发生之前,将所有隐患都能发现,并在故障出现之前全部消除掉,这才是数据中心运维的真正目的。

关键字:数据中心

原创文章 企业网D1Net

x 数据中心运维的关键在于“防患于未然” 扫一扫
分享本文到朋友圈
当前位置:数据中心技术专区 → 正文

数据中心运维的关键在于“防患于未然”

责任编辑:cres 作者:harbor |来源:企业网D1Net  2016-08-25 09:14:00 原创文章 企业网D1Net

数据中心运维是老生常谈了,网络上有很多数据中心运维的技术和管理手段,通过学习这些知识的确能够提升对运维的理解。不过,很多技术都在强调如何进行运维,将更多笔墨放到了阐述运维的方法上。运维的工具和方法也多达数十种,这也使得数据中心的运维,几乎可以衍生出来一门技术学科。数据中心人员要掌握数种运维的工具使用,学习运维方面的各种技术、技巧。每年数据中心在运维上,都要投入不菲的资金,包括购入各种运维设备、技术培训、运维的工具等等。各位是否想过:如果我们能在数据中心可能出现的故障之前,将隐患消除掉,反而不必在后期运维的工作上多下功夫,这正是所谓的“防患于未然”,在祸患发生之前就加以预防,这才是数据中心运维的真正目的。“亡羊补牢,为之晚矣”,如果数据中心故障已经发生,就会给业务带来损失,这时采用再好的修复措施都失去了重要意义,损失已经产生。
 
一般的数据中心运维都是在出了事之后去解决,这叫做“遇病治病”。这时候已经影响了数据中心业务的正常运行,已经给数据中心造成了损失,这样运维的工作是失败的。随着数据中心网络的扩大,业务需求的增加,这样运维的方式对数据中心发展不利。还好已经有越来越多人意识到这点,于是很多数据中心开始强调预防,这叫做“以预治病”,会预测出数据中心某个设备有问题就提前把它换掉,或者把存在隐患的薄弱环节进行巩固,对现有系统进行不断改造,消除一切可能存在的隐患点,以预防为主,这样可以大大避免一些严重故障出现。比如数据中心网络部分汇聚端口流量在高峰期,偶有带宽跑满的情况,这时就要及时增加设备或带宽,避免对业务有影响;当部分服务器的CPU占用率超过50%,就要检查服务器上承载的业务是否过重,优化服务器上的业务软件,关停一些不必要运行的软件;防火墙上的过滤规则是否过期,不断增加一些新病毒攻击流量类型的过滤,避免新的网络病毒对数据中心造成伤害,这些预防性的防护可以有效减少故障的发生。可是假如一个人体质本身就很弱,做再多的防护,也可能有摔倒的那一天,莫不如去积极锻炼,提升自身体质,强身健体,避免摔倒,就算摔倒也可以很快爬起来,这就是“未病治病”,主动加强身体锻炼。对于数据中心就是在数据中心建设之前,就要考虑到其未来数年甚至数十年的发展,使得数据中心具有强大扩展性;同时根据网络状况、业务承载状况,设计完善的冗余、备份系统,使得整个数据中心可以高效运转,坚决要求数据中心不带“病”运行,只有整个数据中心所有系统都能高效、稳定运行,这样建设的数据中心才能交付,才能进入到运维阶段。在数据中心建设之前,就将未来可能遇到的问题都考虑尽量全面,数据中心设计为未来发展留有至少30%的空间,数据中心采用的技术,应可以实现向未来新技术平滑过渡的能力。
 
数据中心运维的真正目的,在于能真正做到“防患于未然”,当数据中心建成后,大的框架很难再做变化,尤其是数据中心带有业务运行后,再去更改设备配置、升级软件、变更都是非常麻烦的事儿,需要在对业务无影响下进行。有时改变对业务影响太大,根本无法实施。这也是要做到“未病治病”的真正意义。一旦数据中心建成投产后,运维的作用在于发现隐患,已经无法做到“未病治病”,只能做“以预治病”。通过各种运维的工具和手段,数据中心技术人员能够及时了解到数据中心的运行状态,一旦出现安全隐患,可以及时预警或者是以其他方式通知相关人员,让技术人员有时间处理和解决,避免影响数据中心业务的正常使用,将一切问题的根本扼杀在摇篮当中,这种以防为主的运维理念得到越来越多人的认可,数据中心运维,应该主动地去预防,而不是坐等下一次故障的出现。
 
“以预治病”可不是说说那么简单,这需要做大量的信息收集和诊断工作。现在,在市面上就可以找到一些以采集数据为主的运维工具,可以在数据中心里通过部署一些这类的工具,通过这些工具可以获得数据中心各个环节的运行参数,通过对这些参数进行综合分析,找出薄弱环节,一一进行改进。数据中心的运行状态是不断变化,需要观察这些参数变化,一旦出现偏离正常的数值,及时纠正。还要周期性对数据中心进行各种故障模拟和演练,通过这些演练找到现有系统中的缺陷,并进行改进,只要演练顺利通过,避免真出了故障时,业务无法切换到备用系统中来,确保所有的备用系统都好用,随时准备投入运行。主动地去预防,找出数据中心里随时可能出现的隐患,避免小隐患造成大事故。运维的工具还是周期性地采集数据中心所有设备运行日志,一旦设备报出异常日志,运维的工具可以及时发现,并将信息发送给相关技术人员,等待处理,也可以通过提前设定好的执行程序,当发现异常日志,由运维的工具可以自动切换业务流经的端口、链路、设备、路由等等,将业务切换到备用系统上来,避免对业务造成影响。
 
数据中心运维的关键在于“防患于未然”,应该重点强调的是“防患于未然”中的“防”。在故障发生之前,将所有隐患都能发现,并在故障出现之前全部消除掉,这才是数据中心运维的真正目的。

关键字:数据中心

原创文章 企业网D1Net

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^