删库跑路?不!这才是数据中心宕机的首要威胁

责任编辑:cres

2024-10-22 15:18:21

摘自:戴尔企业级解决方案

提到数据中心宕机,很多人脑海中可能会立即浮现程序员背锅的经典场景,又或者是“删库跑路”这种经久不衰的网络梗。

比如最近,某大厂的宕机事件再次引发了广泛的讨论,社交媒体上各种“小道消息”层出不穷,有人调侃数据中心着火了,还有人猜测是不是又删库跑路了。

为什么一提到数据中心宕机,吃瓜群众往往会和删库跑路联系在一起呢?这是有原因的——这种极端情况总是被炒得火热,让人印象深刻。但其实,删库跑路并不是数据中心宕机的主要原因,甚至因为发生的次数实在太少,可以忽略不记。

那么,什么才是数据中心宕机的主要原因呢?

近日,知名的数据中心标准组织和第三方认证机构Uptime Institute发布了《2024年度故障报告》,就为我们了解数据中心宕机的原因提供了宝贵的指导。

该报告详细介绍了截至2024年,最常见的威胁数据中心正常运行的挑战,接下来随戴小编一起来看看吧。

影响数据中心正常运行的5大因素

你可能会认为,数据中心宕机的最常见原因是网络攻击或删库跑路等风险。但其实,从数据中心正常运行时间的角度来看,这些风险可以忽略不计。大多数数据中心故障的核心问题分为以下几类:

01物理系统故障

数据中心故障最常见的原因是电源问题。根据Uptime Institute的报告,电源问题占所有数据中心故障的52%。另外19%的故障事件源于数据中心冷却问题。

这意味着,到目前为止,物理故障是影响数据中心正常运行的最大风险(超过70%)。因此,想要让数据中心更少的宕机,投资于冗余电源或HVAC(暖通空调)系统等解决方案,是最有效的方案。

02第三方供应商

对数据中心正常运行的第二大威胁是第三方供应商。这意味着由服务提供商(公司通过外包协议或类似安排与其签约管理数据中心)造成的故障。

那么,把数据中心的运营转移回公司自己,能否缓解这个问题呢?很难说,因为那些专注数据中心运营的外包公司,往往比大多数非IT公司更加专业。

但这也提醒了广大企业用户,如果你选择第三方来管理数据中心,你应该了解他们的正常运行时间记录,确保供应商不会成为你日常业务运行的薄弱环节。

03 IT设备故障

IT系统硬件和软件故障是数据中心停机的第三大常见原因。这并不奇怪,因为自数字时代来临以来,公司一直在努力应对服务器崩溃的问题。

虽然没有灵丹妙药可以减轻这种风险,但有一些行之有效的策略。比如投资给那些更好的监控和可视化解决方案,并创建带有自动故障转移的备份IT环境,以便如果服务器崩溃,其工作负载可以立即转移到另一台服务器。

04网络故障

网络故障与IT设备故障类似:它们导致数据中心停机的概率几乎完全相同,而且是企业长期以来一直在应对的一种挑战。

与增加IT设备正常运行时间一样,提高数据中心网络可靠性的策略包括更好的网络监控和在网络内建立冗余,以便当部分网络出现故障时,数据包可以选择替代路由。

此外,更多地使用软件定义网络也可以提高网络可靠性,因为使用软件控制而不是物理网络设备,可以更容易地识别和减轻故障。

05其他数据中心正常运行的挑战

火灾和信息安全事件也在Uptime Institute的数据中心故障原因排名中名列前茅,但仅占少数,它们分别占所有故障的3%和1%。

需要指出的是,这并不是在说防火措施和网络安全保护不重要,数据中心发生的每一次的宕机事件,都会给企业造成严重的财务损失、业务和客户的中断,甚至在极端情况下造成生命损失。因此,任何能减少宕机事故发生的方法都至关重要。

减少宕机的几个关键措施

在Uptime Institute的报告中,有五分之四的受访者表示,如果管理、流程或配置更好,他们最近的宕机事件是可以避免的。这意味着,通过更好的管理或设备可以很大程度上减少宕机事件发生。

下面,戴小编为大家介绍几个关键措施,帮助企业更好地预防宕机:

01检查你的设备

对于大部分IT设备而言,运行大约5年后就该考虑更换。这是行业的经验法则,背后有充分的理由。随着时间的推移,设备内部的老化会导致故障概率增加,因此,超期服役的设备应尽快从生产环境中淘汰。

此外,技术进步的速度极快。例如,仅仅两代服务器之间,其性能差异可能达到100%-150%,而40%-50%的差距更是常见。继续维护那些难以满足现代工作负载需求的旧服务器,不如用新的服务器替换它们。管理一台能够处理大型现代工作负载的单一服务器,比管理三到四个遗留服务器更为高效。

*戴尔PowerEdge R760服务器是一款双路服务器,搭载了第四代英特尔®至强®可扩展处理器,可把人工智能推理的性能提升高达2.9倍。与上一代产品相比,单台 PowerEdge R760服务器还可提高所支持的VDI用户数量达20%。

02尽量选择具有高可用性的设备

为了尽可能减少宕机事件的发生,企业用户在挑选IT产品时,尽量考虑那些具有高可用性的设备至关重要,这不仅是对当前业务需求的回应,更是对未来业务增长的前瞻性投资。随着数据量和业务复杂性的不断增加,拥有高可用性的设备将为企业提供稳固的基础,以应对各种挑战。

例如在存储系统方面,戴尔的高端存储PowerMax、中端存储PowerStore以及软件定义的PowerFlex,均可为企业的高价值工作负载提供“6个9”(99.9999%) 的可用性保障。

03完整的IT视图

实时监控企业的运行状况至关重要,这不仅能让您第一时间发现问题,更能在问题发生前通过侦测异常及时发出警告,预防问题的发生。

这方面,戴尔CloudIQ是一个极佳的选择。它是IT基础架构管理的集大成者,集成主动监控、机器学习和预测分析技术,同时提供全面的服务器视图,无论设备位于何处都可被统一管理。帮助用户快速采取行动,并简化本地基础架构的操作和云中的数据保护。

CloudIQ还具有便捷易用的特点,作为基于云的应用程序,用户可直接通过iOS或Android应用商店获得。使用时,用户只需安装和配置戴尔系统,并将其连接到CloudIQ即可,无需安装许可证或额外的软件,就这么简单!

04确保数据始终可用

在网络安全事件频发的当下,很多企业可能已经尽全力应对网络威胁,但所谓“道高一尺,魔高一丈”,企业仍有可能遭受黑客攻击。这意味着企业不仅需要与时俱进的保护方案,更需要构筑最后一道防线,以确保一旦黑客突破所有防护措施进入关键系统,企业的“黄金”数据依然安全,从而保障核心业务的恢复能力。

在这方面,戴小编推荐戴尔PowerProtect Cyber Recovery避风港解决方案。这是被Sheltered Harbor认可的首个数据保险库解决方案,能够帮助企业构筑保护数据安全的最后一道防线。

Cyber Recovery数据避风港通过气隙隔离(Air Gap)数据保险库,来保护关键数据。

Cyber Recovery存储区具有多层保护,可提供应对网络攻击(甚至包括内部威胁)的抗风险能力。它将关键数据从受攻击面移走,以物理方式将其隔离在数据中心的受保护部分中,需要单独的安全凭据和多因素身份验证才能进行访问。

其他保护机制包括一个自动化、运营安全隔离 Air Gap,用以提供网络隔离,并消除可能会被攻破的管理界面。Cyber Recovery数据避风港可在生产系统(包括开放系统和大型机)和存储区之间自动执行数据同步,使用锁定的保留策略创建不可更改的副本。一旦发生网络攻击,您可以快速找到干净的数据副本,恢复关键系统,并让您的业务恢复正常运行。

总而言之,数据中心的稳定性是企业数字化运营的基石。通过及时更新设备、采用高可用性解决方案、加强监控措施,以及建立坚固的数据安全防线,企业能够显著降低宕机的风险。面对日益复杂的网络环境,未雨绸缪、主动防范将帮助企业更好地应对挑战,确保业务的持续性与数据的安全性,为未来的发展奠定坚实的基础。

 

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号