CrowdStrike中断事件一周年:企业可汲取的五大安全升级启示

责任编辑:cres

作者:Louis Columbus

2025-07-23 16:54:30

来源:企业网D1Net

原创

CrowdStrike的服务中断让人警醒,它提醒我们,即使是规模庞大、成熟的公司,有时也会在流程上出错,这一结果在某种程度上是巧合,但本不应发生,这表明他们未能建立一些基本的持续集成 持续部署协议。

正如我们在对CrowdStrike事件的初步分析中所写,2024年7月19日发生的服务中断事件,给人们敲响了重视网络弹性的警钟。如今,一年过去了,在改变一切的这78分钟的推动下,CrowdStrike和整个行业都发生了重大转变。

“7月19日一周年,标志着对我们客户和合作伙伴产生了深远影响,成为CrowdStrike历史上最具决定性的篇章之一。”CrowdStrike总裁迈克·森托纳斯(Mike Sentonas)在一篇博客中详细阐述了公司为增强弹性所经历的一年历程。

震动全球基础设施的事件

相关数据仍然令人警醒:一次有缺陷的Channel File 291更新于世界协调时04:09部署,仅78分钟后就被撤回,却导致全球850万台Windows系统崩溃。据保险业估算,仅美国500强企业就因此损失了54亿美元,航空业受冲击尤为严重,全球范围内有5078架次航班取消。

Proximus Global旗下公司Telesign的产品和投资组合高级副总裁斯特芬·施赖尔(Steffen Schreier)解释了为什么这一事件一年后仍令人记忆犹新:“一年后,CrowdStrike事件不仅没有被遗忘,反而让人难以忘怀。一次常规的软件更新,没有恶意意图,仅在78分钟内就被撤回,却仍然导致全球关键基础设施瘫痪。没有数据泄露,没有网络攻击,仅仅是一次内部故障,就产生了全球性后果。”

他的技术分析揭示了现代基础设施令人不安的真相:“这才是真正的警钟:即使是那些拥有良好实践、分阶段部署和快速回滚机制的公司,也无法超越那些由支持快速、云原生交付的基础设施所带来的风险,正是这种让我们能够更快交付的同样速度,在出现问题时也加速了影响的扩散范围。”

了解问题根源

CrowdStrike的根源分析揭示了一系列技术故障:IPC模板类型中的输入字段不匹配、缺少运行时数组边界检查以及内容验证器中的逻辑错误,这些并非边缘案例,而是基本的质量控制漏洞。

即将担任Enkrypt AI首席安全官、Andesite等公司顾问的梅里特·贝尔(Merritt Baer)提供了关键背景:“CrowdStrike的服务中断让人警醒,它提醒我们,即使是规模庞大、成熟的公司,有时也会在流程上出错,这一结果在某种程度上是巧合,但本不应发生,这表明他们未能建立一些基本的持续集成/持续部署(CI/CD)协议。”

她的评价直接而公正:“如果CrowdStrike按照最佳实践,在沙箱环境中推出更新,并仅以增量方式在生产环境中部署,那么即使发生问题,影响也不会如此灾难性。”

然而,贝尔也认可了CrowdStrike的应对措施:“CrowdStrike的沟通策略展现了良好的高管责任感,高管们应该始终承担责任,这不是实习生的错,如果你的初级操作员会犯错,那就是我的错,是我们整个公司的错。”

领导层的责任

CrowdStrike创始人兼CEO乔治·库尔茨(George Kurtz)践行了这一责任原则。在领英上回顾周年纪念时,库尔茨写道:“一年前,我们面临了一个考验一切的时刻:我们的技术、我们的运营,以及他人对我们的信任。作为创始人和CEO,我个人承担了这份责任,过去如此,未来亦然。”

他的观点揭示了公司如何将危机转化为变革:“定义我们的不是那个时刻,而是之后发生的一切。从一开始,我们的目标就很明确:打造一个更强大的CrowdStrike,以弹性、透明和不懈执行为基础,我们的北极星始终是我们的客户。”

CrowdStrike全力投入新的“设计即弹性”框架

CrowdStrike的应对措施围绕其“设计即弹性”(Resilient by Design)框架展开,森托纳斯称该框架超越了“快速修复或表面改进”,该框架的三大支柱,包括基础性、适应性和持续性组件,代表了安全平台运营方式的全面重构。

关键实施措施包括:

• 传感器自我恢复:自动检测崩溃循环并切换到安全模式

• 新的内容分发系统:基于环的部署,配备自动化保障措施

• 增强的客户控制:精细的更新管理和内容固定功能

• 数字运营中心:专为全球基础设施监控而建的设施

• Falcon超级实验室:测试数千种操作系统、内核和硬件组合

“我们不只是增加了一些内容配置选项,”森托纳斯在博客中强调,“我们从根本上重新思考了客户如何与企业安全平台交互和控制。”

全行业供应链的觉醒

这一事件促使人们更广泛地审视对供应商的依赖。贝尔直截了当地指出了教训:“一个重要的实际教训是,你的供应商是你供应链的一部分,因此,作为CISO,你应该测试风险以了解它,但简单来说,这个问题属于共享责任模型中供应商的责任范围,客户无法控制它。”

CrowdStrike的服务中断永久性地改变了供应商评估方式:“我看到高效的CISO和CSO从这次事件中吸取教训,关注他们希望合作的公司以及作为业务合作产品的安全性,我只会与那些从安全态势角度让我尊重的公司合作,他们不需要完美,但我希望知道,随着时间的推移,他们正在执行正确的流程。”

Zscaler的CISO山姆·库里(Sam Curry)补充道:“CrowdStrike遭遇的不幸事件,本可能发生在许多公司身上,因此,或许我们不应事后诸葛亮地归咎于他们。我想说的是,世界已经借此重新聚焦,更加关注弹性,这对每个人来说都是好事,因为我们的共同目标是让互联网对所有人来说都更安全。”

强调需要新的安全范式

施赖尔的分析超越了CrowdStrike,触及了基础安全架构:“大规模的速度是有代价的,现在,每一次常规更新都承载着潜在系统性故障的风险,这意味着不仅要进行测试,还要建立弹性保障措施:分层防御、自动回滚路径,以及假设在最需要时遥测数据可能会消失的故障安全机制。”

他最关键的见解触及了许多人未曾考虑的场景:“当遥测数据中断时,你需要假设可见性可能会消失的故障安全机制。”

这代表了一种范式转变,正如施赖尔总结的那样:“因为如今的安全不仅仅是阻止攻击者,而且是要绝对确保你自己的系统永远不会成为单一故障点。”

展望未来:AI与未来挑战

贝尔看到了下一个变革已经初现端倪:“自从云计算使我们能够使用基础设施即代码以来,尤其是现在AI正在使我们以不同的方式开展安全工作,我正在关注基础设施决策如何与人类和AI的自主性相结合,我们能够而且应该为强制更新等流程增加推理和有效的风险缓解措施,尤其是在高权限级别下。”

CrowdStrike的前瞻性举措包括:

• 聘请首席弹性官,直接向首席执行官汇报

• 探索内核空间之外能力的“登峰项目”(Project Ascent)

• 与微软在Windows端点安全平台上的合作

• 获得业务连续性管理的ISO 22301认证

更强大的生态系统

一年后,变革显而易见。库尔茨反思道:“今天的我们比一年前更强大,工作仍在继续,使命依然坚定,我们正在前进:更强大、更聪明,比以往任何时候都更加坚定。”

库尔茨还感谢了那些支持公司的人:“感谢每一位在困难时刻仍与我们同在的客户,感谢你们始终如一的信任。感谢我们出色的合作伙伴,他们与我们并肩作战,卷起袖子加油干,感谢你们成为我们大家庭的一员。”

这一事件的影响远不止于CrowdStrike,现在,各企业都在实施分阶段部署、保持手动覆盖能力,以及至关重要的是,为安全工具本身可能失效的情况制定计划,供应商关系得到了更严格的评估,人们认识到,在我们相互连接的基础设施中,每个组件都至关重要。

正如森托纳斯所承认的:“这项工作尚未完成,也永远不会完成,弹性不是一个里程碑,而是一种需要持续承诺和演进的纪律。”2024年7月19日的CrowdStrike事件将被铭记,不仅因为它造成的破坏,更因为它推动了整个行业向真正的弹性演进。

在面对最大挑战的过程中,CrowdStrike和更广泛的安全生态系统有了更深刻的理解:防范威胁意味着确保保护者本身不会造成伤害,通过这艰难的78分钟和一年的变革所学到的教训,可能是这一事件最有价值的遗产。

企业网D1net(www.d1net.com):

国内头部to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。

版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号