7月19日,CrowdStrike(一家网络安全平台提供商)发布了一次更新,导致850万台微软Windows PC和服务器崩溃,电脑无法启动,显示“蓝屏死机”,关闭端口,导致消费者无法使用ATM,推迟了医疗程序。
尽管CrowdStrike当天发布了修复程序,但企业不得不经历繁重的过程,手动重新启动成千上万台服务器和PC进入安全模式,并删除与故障更新相关的文件,然后再安装修复程序。
这不是一次网络攻击,也不是个例,最近有几次广泛的软件故障在整个价值链中造成了混乱,比如今年的勒索软件攻击,导致汽车经销商无法开展业务,医疗服务提供者无法收到付款,或者几年前的老旧不稳定系统导致节假日旅行者滞留。
自从故障开始以来,我们与商业和技术高管进行了数十次讨论,探讨其影响。目前,技术团队已经动员起来,解决公司面临的问题。高层商业领导者在提供资源、支持和指导方面也发挥着重要作用。以下是他们应问的问题,以确定如何减轻此次事件的影响并减少下次风险。
对问题的理解
世界上近四分之三的计算机运行微软Windows操作系统,包括运行应用程序的企业服务器和员工使用的笔记本电脑或PC。
CrowdStrike Falcon传感器是一款终端检测和响应(EDR)产品,它在PC和服务器上安装代理,以识别和遏制恶意软件及其他类型的网络攻击。为应对不断演变的威胁,CrowdStrike会安装配置更新,有时每天多次——而7月19日发布的更新存在问题。由于Falcon代理在Windows启动过程的早期运行,并在低级别加载,因此修复无法使用自动化软件分发工具,需要手动干预。
事情是这样的:
• 7月19日星期五,协调世界时4:09,其中一个通道文件更新存在逻辑错误,当触发时导致Windows崩溃。
• 涉及的通道文件(通道文件291)用于提供逻辑,以评估和防止命名管道的滥用(命名管道是Windows用于进程间或系统间通信的机制)。
• 通道文件中的更新旨在针对和保护新观察到的用于网络攻击中常见的C2(指挥和控制)框架的恶意命名管道。
通道文件中的逻辑错误影响了所有在协调世界时4:09之后下载更新的微软Windows系统。协调世界时5:27之后上线的系统收到了更新后的通道文件(回滚到之前的稳定版本),未受影响。
鉴于CrowdStrike代理在Windows内核中的特权位置,每个受影响的终端设备都需要手动修复:
• 对于笔记本电脑/PC:修复过程包括反复重启Microsoft Windows主机以尝试自动解决问题,如果不奏效,下一步需要在安全模式下重启计算机并删除有问题的文件。对于出于安全原因选择加密终端用户硬盘的公司,修复过程更加复杂。
• 对于云主机:修复过程包括回滚到4:09 UTC之前的快照,或者分离系统磁盘卷,手动修复问题,然后重新连接磁盘卷。
此次中断的性质说明了IT组织在保护环境免受网络攻击的同时,必须在管理可能引入不稳定性的更改之间进行权衡。
立即行动:如何加速和维持恢复
受影响实体的技术组织在中断当天就启动了恢复工作,他们设立了战情室,与利益相关者沟通,并制定了技术修复计划以恢复运营。
然而,高级管理人员应提出一些问题,以确保恢复工作的快速和可持续性:
• 我们的团队需要什么来维持修复工作的进度?
这对于自中断以来一直不停工作的IT团队来说是一个艰难且充满压力的时期,他们需要维持这种速度多久,将取决于其技术环境的复杂性和受影响的计算机数量。
高级领导可以询问其恢复团队需要什么来完成这项工作——可能是更多的资源来修复系统,或者只是高管团队成员访问战情室,以展示公司对其努力的重视。
• IT部门能否动员终端用户协助修复PC和笔记本电脑?
在某些情况下,IT工作人员可能希望自己解决问题,这些努力对于服务器是必要的,但对于PC则不一定。通过明确的指示,终端用户可以在安全模式下启动计算机,删除有问题的文件,然后重启,从而节省IT支持人员必须接触成千上万台机器的时间。
• 我们对员工和客户是否足够透明和响应迅速?
这次中断对员工和客户造成了巨大影响,过去的中断表明,花时间承认影响并以直接的方式沟通你知道什么(以及你不知道什么)非常重要,在一次大型勒索软件攻击后,一家公司的CEO致电主要客户,表示歉意并解释事件,即使在多年后,客户仍然记得并感激这一点。
有时,透明和同情是不够的,许多受影响公司的客户不仅经历了不便,还遭受了经济损失,未来可能需要做出关于考虑何种赔偿类型的艰难决定。
在未来几天:如何降低未来事件的风险
类似的事件将会再次发生,服务提供商将面临中断和其他问题,这些问题会干扰公司开展业务的能力,为了管理这些风险,高级管理人员应提出一些问题,以帮助公司做好准备并减少此类事件的影响:
• 我们是否对经济、运营和技术风险有透明的了解?
如果一家工厂、一个流程或一个站点无法运作几天甚至更长时间,经济影响会是什么?许多公司并不清楚。支持关键业务流程的应用程序运行在哪些稳健的技术平台上,而哪些则陷于技术债务中,带来了风险?许多公司对这些情况有所了解,但缺乏系统和可靠的数据。如果某个技术供应商出现问题,会让公司停业几天?在上周之前,有多少公司将其EDR平台作为顶级技术风险进行监控?高级管理人员应推动对不同类型风险的量化和优先排序。
• 我们应该进行哪些架构变更以增强弹性——成本是多少?
CIO和CTO通常在业务热衷于投资新功能而非减少技术债务和提高弹性方面面临困境,直到发生导致数百万美元收入损失的中断事件,这样的商业理由才有限,在这种情况下,可以一键重启的“可重铺”云系统可以加速恢复,具有地理弹性的应用架构可以在区域之间切换,确保可用性。高级管理人员应询问技术团队:我们还没有投资什么,应该投资什么?在某些情况下,公司可能需要大幅增加技术支出,以实现所需的弹性。
• 我们是否需要在变更过程中引入更多的分阶段部署和测试?
几乎所有的弹性问题都源于变更,某个地方的某人更改了配置或更新了某个软件,破坏了允许公司运行业务的复杂技术生态系统。
然而,将新更新部署到1%或5%的节点上,可以在有缺陷的发布情况下大幅减少中断,这个分阶段模型需要更多的资源,但考虑到降低中断风险,可能是值得的投资。
• 我们的灾难恢复/业务连续性(DR/BC)计划和测试是否足够广泛和健全?
每家公司都计划进行DR/BC,然而,许多公司只是草率地、不完整地进行。高级管理人员可以问以下问题:
• 我们的DR/BC计划是否根据业务优先级测试并推动了各种场景?
• 做更多的现场测试,而不是进行纸上演练,需要什么?
• 进行高层危机模拟是否有意义,以准备高管团队在重大中断事件中在有限信息下做出艰难决策?
我们的整个经济运行在复杂、偶尔脆弱的技术平台上——公司有责任为股东和客户提供“全天候”的业务流程支持。高级管理人员可以通过提出有关响应速度和预防或限制下次事件影响的尖锐问题,获得支持并推动IT经理在这方面的努力。
企业网D1net(www.d1net.com):
国内主流的to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。
版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。