业务连续性和灾难恢复计划的基础知识

责任编辑:editor004

作者:litao984lt编译

2016-03-22 11:01:13

摘自:机房360

摘要:良好的业务连续性计划将确保您的企业组织业务的顺利运行,免遭诸如电源故障、IT系统崩溃、自然灾害、供应链问题等等任何类型的扰乱。

摘要:良好的业务连续性计划将确保您的企业组织业务的顺利运行,免遭诸如电源故障、IT系统崩溃、自然灾害、供应链问题等等任何类型的扰乱。

灾难恢复和业务连续性计划能够帮助企业组织为应对各种破坏性事件做好充分的准备——而这些破坏性事件可能包括飓风灾害或者只是停车场的挖掘机造成的断电事故。而在这一过程中,所涉及到的企业CSO们的工作职责则包括了计划的监督、提供输入和支持、在紧急情况下采取行动执行该计划。本文为广大读者介绍了关于业务连续性计划的基本概念,并将围绕该话题介绍更多的相关资源。

Q:“灾难恢复”这一概念似乎是不言自明,无需过多解释的。但是,其与“业务连续性规划”之间到底有什么区别呢?

A:灾难恢复是企业组织在遭受到一次破坏性事件后恢复业务的过程。这样的破坏性事件可能是后果相当恶劣的地震灾害;或像纽约世界贸易中心那样的恐怖袭击;或者一些危害较小的如由计算机病毒引起的软件故障。

鉴于人们往往倾向于只看到光明的一面,许多企业管理人员很容易忽视“灾难恢复”,因为灾难似乎是一个不太可能发生的事件。而“业务连续性规划”则推荐了一套更为全面的方法确保您企业的业务部门能够持续的创造营收,其不仅在发生了自然灾害之后,同时也包括在发生了较小的中断事故之后,如员工生病或关键岗位的员工离职、供应链合作伙伴出现问题或企业组织所需要时不时面临的其他方面的挑战问题。

尽管这两者是有区别的,但这两个术语通常都是同时出现BC/DR这一缩写下的,因为他们有许多共同的考虑点。

这些计划包括哪些内容?

所有的BC/DR计划都需要包括企业员工如何沟通、他们在此期间将去到何处、以及他们将如何继续他们的工作的问题。而根据企业组织具体规模、业务领域以及业务方式的不同,其中的细节会有很大的不同。对于一些企业来说,供应链物流等问题是最为关键的,其是整个计划的重点。而对于另外一些企业来说,信息技术可能起着更为关键的作用,故而其BC/DR计划可能有更多的关注于系统恢复方面。 例如,在一家全球性制造企业的计划将会是必须要在四到六天的时间内在备份站点从破坏性事件中恢复其关键主机上的重要数据,在两天内获得移动PBX单元的3000个电话记录,恢复企业的1,000多个局域网的业务需求,并在附近的一个训练设施为100个代理设置临时呼叫中心。

但关键的一点是,既不能忽略其中的任何元素,也不能在物理资源、IT资源和人力资源相互孤立的情况下开发制定规划。在这方面,BC/DR与安全融合(security convergence)有许多共通之处。在其核心, BC/DR是关于不断的通信交流。

企业组织的业务部门领导、安全领导和IT领导人应该联合起来一起工作,以确定什么样的计划是必要的,哪些系统和业务部门对于企业组织而言是最为关键的。同样,他们应该决定有谁来负责宣布一个破坏性的事件的发生,并尽量减轻其影响。最重要的是,该计划应建立一个过程,以便能够在发生一个灾难性的事件后定位员工对于他们进行沟通。在一次灾难性的事故发生后(卡特丽娜飓风是其中一个相对较新的例子),该计划还需要考虑到比起回归到工作岗位,许多员工将可能还有更为紧迫的担忧问题。

我将从哪里开始着手呢?

一个良好的开端是从一个业务影响分析(BIA)开始的。这将确定企业组织最为重要的系统和流程,以及中断对业务所造成的影响。潜在的影响越大,企业组织为了迅速恢复系统或业务流程所需花费的成本就越多。

例如,一家股票交易公司可能决定支付完全冗余IT系统,以便允许他们能够立即开始在另一个位置处理交易。而另一方面,一家制造公司则可以决定,他们可以等待24个小时之后才恢复发货。一个BIA将帮助企业组织建立一个恢复序列,以确定业务的哪个部分应该被优先恢复还原。

如下,是您企业组织的计划绝对应该包括的十大基本点:

1 制定并实施一套应急计划,包括您企业的首席执行官的继任计划。

2 提前培训执行紧急任务的后备人才。您所能够指望得上的在一个紧急情况下能发挥领导才能的员工并不是随时都有的。

3 确定发生异地危机时的会议场所以及企业高管们的危机沟通计划。与企业员工、客户和外部世界实践演习危机沟通。

4 投资于另一种替代的通信交流方式,以防电话网络失灵。

5 确保所有的员工和管理人员都参与到这项演习中,这样他们就可以在紧急情况下知道如何应对。

6 确保业务连续性演习足够真实,并足以充分调动员工们的情绪,这样您可以看到当形势变得紧张时他们会如何反应。

7 与当地急救反应团队——消防员、警察和急救人员建立良好的合作伙伴工作关系。让他们熟悉您的公司和站点。

8 在每次测试中评估您企业的表现,并努力持续改进。连续的演习应该能够揭示出相应的弱点。

9 定期检验您企业的业务连续性计划,以披露和适应变化。任何一家公司的技术、人员和设施都在一个不断变化的状态中。

10 欲了解更多细节,请参见该链接中业务影响分析的摘录,包括一个BIA形式的示例。

与此同时,实际的真人演习测试本身也会是“破坏性事件”。“如果我让足够多的人参与到撰写和检查我们的计划中来,这是否足够了呢?

让我们给您举一个一家企业认为简单的模拟研究是远远不够的例子吧。以及,为什么他们的经验证明了他们是正确的。

当金融服务公司USAA公司的前首席信息官史蒂夫·耶茨刚刚加入该公司时,其业务连续性计划还仅仅只是停留在纸上。而每年,该公司的顶级员工们会聚集在会议室进行角色扮演;他们会花一天时间检查并模拟不同的场景,并讨论他们认为程序应该如何定义,以及他们认为员工们会如何应对。

现场演习仅限于该公司的技术资产。USAA保险公司将对不同的业务部门进行周期性的数据恢复测试,比如让人寿保险部门从备份进行数据恢复。

耶茨怀疑,这样被动性的措施是否能够真实反映公司的现实状况。他还想知道USAA保险公司的员工们一个真正的紧急情况下是否知道如何遵循这样的一套备灾计划。当911恐怖袭击事件出现后,耶茨意识到该公司不得不做更多的工作。“911事件的确强迫我们提高了自己在这方面的标准。”耶茨说。

耶茨所聘请的外部顾问建议该公司在该地区建立第二处数据中心作为备份。而在经过了权衡这样一个项目的成本和收益之后,USAA保险公司最初认为在东海岸将租用服务空间将更有效。但在发生了世界贸易中心和五角大楼的恐怖袭击事件之后,耶茨很快意识到将数据中心规划设计得如此遥远是得不偿失的。而具有讽刺意味的是,USAA保险公司正是在911事件发生那一周签署的租赁合同的。

相反,USAA保险公司在德克萨斯建立了一处数据中心,距离其办公地址只有200英里远,驱车即可前往,同时该距离也足够能够利用不同的电网和水源来为该数据中心提供能源支持。该公司还计划将关键员工部署到全国各地的其他办公地点。

耶茨实地考察了FedEx联邦快递、First Union、美林银行(Merrill Lynch)和美联银行(Wachovia)等公司,听取了这些企业组织应急计划的方法。USAA也咨询了公关公司福莱国际传播咨询(Fleishman-Hillard)关于如何在发生危机的情况下能够实现与客户和员工最有效的沟通。

最后,耶茨提出了一系列的大型业务连续性的方案设计,以测试的该保险公司各个业务部门的性能表现,以及该公司在发生大规模业务中断的事件后的应对情况。当该公司模拟了其联邦储蓄银行(Federal Savings Bank)的主数据中心发生数据损失的情况时,耶茨发现他们能够恢复系统、应用程序和所有的19家第三方供应商的联系。此后,USAA保险公司也对其他业务部门运行了类似的演习。

然而,对于主要的事件,耶茨想要测试的不仅仅只是该公司的技术规程;他想把最不可预测的元素整合到任何应急计划中来:即人的因素。

USAA保险公司最终发现,经历过模拟演习的员工能够观察到备灾计划的缺陷,并提供建议。此外,那些经历过紧急情况演习的员工不太可能在真实发生事故时恐慌,而且也更容易记住这些实践计划。

您能给我们举一些企业通过测试演习并发现存在的问题的例子吗?

一些公司已经发现,尽管他们已经备份了他们的服务器或数据中心,但他们却忽略了笔记本电脑的备份计划。许多企业没有意识到存储在本地笔记本电脑上的数据的重要性。因为笔记本电脑所具有的移动性质,其可以很容易地被丢失或造成笔记本电脑的损坏。故而并不需要发生一个灾难性的事件就足以扰乱企业的正常业务运行,如果员工把关键或不可替代的数据存储在笔记本电脑上的话。

一个公司的报告称,他们想要从一家为军事机构提供方便食品(meals ready-to-eat,MRE)的公司进行采购。这些方便食品有很长的保质期,而且不占用太多的空间。如果雇员们需要在您的设施岗位上停留了很长时间的话,这可能是一项值得的投资。

OppenhiemerFunds的信息安全和灾难恢复前负责人迈克·海格表示说,911事故带来了这方面的问题。他说,许多企业组织都能够恢复数据,但他们并没有制定替代工作场所方面的计划。纽约世界贸易中心提供了超过2000万平方英尺的办公室空间,而在911事故之后,曼哈顿只有1000万平方英尺的办公室空间。当一场灾难事故发生后,企业员工们应该立即去哪里的问题,以及他们在故障恢复过程中应该在哪里的问题都应该在事先规划好,而不是事后才来想办法解决。

USAA保险公司发现,虽然他们指定了附近的安置区,但电脑和手机的设置过程却花费了近两个小时。在此期间,撤离办公大楼的员工们需要站在德州炎热的大太阳下。实施备灾计划的演习让他们看到了几个没有完全解决的问题:在此期间是否有一个安全的地方能够安置这些员工?USAA保险公司应如何确定员工们何时可以被允许回到办公建筑内?如果他们的车钥匙还放在桌子上,大量的员工将找到他们的车辆?如果公司需要送员工们回家的话,是否有一个替代性的运输计划?

企业组织在灾难恢复中的最大的错误是什么?

Hager和其他专家指出了企业组织所存在的以下缺陷问题:

1 规划不足:您企业是否能够确认所有的关键系统,您企业对于在发生灾难事故当天对这些关键系统执行恢复都有什么样的详细计划?(每个人都认为自己知道他们在他们的网络上存储了什么,但大多数人并不知道他们所在的企业有多少服务器;或者这些服务器是如何配置的;或者这些服务器上运行着哪些应用程序或服务;他们使用什么版本的软件或操作系统。资产管理工具声称其具备这些方面的技巧,但他们往往并不能捕获重要的软件修改的详细信息等等)。

2 未能将业务纳入恢复工作的规划和测试中。

3 未能获得来自企业高层管理者的支持。其中最大的问题是:

a 未能展示出全面的恢复工作所需要的水平。

b 没有进行业务影响分析,也未能解决在您的恢复模式中的所有的差距问题。

c 没有制定包括了您的恢复时间目标、关键系统和应用程序、业务需要的重要的文件、业务功能的建设计划在内的足够的恢复计划,也没有在灾难之后如何继续经营活动的计划。

d 没有适当的资金来支持至少半年一次的测试。

技术的改变将如何影响企业组织的BC/DR计划呢?

好问题!首先,您应该定义一个密切关注技术发展趋势的流程。如下,是四项当前在大多数情况下能够在实际工作中协助保持业务连续性的技术趋势。(然而,这些技术也会相应的带来一些挑战和并发的问题。)

·虚拟化。让企业组织得以能够跟踪更少的物理设备,较小的数据中心的占地面积,简单的实现故障转移功能。

·云计算。帮助企业组织将BC/DR的责任转移到您的云提供商——从而不仅让企业组织受益,同时还规避了相应的风险。务必要确保您的合同中清楚地说明您的要求。同时注意,跨多家云提供商进行测试是复杂的。

·移动计算。能够使危机通信沟通和定位员工可能更容易。

·社交网络。不仅可以实现与员工的更好的沟通,还能够让企业能够更好的与外界沟通。

应该由谁来负责领导企业组织的BC/DR计划呢?应该向谁报告呢?

没有一个放之四海而皆准的答案。成为BCDR项目领导的关键是要有一个广阔的视角和足够的影响力来获得正确的要素。

值得重复的是:信息系统无疑是今天企业业务的操作中心。但是,仅仅只涉及到IT的BCDR计划不是一套完备的计划。这同样适用于仅涉及基础设施的计划。对于全套资产设备人员、系统和流程的充分理解,才是使得您的业务连续运行成功的关键。

越来越多的企业组织正在创造企业风险管理部门或项目,这是一项很自然的确保业务连续性的努力。

企业组织可以外包相关的应急措施吗?

企业的灾难恢复服务,包括异地数据存储、移动电话、远程工作站等等经常是采用了外包方式,因为这要比企业自行购买额外的设备或空间更有意义,毕竟这些可能永远不会被使用。在911恐怖袭击后的日子里,就有灾难恢复供应商提供系统恢复和临时办公空间,为受灾的企业提供几十台电话的配备和互联网连接服务。

对于那些需要说服他们的CEO或董事会制定相应的灾难恢复计划和功能的企业安全高管们,您会给出什么建议?最有效的执行方案是怎样的?

Hager建议企业组织的首席安全官通过分析并拟定如果发生灾害的潜在经济损失,及之后相应处理的灾难恢复文档来解决该问题。与您企业的法务和金融财务部门合作,以文档的形式估算出如果发生灾害,而您的公司将面临没有快速恢复的能力的话,每天会造成的总的损失。彻底审查您的业务连续性和灾难恢复计划,您可以识别找出其与能够帮助您企业实现成功的灾难恢复的方案的差距。记住:灾难恢复和业务连续性只不过是规避风险。而当您能够向他们展示企业需要冒多大的风险时,高级管理人员才能够更清楚地理解。”

Hager还表示,较之大型企业来说,规模较小的公司在灾难恢复方面会有更多的(更便宜)选择。例如,数据可以有员工在晚上下班带回家。这当然是一种低成本的异地离线备份的方法。

这其中有些措施对于某些企业而言是不是有些过头了?

USAA保险公司精心设计的,将需要不断开发和测试的应急计划可能对于一般企业的CSO(或首CEO)而言有些过头了。对于一些企业来说,这绝对是真的。毕竟,针对20000名员工实施危险品培训和疏散计划并不是对每家公司都是必要的。

像许多安全问题一样,保持业务连续性规划涉及到基本的风险管理:贵公司能经受得住多大的风险,贵公司愿意花费多少成本来缓解各种风险?

为意外情况提前制定计划,企业组织必须在权衡风险与成本之后才创造这样的一个套应急计划。USAA保险公司的安全助理副总裁Pete Hugdahl表示说这种权衡经常面临各种问题:“当成本因素发挥作用的时候,做出这种权衡真的相当困难。”他说。“我们要花100000美元来保护我们的资产吗?我们怎么知道这是值得的呢?”

其实,这方面没有绝对的答案。不管您企业是准备花钱;还是准备接受这方面的风险,只是一个行政决定,但其应该是一个明智的决定。务必要汲取那些半吊子的灾难恢复计划的教训(参考2010年英国石油公司泄漏事故、2005年飓风季节、911事件、2003年美国东北大停电事故等),这些计划都是一个未履行尽职调查而制定的。

还有哪些其他的注意事项?

云服务公司 Evolve IP创造了一份企业高管们可以用来评估他们当前的灾难避免计划的建议清单,以及企业是否需要制定一份这样的备灾计划,或是应该为他们的信息和通讯系统提供定向的保护措施。

建立一支灾难恢复功能团队

从该团队选择一名发言人负责沟通。在企业组织发生多处灾害事故时,每处位置都应该有一个核心团队或代表,来与企业实体配合工作。

风险评估

识别下列领域的风险:

信息——哪些信息和信息系统对于企业业务在一个可接受的水平继续运行是最为重要的?

通信基础设施——哪些通信(电子邮件、电话线、呼叫中心、VPN、终端服务)对于企业业务在一个可接受的水平继续运行是最为重要的?

访问和授权——在发生灾难时,谁需要访问上述系统,并且需要以怎样的安全的方式访问(VPN、SSL、DR站点)?

物理工作环境——在紧急情况下那些要素对于开展业务是有必要的,而这些要素在受灾害影响的位置不可用?

内部和外部的沟通——在紧急情况下,企业需要保持怎样的联系;哪些信息需要及时互通?

基于云的数据中心和应用

创建一套恢复计划,并将其远程托管在一个安全的和冗余的数据中心。每年至少测试一次您的恢复计划,并根据监管/合规要求及时更新修订。确保员工可以在故障转移模式期间能够在从指定的位置访问托管环境(包括从内部的业务范围内和远程)。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号