2006年,中国人民银行提出加快支付清算系统的建设,完善金融基础设施,实现会计核算业务处理和数据管理的全国集中,提高中央银行会计核算的质量和效率,改进对银行业金融机构的结算服务,在短期内完成支付清算系统灾备系统建设,提高系统应对灾难等突发事件的危机处置能力,保障支付清算系统的高效、安全、稳定运行。
2014年,第二代支付系统(CNAPS-G2)和中央银行会计集中核算系统(ACS)几乎同步在全国推广建设。为保障业务连续性,支付清算系统必须构建一个完善的容灾系统。本文通过分析现有的灾备技术,探讨第二代支付系统灾备系统的建设方案。
一、支付系统及其灾备系统建设的必要性
第一代支付系统由业务系统和辅助支持系统构成。业务系统包括大额支付系统、小额支付系统和支票影像交换系统;辅助支持系统包括清算账户管理子系统和支付管理信息系统。
随着近年网上银行、电话银行等新兴电子支付业务飞速发展,第一代支付系统逐渐不能满足银行业金融机构灵活接入的需求,不能有效地对非银行支付服务组织提供支付类服务。2010年,人民银行开始构建第二代支付系统,支持“一点清算”,新增了“资金池”管理、自动拆借、“一揽子”流动性实时查询等流动性风险管理功能。第二代支付系统的设计,引入了先进的支付清算管理理念和技术,丰富了系统功能,实现了适应新兴电子支付、面向参与者管理需要的发展要求。
随着第二代支付系统全国推广的完成,第一代支付系统在业务运营和风险管理方面存在的各种不足得到了较好解决。但同时,第二代支付系统“一点接入、一点清算”模式下,支付系统安全稳定运行的风险更趋集中,支付系统对业务的连续性运行要求以及对各参与方的信息安全要求也会越来越高,这就要求第二代支付系统必须构建一个完善的容灾系统。
二、灾难恢复及容灾能力衡量指标
2005年4月,国务院信息化办公室制定并发布的《重要信息系统灾难恢复指南》(以下简称《指南》)参照国际相关标准,并结合国内实际情况,将灾难恢复应具有的技术和管理支持分为六个等级,每个等级都包括数据备份系统、备用数据处理系统、备用网络系统、备用基础设施、技术支持、运行维护支持及灾难恢复预案等七个要素。如要达到某个灾难恢复等级,应同时满足该等级中七个要素的要求。
根据《指南》的描述,容灾抗毁能力可以用4项指标来衡量:一是恢复点目标(RPO):指出现灾难之时到可以让业务继续运行的时间。二是恢复时间目标(RTO):指信息系统宕机导致业务停滞时开始,到信息系统恢复、业务恢复运行的时间。三是降级操作目标(DOO):指宕机恢复以后到第二次故障的灾难以后的时间。四是网络恢复目标(NRO):指用户在灾难发生后可以连到灾备中心的时间。
三、构建容灾系统的主要要求
灾备技术应用主要源于对数据的保护,其核心的技术思想是为数据在异地创建副本。灾备技术就是利用数据保护的基础技术在几十公里、数百公里甚至千里之外的系统中创建数据的副本,实现生产系统和灾备系统的数据同步。综上所述,我们了解了整个容灾系统的特性和需求后,可以明确容灾系统的构建,首先应该注重以下几个方面:
一是保持支付清算业务系统的连续性。这是容灾系统的核心要求,当灾难发生后,容灾系统能够及时有效地接管生产系统,开始支付业务的处理。
二是保障各项数据的完整性和一致性。容灾系统必须能够保证生产系统和容灾系统的日常数据备份有效,并在紧急系统切换过程中不能有数据遗失。
三是综合考虑系统风险和建设成本。从理论上说,系统保障效果越好,安全等级越高,建设成本也会随之增加。因此在容灾建设的设计之初就应该综合考虑风险和成本的因素,根据自身的业务范围和要求,合理地设计相应的容灾等级。
四、传统灾备技术的问题和缺陷
(一)传统灾备技术
1、基于传统备份的灾备技术。利用传统备份技术,将数据备份到存储介质,之后再将介质运送至灾备中心。传统备份技术已被大量应用并被熟知,传统备份技术在成熟度及成本上具备优势,但应用于灾备系统中具有一定的局限性,主要表现在:备份时间长,无法实现实时灾备;灾备数据的有效性检测复杂,且数据格式在备份过程中进行了转换,恢复时间长。
2、基于镜像的灾备技术。源数据被创建和更新的同时,其副本也被创建和更新。镜像主要有两种镜像方式:一是同步镜像,二是异步镜像。完成生产卷和镜像卷的数据同步,数据同步的处理单元是每个写I/O
数据同步链路,一般为FC链路或是高速IP链路。(1)同步镜像:数据的每个I/O写操作会同时在生产卷和镜像卷上完成,生产卷的写操作完成之后需等待镜像卷完成写操作,才能进行下一个I/O操作。要求存储生产设备和镜像设备的性能保持一致,如镜像卷性能低于生产卷性能,性能会严重衰减。其优势是RPO趋于零,数据理论上为零丢失。(2)异步镜像:与同步镜像不同的是,生产卷的写操作完成之后无需等待镜像卷完成写操作,才能进行下一个I/O操作。所以,生产设备和镜像设备的性能无需一致。其优势是可依据实际需求,设定灾备链路带宽。
3.
基于复制的灾备技术。创建和实时更新源数据的副本,实现上划分为两个阶段:首先进行全拷贝;下阶段根据源数据的变化,通过同步变化数据,进行副本的实时更新。复制技术是一项远距离数据同步技术,通常采用IP网络作为灾备链路,无距离限制,IP可达,灾备便可实现。复制技术的数据同步机制基于变化的数据块(有数据写入发生的数据块),区别于镜像技术基于I/O。
(二)传统灾备技术的难题
在传统的灾备部署中,主要会遇到三大难题:1、灾备中心和生产中心的物理距离,即灾备半径。灾备半径的大小是衡量灾备的重要指标之一,理论上来说,灾备半径越大,容灾的效果越好,但同时也必须考虑到容灾系统跨广域网部署的时候,如何克服FC技术在传输距离上的限制。2、面对生产中心各种繁杂的业务系统、以及各项系统不同结构的封闭环境带来的兼容互通性问题,尤其是对商业银行来说,业务是根据市场的需求而不断变化,相应的系统也就随之需要不断的升级改造,甚至更换。3、现在的容灾技术多种多样,实现的方式有基于网络层的、存储层的还有应用层的,实现的级别也有应用级、数据级、备份集等等,该如何避免初期的技术选择方向上不出现偏差?
(三)现有容灾系统的缺陷
在容灾系统运行一段时间之后,决策者们往往会产生一些困惑,因为常常会发现,做了艰巨而复杂的工作,却没有达到理想的容灾备份目标,仍然没有能够建立一个完善的灾难备份的技术体系。有灾无备、设备封闭局限、高额的通讯成本、灾难后的响应速度慢等不理想的局面纷纷出现。究其原因,就是容灾系统存在的几个比较明显的缺陷:
1、传统的面向科学计算的容错技术对于现在面向事务处理的,也就是说基于简单备份冗余的容灾体系结构面对当前复杂的网络计算环境已经力不从心。2、面对大量膨胀的结构化和非结构化数据,存在着难以恢复、恢复步骤复杂、恢复时间长、恢复效率低等技术难题。3、绝大部分的容灾系统都存在着监控分析、故障诊断自动化程度不高,还有相当一部分金融机构仍然依靠人为因素来控制信息系统的风险,应对突发事件和抗风险的能力比较薄弱。
五、基于虚拟化技术的新型灾备系统
传统灾备技术实现的不全面性以及容灾系统建设规划的不全面,导致了容灾系统建设的投入产出不够理想。正因如此,基于虚拟化技术的新型灾备系统逐步浮出水面。
在虚拟化技术的灾备解决方案中,把要备份的目标定义为工作负载,这是指独立于硬件平台之上的一些应用运行环境,包括操作系统、数据和应用。在灾备领域中,虚拟化技术尽管有其复杂性,不过它能够从任意地点在任何服务器上发挥灾难恢复作用,而不用考虑服务器的硬件兼容性的特性,这使得它必将成为灾备行业未来IT应用中的重要技术之一。
虚拟化技术灾备解决方案的核心思想就是双向复制,双向数据复制的最大好处是副本数据立即可用,没有数据恢复时间,RTO非常好。因为是实时复制,RPO也非常好,几乎不会丢失多少数据。
对于安装了Novell
自动化迁移技术的设备,比如是一台服务器,或者是厂商提供的一个灾备设备,第一步是通过P2V(Physical
Serverto
Virtualmachine,物理服务器向虚拟机迁移)技术,把物理服务器工作负载迁移到虚拟服务器上,或是V2V(Virtualmachineto
Virtualmachine,虚拟机向虚拟机迁移)技术,通过网络把被保护的虚拟机将工作负载迁移到灾备系统里作为虚拟机集中运行。通过这样一个基于虚拟化的灾备技术,可以为用户提供一个既支持本地容灾、又支持网络容灾的系统。
由于虚拟机的环境和被保护的服务器环境是完全一样的,所以启动后,它可以对外提供服务。用户连接到灾备系统里的这台虚拟服务器上,保证被保护的服务器停机时间最少,数据丢失量也是最少。被保护的物理服务器得到修复后,在灾备系统里运行VtoP(Virtual
machine
to
Physical
Server,虚拟机向物理服务器迁移)的操作,也就是灾备系统里的虚拟机可以重迁移回物理服务器上,这就是整个灾备工作的流程。
在虚拟化灾备解决方案中,最关键的技术之一是双向的迁移技术。P(Physical
Server,物理服务器)、V(Virtualmachine,虚拟机)、I(Imagearchive,映像)三者之间可以做到双向的、自动化的、基于策略的迁移。P2P是从一个物理机把工作负载迁移到另一个物理机;P2V是把一个物理机的工作负载迁移到一个虚拟化平台上;V2V和V2P是把虚拟机从一个虚拟化平台通过网络迁移到另一个虚拟化平台,或从一个虚拟机把工作负载迁移到一个物理机上。了解了P、V、I三者之间的双向的、自动化的、基于策略的迁移,就很容易理解基于虚拟化的灾备解决方案。
虚拟化灾备技术的优势还包括:在系统发生故障或灾难时,恢复工作负载的流程非常简单;减少灾难恢复解决方案代价昂贵的缺点,通常需要一对一的冗余硬件和软件资源;较好实现灾备并能方便完成持续测试,能够保护混合物理和虚拟机中的工作负载;在做增量复制时,可以设定网络带宽,防止网络带宽耗尽,影响到其他业务运营。
采用双向复制的方法能够很好地达到所设想的要求,实时数据同时在灾备中心产生可用的副本,此数据副本不需要进行人工干预做数据恢复,即可投入使用,当信息系统故障恢复后还可还原回去。
当生产服务器突然发生故障或者因其他原因停止工作时,和生产服务器同步的虚拟主机开始启动,它的角色将转换为主服务器工作。当生产服务器恢复业务运行后,虚拟主机上包括操作系统、数据库、应用程序和其他相关数据都被无缝地迁移回原来的主服务器。完成这些操作只需要简单的几步操作或者能够实现自动切换,让用户感觉不到业务的中断,如果能够完全实现这种我们称之为虚拟化技术的方案,也许支付清算系统再也不会出现因系统原因导致的区域性业务中断。
综上所述,信息系统灾备建设是一个系统性工程,不单单是系统或者基础建设的多样化能够覆盖的。居安思危、有备无患,是信息系统灾备建设的核心思想,也是业务生产的最后一道防线,在这之前还应该全面整合银行支付清算系统容灾恢复业务流程,提前做好支付清算系统恢复计划、人员操作连续性计划等等,以便于更有效地协调各方面的资源,做好灾备日常管理工作,使银行能够通过提供持续的金融服务,获得持续的盈利能力。