随着信息技术的发展,电信运营商越来越依赖于计算机系统来保证其在业界的竞争力,业务支撑系统的高可靠性和高可用性已成为运营商关注的重点。
对电信运营商来说,如果发生数据丢失,轻则影响业务的开展以及客户满意度,重则会使整个企业的生产瘫痪。有研究显示,企业在遭受灾难之后,如果无法在14天内恢复数据,有75%的公司业务会完全停顿,43%的公司再也无法重新开业,有20%的企业在两年之内被迫宣告破产。造成这些损失的原因不仅仅是火灾、水灾、地震等自然灾害,还有诸如战争、蓄意破坏、严重误操作等人为因素。因此,在限定时间内成功的灾难恢复是电信运营商企业战略中的一个关键组成部分。
一、常用容灾技术
1.利用磁带拷贝进行数据备份和恢复
利用磁带拷贝进行数据备份和恢复是常见的传统灾难备份方式。使用这种方式的数据拷贝通常是存储在盘式磁带或盒式磁带上,并存放在远离生产系统的某个安全地点。磁带通常是在夜间存储数据,然后被送到储藏之处。当灾难或各种故障出现,系统需要立即恢复时,便将磁带取出送往恢复地点,将数据恢复到磁盘上,然后再恢复应用程序。这种方式的实现过程复杂,恢复效率低,已越来越不适合用户不断发展的业务系统的需要。
2.远程数据库复制技术
对数据库系统可采用远程数据库复制技术来实现容灾。这种技术是由数据库系统软件来实现数据库的远程复制和同步。基于数据库的复制方式可分为实时复制、定时复制和存储转发复制,并且在复制过程中,还有自动冲突检测和解决的手段,以保证数据一致性不受破坏。其实质是实现主、备用系统数据库的数据同步(实时或者准实时同步),即将主用系统数据库操作Log实时或者周期性地复制到备用系统数据库中,实现两者数据的一致性。远程数据库复制对主机的性能有一定影响,会增加对磁盘存储容量的需求(包括对Log的存储),但系统运行恢复较简单,在实时复制方式时数据一致性较好,所以对于一些对数据一致性要求较高、数据修改更新较频繁的应用可采用基于数据库的容灾备份方案。利用这种技术实现容灾的解决方案有Oracle的DataGuard和Quest的SharePlex。
3.远程数据复制技术
目前业内应用比较多的容灾是基于智能存储系统的远程数据复制技术。它是由智能存储系统自身实现数据的远程复制和同步,即智能存储系统将对本系统中的存储器I/O操作请求复制到远端的存储系统中并执行,保证数据的一致性。由于这种方式下数据复制软件运行在存贮系统内,因此较容易实现主中心和容灾备份中心的操作系统、数据库、系统库和目录的实时拷贝维护能力,且不会影响主中心主机系统的性能。如果在系统恢复场所具备了实时数据,那么就可以做到在灾难发生的同时及时开始应用处理过程的恢复。但这种方案也有开放性差(不同厂家的存储设备系统一般不能配合使用)、对于主备中心之间的网络条件(稳定性、带宽、链路空间距离)要求较苛刻等缺点。HP的CA、IBM的PPRC、EMC的SRDF以及HDS的TrueCopy技术都用于实现基于智能存储系统的远程数据复制。
4.远程数据复制技术
基于逻辑磁盘卷的远程数据复制是指根据需要将一个或多个卷进行远程同步(或者异步)复制。该方案通常通过软件来实现,基本配置包括卷管理软件和远程复制控制管理软件。远程复制控制管理软件将主用节点系统的卷上每次I/O的操作数据实时(或准实时或延时)复制到远程节点的相应卷上,从而实现远程两个卷之间的数据同步(或准同步),主、备节点之间通常需要配置相应带宽的IP通道。基于逻辑磁盘卷的远程数据复制会增加各节点主机的一些处理性能需求,在此前提下且通信带宽保证时,远程复制效率和数据一致性可得到保证。基于逻辑磁盘卷的远程数据复制因为是基于逻辑存储管理技术,一般可与主机系统、物理存储系统设备无关,对物理存储系统自身的管理功能要求不高,有较好的可管理性,也便于主、备系统的扩充和发展。同时,也可方便做到多个节点对一个节点或一对多的远程数据复制。利用这种方式的典型解决方案是Veritas的VxVM+VVR。
二、建设企业容灾系统应注意的问题
1.加强数据安全意识
目前国内用户所能购买到的灾难备份产品,在技术上并不落后于国外用户,但是国外用户在灾难备份意识上,明显比国内用户强。国外很多企业是全球性运作,要求业务能够7×24小时不间断工作,对业务的连续性要求高,一旦出现中断将造成巨大损失。而目前国内企业的规模相对较小,对业务连续运行的需求没有那么强烈,因此对灾难备份的意识相比国外客户来说要淡薄些。但随着中国加入WTO市场以及跨区域、跨国企业的逐渐增加,国内客户的认识、需求正逐渐提高。
在数据安全意识方面,国内企业常常会走两个极端。有的企业是没有数据安全的防卫意识,而一旦意识到要保证数据安全了,就想到容灾。数据安全其实不仅仅是容灾,它应该是一个体制,是一个管理范畴的问题,例如人员的管理,大楼的安全,网络的安全等,这些对于企业保证数据安全才是最重要的;其次才是技术的问题。容灾系统应该具有三个层次,包括了主机的高可用系统、备份系统和整体系统故障异地容灾。但是国内的许多企业在做异地容灾的时候都只重视第三个层次,殊不知前两个层次能够有效地屏蔽掉单点故障等局部故障问题,在整个容灾系统中也起着重要的作用。
2.实现容灾需因地制宜
企业在制定数据安全方案时,首先要加强人员管理,建立安全体制,避免人为失误;第二步是采用磁带和双机热备份来确保本地的数据安全;第三步才是用到远程灾难备份。其实灾难备份只是业务连续性的一部分,保证业务连续性应包括两个方面:一是计划内的停机,如备份、系统升级、维护等造成的计划停机;另一方面是非计划的中断,如电源、通信链路、灾难等引起的灾难性备份。
根据企业的规模、所处地域、业务类型、网络状况、数据量等因素,容灾备份系统的建设需因地制宜地采取不同容灾技术以免造成不必要的成本消耗。如果是防火灾,则容灾中心距离容灾数据中心只需要几百米就可以了。如果要是水灾,则要求它们之间的距离在数公里以上。如果要是预防地震的话,则需要保持几百公里的距离。此外,不同的地域需求也有不同,例如在北京,就可以不用考虑水灾的问题,而在有的地区,地震就不用考虑。
3.容灾成本考虑
企业在建立灾难备份系统时,须考虑整个系统成本问题。如果实现远程异地自动备份,租赁通信链路所付出的代价较大。国内中小企业目前一般采用的多是本地备份,这主要是因为资金和中国通信广域网线路的限制。而国外用户一般都租用比较宽的带宽。
100公里以上的异地灾难备份将是未来的一种趋势。这种备份目前分为两种形式,一种是历史备份,一般采用每天凌晨备份的形式,出现问题可以恢复一天前的数据。如果对数据要求不是很高的话,可以采用3天,甚至一周备份的方式,可以节约很多成本。
4.数据大集中有利于灾难恢复
要想做好针对灾难性的备份系统,数据大集中是亟待解决的问题。由于灾难性备份系统的建立需要耗费很大的资金,如果每一个地市都建立一个灾难性备份中心,企业是很难承受的。有效整合目前的资源,建立全省性的,或是区域性的数据集中系统,可以减少灾难备份系统建设的成本。
目前最有效的备份方式是“数据大集中”,以“数据大集中”为基础的灾难备份手段,可以有效避免企业各分部各自进行备份而导致的各自为政、管理不统一的问题出现。以“数据大集中”为基础的灾难备份会使管理更有效,也便于数据统计。
三、企业容灾备份系统建议
首先,容灾系统应具有开放性,不依赖特定硬件系统,支持各种传输介质,如能支持TCP/IP网络则更佳。另外,考虑到容灾能力和应用系统性能的影响,容灾方案不仅要支持近距离的同步数据容灾,还必须能支持远程的异步数据容灾。对于异步数据容灾,数据复制不仅仅要求在异地有一份数据拷贝,同时必须保证异地数据的完整性、可用性。完善的容灾系统应该包括各种实用的灾难恢复手段。
对于企业来说,在建立一个容灾系统之前,首先必须对企业本身的各种数据重要性进行评估,包括灾难造成的直接损失和间接影响,然后决定为此支出多少、投资回报如何,选择最适合自身需求和发展的厂商和方案,避免投资的盲目性。