灾难备份要分级别进行可靠管理
几乎没有哪个天津市固网电话用户知道,在2005年的某一天,他们曾经有机会打一天的“免费电话”。这并不是中国网通(集团)有限公司天津市分公司(以下简称天津网通)搞的酬宾活动,天津网通也没有事先通知市民会有这样的“好事”,原因很简单,是他们的系统出现了故障。
故障当天,天津网通计费系统失灵,导致当天的通话计费无法完成,不得不临时转成手工记账;不仅如此,系统中存有的数据也受到了一定程度的影响。值得庆幸的是,他们的通话系统还能够正常运转,因此市民并没有感觉通话质量有什么变化。
事故发生后,天津网通技术部门迅速采取了应急措施,经过4个小时的努力,他们将事先备份好的数据恢复到主系统中,使系统重新运转。然而了解事情经过的人,都不能不说网通天津市分公司是“幸运”的。天津网通从2005年开始,就通过向网通集团总公司申请,以试点的方式,对本公司重要业务系统进行了灾难备份。只不过当时的备份还不是实时的,按照当时的备份频率,天津网通公司的计费系统数据每星期备份一次。系统故障出现的头一天,刚好是天津网通计费系统的“备份日”。
问题 PROBLEM
恰好在距离系统故障最近的一个时间点进行了数据备份,天津网通才得以将系统故障造成的损失降低到了最低点。如果备份时间更早一些,计费系统失灵造成的损失就会更大。
这一案例引出了这样一个问题:为什么天津网通不对计费系统数据进行实时备份,甚至是建立一个可以随时切换的应用系统,来避免业务损失呢?
实际上,天津网通已经是率先要求进行灾难备份的分公司之一,而该公司领导也对灾难备份和确保业务正常运行方面的工作非常重视。但很多方面的原因使得包括像天津网通这样的企业在灾难备份中“心有余而力不足”。
其中最主要的原因之一就是成本问题。中国网通(集团)有限公司(以下简称中国网通)企业信息化部副总经理李莞菁说:“每个业务部门都希望自己的系统达到最高的备份等级。”而中国网通企业信息化部规划处处长娄瑜对此深有体会,她说:“在与业务部门沟通的过程中,当问起他们认为自己的业务最多能容忍中断多久时,他们的回答几乎清一色都是‘当然一分钟都不行’。”
在这样尴尬局面面前,要想最大限度地满足各方需求,充分给各个系统提供灾难恢复保障,就必须采取一个重要的措施,那就是对企业自身业务进行评估,根据不同业务的重要性划分不同等级,并进行不同级别的灾难备份。
解决 SOLUTION
对灾难备份进行分级要考虑到很多因素,例如是同城备份还是异地备份、实时备份还是非实时备份等等,这些因素的组合将灾难备份划分成了若干个不同级别,而不同等级的备份对技术、设备甚至人员素质的要求都是不同的,也因此在建设成本方面产生了相应的差异。
但是对于企业用户来说,他们更关心的问题,是如何让自己企业的各种业务,找到一种与之相适应,至少是与目前IT投入水平相适应的备份级别。这实际上,要求企业对自身的诸多业务进行重新了解,从灾难备份的角度,掂掂它们的“分量”。
李莞菁说:“当时中国网通考虑灾难备份,首先考虑的一点就是灾备的目的。这个目的分成了两个方面,一是保证数据恢复的及时性,二是保证数据恢复的完整性。”根据不同业务对及时性、完整性要求的不同,中国网通对业务系统的重要性和对灾难备份的需求做出了不同的区分。
李莞菁说:“以财务系统为例,ERP中的这一部分对中国网通来说是最重要的系统,它关系到企业的正常运营;而公司的收入又是由计费系统统计的,因此计费系统的重要性也不逊于财务系统。所以,这两个系统必须要做比较高的备份,相比之下,其他级别的系统备份等级不一定要很高。”
但李莞菁也强调,即便这两个非常重要的系统,也要在进行灾难备份建设时考虑各自的具体情况。例如在分析计费系统时,中国网通首先要考虑它的中断所影响的范围。计费系统的中断将影响中国网通业务的正常开展。一旦计费系统出现故障,最严重的情况会影响通话系统,导致用户打不了电话。
而对于ERP系统中的财务系统来说,财务结算所占用的时间只是在月末的几天,因此它对实时性的要求并没有计费系统那么高,中断一两个小时,可能只会造成财务单的拖后。这就不需要让系统达到实时备份,也暂时没有必要特殊强调财务系统的不间断性。但是财务系统的另一方面需求却是不可忽视的,那就是准确性。这就要求灾难备份的数据不能错。
实时备份或非实时备份在网通的财务和计费系统之间得到了区分。对于灾难备份分级的另外两个要素,也就是同城备份或异地备份,这两者也各有各的优势和不足。
总体来说,同城备份对实时性的实现相对更容易,而异地备份无疑对灾难的隔离效果更好。
可以看出,不同企业所采用的灾难备份的方法是千差万别的,但他们有一点是共同的,那就是分级。
有了详细分级的备份,企业就可以将有限的IT投资,率先使用在最重要的系统上,而对于重要性不是特别高的系统,则完全可以先进行数据级的备份,确保数据不丢,随着技术和业务的发展,再进一步考虑是否有必要提高备份级别。
战略 STRATEGY
如此看来,灾难备份绝不是一件轻松的事情,做好灾难备份一定要讲求策略。除了根据业务的重要程度采取分级备份的措施外,还有一些需要注意的要点。对开展灾难备份,李莞菁总结出了一个“12字原则”。
首先是“统一认识”。她说,一提到容灾,很多人是从技术角度来探讨,而很少从业务角度谈。
其次,要“整体考虑”。李莞菁强调,做灾难备份规划,不能仅从单点着眼。例如重视了计费系统的容灾,却忽视了ERP的容灾,这是行不通的,因为计费系统与EPR系统之间,实际上是有对接的。如果两者中的一个系统进行了容灾,而另外一个没有,那么就像是“断了一条腿”。最后是要“分步实施”,李莞菁结合网通自身信息化的现状指出,灾难备份一定要分步实施,不能一步到位,而且要抓住重要系统率先实施。
中国国际电子商务中心技术总监刘军对灾难备份有着自己的理解。他说,灾难备份的一个重点在于系统建成后的系统化管理,比如升级、同步,这些后期工作一定要在严格的管理下进行。据他介绍,中国国际电子商务中心的灾难备份,已经形成了一套管理流程,中心已经成文了一套书面文件,指导灾难备份相关人员在遇到紧急情况时正确地采取相应措施。
而且刘军强调,灾难备份系统建成之后,一定要定期演练。他说:“灾备系统风险大、投资大,但是发生灾难的概率却非常小。系统建好了,这辈子能用上都不一定。因此一定要对灾难备份的巨大投资,给予充分的重视。”
对此,中国人民银行的郭全明处长提出了一个好的建议,那就是将灾难备份系统在平时当做一个测试系统来使用。这样做的好处很多,一方面可以充分利用灾备的资源,另外一方面可以培养灾备人才,还可以通过主备系统之间的切换,在不影响业务正常运行的情况下,进行系统的升级,可谓一举多得。