辽宁移动通信公司 齐兵 王晓明 电信运营商的综合网管系统是提高企业核心竞争力,快速响应市场和客户的重要手段,也是现代电信运营商管理模式的重要体现。网管系统建设和使用的好坏将直接影响运营商的长远发展和在市场竞争中的地位。 建设综合网管系统的意义在于,它保证了网管系统信息基于全网层面的全面、有效和完整,同时进一步提供企业合理有效的监控、维护、服务手段,解决现行管理问题,并提供一定程度决策分析支持等。作为中国移动IT支撑系统的主要组成部分及网络维护管理的重要手段,综合网管系统是实现中国移动运维管理目标的基础和保障,在提供业务、保证网络质量、降低网络运营管理成本等方面发挥重要支撑作用。 一、存储架构建设考虑 综合网管系统作为关键业务应用系统,其连续运行和数据完整性是企业生存的命脉、发展的基础,也是企业提高竞争力,为客户提供更可靠服务,确保在日益激烈的市场竞争中确立主导地位的基本保证。因此,在数据大集中改革的前提下,对数据的存储提出了更高的要求。 在构架企业级存储环境时,辽宁移动综合网管系统主要考虑了以下两点。 1.海量数据的存储与备份 综合网管建立后数据累积的速度将会越来越快,且最终用户需要快速访问越来越多的信息,因此存储管理已经从一种夜间操作任务变成全天候的关键任务。存储管理包含与有效部署、可访问性和跨计算基础设施使用存储信息有关的所有活动。可以说,存储管理将会成为IT主管面临的最重要的问题之一。 2.系统化管理与解决方案 在分布式计算环境中,IT主管需要稳定的跨企业存储管理战略和系统正规的流程形式。另外,存储管理过程与集成网络和系统管理(INSM)战略不是彼此独立的。IT主管需要能集成各种存储管理技术和组件的完整解决方案,包括系统、数据库、文件系统、存储外设、存储管理应用软件及网络及其系统管理方案。因此,环环相扣的一体化结构是存储方案所必须的。 二、辽宁移动综合网管系统存储建设方案 基于以上的考虑,辽宁移动对综合网管系统的存储建设提出了以下需求。 1.数据集中化。集中化维护必然要求数据存储与管理的集中,这种模式有利于各项业务间的联动处理,并且有利于实现分级授权,加强控制和监督,提高集约化管理水平。 2.业务综合化。集中化维护后各种业务紧密结合起来成为一个整体,各系统之间信息得以共享,消除了信息孤岛,为数据挖掘与决策分析奠定坚实的基础。 3.数据安全性。综合网管系统作为数据高度集中的系统,数据的安全是第一位的。一旦系统出现故障造成数据丢失、系统中断,由此造成的损失将不可估量。因此必须从网络、操作系统、数据库、存储设备等方面建立起一套严密的保障措施,保证业务数据的100%可用。 4.保证系统高可靠性与高可用性。作为集中维护处理系统的数据备份是保证数据高可靠、高可用的基本手段。将综合网管系统的数据进行实时备份,将大大提高数据资源的可靠性。 5.高可扩充性与升级能力。存储系统一定要能够适应网络系统发展的需要,具备高可扩充性与升级能力。 在经过多次方案的论证,各种存储架构的比较后,SAN(StorageAreaNetwork,存储局域网)存储架构由于其可建立高可用冗余,在不占用服务器CPU资源的情况下,备份和恢复完成速度很快,同时不会影响局域网带宽,可以在端到端连接的服务器之间实现文件共享,其存储的高度共享结构以及可以非常高效地进行扩展等优点,最终获得了辽宁移动公司的青睐。辽宁移动综合网管系统SAN存储结构如图1所示。 在图1中我们可以看到,磁盘阵列(StorageWork)和磁带库(TapeLib)都接到了SAN的交换机上,这是一种彻底解决需要占用LAN网络带宽问题的解决方案。它采用一种全新的体系结构,将磁带库和磁盘阵列各自作为独立的光纤结点,备份时,数据流直接从磁盘阵列传到磁带库内,无需占用网络带宽。 为保证数据的安全可靠,对磁盘阵列内所有磁盘做了RAID0+1,这样做虽然损失了一半的空间,但是提高了磁盘的性能和可靠性,这一点是我们更加关注的,而且存储空间是可以扩充的,图1中的DELLStorageWork就是为扩充存储容量而接入的。 在服务器方面,我们选择了当时比较高端的AlphaServerGS160,同时为确保服务可用,对两台GS160做了群集,采用这种高可用性群集解决方案,当整套系统中出现任何一个单点故障,都有相应的冗余部件代替发挥相应的功能,从而保证业务的正常进行,在此过程中的物理设备和应用软件的切换都不会被前端用户所察觉。另外系统的PCSERVER也采用了群集服务,这样极大降低了业务在各种单点故障发生时的损失,保证业务系统的7x24小时不间断运转。 该方案实施后,不但满足了辽宁移动综合网管系统提出的需求,而且还取得了良好的效果。 首先,在高性能方面,由于该方案提供了和直接连接模式类似的性能,同时消除了传统的网络备份模式所特有的受网络带宽限制的缺陷,因此对于像辽宁移动这样的大型网络环境来说,是一个至关重要的有利因素。 其次,在可扩展方面,磁带库和磁盘阵列各自作为独立的光纤结点并被所有的主机共享。系统容量可以很容易地通过增加额外节点来扩展,所以不管公司的业务规模如何扩展,此套系统都可以适应需要,既节省了投入资本,又不必费力重新规划管理。 第三,在灵活简便性方面,该系统的存储空间可以随着环境的改变随时被分配和重新分配。备份容量也是一样,像直接连接模式中一样,磁带驱动器是被指定或锁定到特定的服务器上,这样做的好处是为管理人员提供了方便,部署规划更加明晰,所以说它是针对整个系统平台一种分门别类的分配方案。 三、容灾系统的建设 上述系统虽然能满足移动公司的业务需求,但是还存在一个问题:在当时系统建立时,由于受环境因素的影响,只是对系统做了冗余,并未对系统做异地容灾,这不能不说是一个缺憾,同时也是系统的一大隐患。目前由于综合网管系统在日常生产中扮演越来越重要的角色,同时为了满足对海量数据的分析,为领导层提供决策分析支持,为用户提供更优质的服务,辽宁移动正在建设新的方案对系统进行升级和异地容灾。 随着IT技术的飞速发展,现今的设备在性能上已远远超过当年公司采购的系统,辽宁移动备份升级方案的主导思想是,以当前的系统作为备份,用性能更好的设备组建一套新系统,两套系统实现SAN-SAN的异地容灾方案。 新的容灾方案实施以后,系统的性能和可靠性、安全性都得到了很大的提高,其结构图2如示。 在竞争日益激烈的通信市场,争夺用户的竞争将是运营商提供服务的竞争,只有通过对历史数据的深度挖掘、分析,作出正确的决策,才能领先对手为用户提供优质贴心的服务,才能在市场上占据主导地位。存储系统作为综合网管的最底层设备,为数据深度挖掘和分析提供坚实的基础和保障。辽宁移动正是基于这一目在不断建设和完善自身的存储系统。我国古文化《易经》中曾经这样来描述大地:“地势坤,君子以厚德载物”,在这里来形容存储系统看来也是很恰当的。
图1综合网管系统的SAN结构图
图2 SAN-SAN 异地容灾结构图