3.1 系统软件平台
数据仓库的实施是一个相当复杂的过程,主要包括五个部分的内容:数据仓库的设计建模、数据转换与集成、数据存储与管理、数据的分析和展现和数据仓库的维护和管理。
Sybase提供了覆盖整个数据仓库建立周期的一套完整的产品包:Warehouse Studio,它包括数据仓库的建模、数据集成和转换、数据存储和管理、元数据管理和数据可视化分析等产品。以下说明了我们是如何结合Sybase的产品来做数据仓库的设计与开发。
数据仓库的设计工作对于决策支持系统起着至关重要的作用,它需要根据决策需求确定主题,从数据源到数据提交,对数据仓库的数据组织进行逻辑结构的设计,还要按照业务用户最能理解的方式组织和提供信息。
在这个阶段,我们使用了PowerDesigner WarehouseArchitect。WarehouseArchitect是个高度优化的数据库工具,广泛用于数据源的逆向工程、建模、数据仓库方案设计,以适应每个业务需求。通过对逻辑设计、物理设计和应用建模进行集成,WarehouseArchitect方便了数据仓库的开发和实现。
在进行数据仓库的建立时,最大的挑战之一是如何将原始业务数据转化为一致的格式,使之更好地为决策支持服务。这包括对已有数据的准确性和一致性进行检验、净化,将数据进行转化、提取、转换、装载到数据集市或数据仓库以及对其进行定期更新和管理。PowerMart作为数据抽取工具,从各种异够的数据源中抽取数据,在数据抽取过程,用户可以根据不同的抽取阶段,灵活定制各种数据抽取流程,并定时地将数据加载到数据仓库中。
PowerMart是一个集成的软件产品套件,用于建造和管理数据集市和分析应用。PowerMart交付了一个开放的可伸缩的解决方案,主要定位于数据集市完整的生命周期和分析应用开发及产品化的管理,能够支持多种平台上快速变化的大量数据作为数据来源,进行复杂的转换处理以及支持高速的数据加载。其metadata repository 能够协调并驱动一系列的核心功能,包括抽取、转换、加载和管理等。
PowerMart的图形化用户接口帮助数据仓库管理人员很容易的设计复杂的source-to-target的映射,然后可以由PowerMart强大的服务器来自动地执行。
数据仓库的存储可以选用多维数据库,也可以选用关系型数据库或其它特殊的存储方式。数据的存储要保证数据的安全性、完整性、一致性,同时还要具有复杂的分析查询的高效性。
我们选用了Sybase的数据仓库产品Adaptive Server IQ。Adaptive Server IQ是一个关系型数据库,为高性能决策支持和数据仓库的建立而进行了优化。IQ中的关键技术是纵向数据存储(通过列而不是通过行来进行)、Bit-Wise查询索引和数据压缩。
联机分析处理(OLAP)是一个分析处理技术,它从企业的数据集合中收集信息,并运用数学运算和数据处理技术,灵活、交互式地提供统计、趋势分析和预测报告。通过多种OLAP工具对数据仓库中的数据进行多维分析、汇总,形成图表或报表的形式,使决策者可以清晰、直观地看到分析结果,这正是数据仓库系统所要达到的目的。
数据仓库的开发应用主要有结构设计、数据集中组织和管理、数据的快速高效访问等。其中数据的访问一般都是由较为成熟的业务智能工具完成,因此不同于OLTP系统,数据仓库系统的前端开发编程量是比较小的,但是其维护工作的时间跨度要大,因为决策支持应用的随意性较强,不可能再象业务系统那样固定一个统一的操作模式。
BusinessObjects作为较早进入中国市场的业务智能提供商,其产品操作精简、功能丰富,并且有直观易懂的前端展现元数据管理部分,在这个解决方案中与IQ的高速查询效率相得益彰。
元数据是关于数据的数据,能够表示、定义数据的意义及系统各组成部件之间的关系的数据,它包括关键字、属性、数据描述、物理数据结构、源数据结构、映射及转换规则、综合算法、代码、缺省值、安全要求及数据时限等。管理好元数据是管理数据仓库的关键。
Sybase的Warehouse Control Center通过对元数据仓库的集中管理,提供了数据仓库解决方案的保证技术。从设计和开发到实现到最终用户访问,由工具和数据库产生的对元数据的密集型集成和管理保证了真正企业级数据仓库的建立。Warehouse Control Center是基于Intellidex技术的为数据仓库开发人员提供的数据仓库元数据管理工具,能够在数据仓库环境下进行数据采集、捕捉、存储、管理和发布逻辑的、物理的以及上下文相关的信息,而不用去管它的物理存储位置是在联合数据仓库上、分布式数据仓库上还是二者兼有。业务用户可以浏览根据其需求而生成的元数据对象,甚至可以使用发布和登记性能请求或选择附加性能。
3.2 系统硬件平台
- 数据仓库服务器:
sunE5500 / 8 cpu/4G RAM/18G硬盘 运行Sybase IQ。
- 数据迁移服务器:
IBM Netfinity7600 intel PIII550/ 4 cpu/1G ram/ 36.4 G hd NT4 运行PowerMart Server
- 管理Web服务器两台:
IBM Netfinity7600 intel PIII550/ 4 cpu/1G ram/ 36.4 G hd NT4 分别运行BO Web Intelligence和Warehouse Control Center Server。
- 存储网络:
采用Veritas的SAN系统
3.3 系统主要功能
- 数据仓库与决策支持系统对在线事务处理应用和在线统计分析应用进行有效地隔离。保证了业务管理系统在线事物处理的安全、稳定、可靠、高效地运行,也确保了决策支持系统能够快速及时地获取统计数据。
- 省中心和地市业务管理人员能够每月按照要求生成预先定义好的标准统计报表。业务分析人员通过非常简单易用的图形界面,能够快速准确地进行语义层查询并把所需的业务数据、信息和分析结果以丰富的形式快速地展现出来,为领导的决策提供准确的依据。
- 提供数据挖掘功能,挖掘出潜在的影响业务发展的因素。
- 为客户管理系统提供服务,为客户提供快速的账单及各种服务清单查询。并提供挖掘大客户的手段。
4 结束语
我们已经在广东视聆通和福建163网上,使用Sybase的数据仓库解决方案,成功实施了数据仓库系统,并且基于BO(Business Object)开发了统计分析报表系统。
目前,正在建设广东省新一代的多媒体网综合业务管理系统,其中包括新版本的数据仓库系统。而这个数据仓库系统也是采用Sybase的数据仓库解决方案。 |