很多数据库管理系统提供商比如Microsoft、Sysbase、Oracle都有其构建数据仓库专门的工具。这些工具由于是为构建数据仓库而设计,因此结构非常的复杂、对数据库设计人员的要求比较高,在软件开发中可实施性比较低。实际上关系型数据库从提出到现在已有30多年的历史,关系型数据库是现在所有数据库中包括面向对象数据库、关系型面向对象数据库发展最为完善的一种。关系型数据库中的存储过程、触发器、发布和订阅模式有足够的能力解决上面的问题。因此利用现有的关系型数据库中这些成熟稳定的工具,就可以构建轻量级的数据仓库。 轻量级数据仓库的构建模型如下图2所示,主要包括如下几个步骤:数据的清洗,根据需求定制主题集合,定制事实表采集规则,编程接口之实现。
数据清洗是原始数据进入数据仓库的第一步。软件的数据采集器采集到数据库中的数据可能含有不规则、错误的数据,也就是噪声数据,这些数据数量少,但是可能极大地影响结果的正确性,因此必须清洗掉。数据清洗主要是由数据库中的规则以及根据业务定义的清洗规则来实现的。数据库中的规则保证了数据库中的数据是合乎数据类型的而业务的清洗规则保证了数据库中的数据是合乎逻辑的。
轻量级数据仓库的第二步就是根据需求定义主题。主题是数据库中以某个表为基表,以其列集为扩展维度而构成的一系列事实表的集合。事实表的构建规则应该尽可能的和需求相吻合,这样可以最大程度上减轻software report 从Center DB 提取数据造成的对数据库的压力。主题和事实表都是可以扩展的,也是可以重复利用的。事实表可以也作为基表进行扩展新的事实表。
延伸阅读
文章来源于领测软件测试网 https://www.ltesting.net/