第三步就是定义事实表的采集规则。由于Software report 不是直接从DB里面提取数据而是从Center DB中提取数据,因此Center DB中的数据必须能够实时地反映DB中数据的变化,因此需要定制一定的采集策略。事实表的采集规则这里主要是指采集的频度策略。不同的事实表对数据的采集频度有不同的需求,例如按天统计的事实表和按周、月、年统计的事实表采集频度肯定不相同。事实表采集规则也是主要依靠需求制定的。 最后一步就是所有这些清洗规则,事实表采集规则之实现。既可以通过数据库数据库之间的接口实现,也可以通过其他编程接口实现。数据库与数据库之间的编程接口主要是通过存储过程和触发器以及数据库之间的发布订阅模式来实现。现在很多语言包括C,C++,JAVA都和数据库之间有方便的接口ADO、DAO、ODBC、JDBC,通过这些接口编程人员可以更加灵活的操作数据库,并对数据库中的数据进行处理,也可以实现数据清洗、事实表采集规则。
5 比较
轻量级数据仓库和企业级数据仓库相比有如下异同: 企业级数据仓库主要目标是为企业发展提供决策支持。轻量级数据仓库主要目标是提高软件的响应速度。企业级数据仓库的数据源是海量的,可能是10年的数据也可能是20年的数据。轻量级数据仓库的数据源要少的多,主要是软件的数据采集器采集的数据,量级在百万到千万级。企业级数据仓库的数据源是异构的,可能是源于不同的DBMS,也可能是源于不同的存储介质包括磁带、磁盘、光盘。轻量级数据仓库的数据源是同构的,主要是同一种DBMS下的数据。
企业级数据仓库和轻量级数据仓库的思想是一致的,都是面向主题的,稳定的,一经写入从不或者很少修改的。企业级数据仓库和轻量级数据仓库都是以星型为扩展模式构建的事实表的集合,本质上把频繁运算的结果集存贮为事实表,从而达到一次运算重复利用的效果。
6 结论
文章来源于领测软件测试网 https://www.ltesting.net/