字号: 小 中 大 |
推荐给好友
上一篇 |
下一篇
数据的两种组织形式:操作数据和分析数据
发布: 2008-5-05 12:59 |
作者: 王翔 |
来源:
本站原创 |
查看: 44次 | 进入软件测试论坛讨论
2.集成的
!S)UD$Z*["k:OA?B.W*AFu(V*X 全面而正确的数据是有效地进行分析和决策的首要前提。在某一个主题的统帅下,需要将数据进行提取、净化、转换和装载等集成操作。
软件测试技术门户[f(g/IsxWg软件测试技术门户!_1z N*k sp*T 比如在客户主题中,对于客户名称,业务数据库的设计中有的字段名为user_name,类型为char (10),有的字段名是name,类型是varchar(12),但在进入分析数据库时必须使用同一字段的命名和格式。这在SQL Server 2005中实际上是通过SSIS来完成的,但在数据库设计阶段也需要把数据的集成方案设计出来,而具体的操作则主要体现在对SSIS的操作上。
3Z2@T1^"BdeLL(?9O_Lx3.稳定的
"Qd5P$_yOb+{n+XR%hXH 业务系统一般只需要当前数据,在数据库中一般也存储短期数据,因此在数据库系统中数据是不稳定的,它记录的是系统中每一个变化的瞬态。但对于决策分析而言,历史数据是相当重要的,许多分析方法必须以大量的历史数据为依托。没有历史数据的详细分析是难以把握企业的发展趋势的,因此,数据仓库对数据在空间和时间的广度上都有了更高的要求。在数据仓库中,数据一旦被写入就不再变化了。数据仓库可以看成是一个虚拟的只读数据库系统。在数据集成性中已经说明了数据仓库在数据存储方面是分批进行的,定期执行提取过程为数据仓库增加记录,但是这些记录一旦加入,就不再从系统中删除。正是由于数据仓库的这个显著特点,使得数据仓库不需要在并发读写控制上投入过多的精力,因为所有的用户只是以只读的方式访问数据仓库。
软件测试技术门户`U U(Ro%](`8~z]*rO0_.c(s#i 图3-3演示了数据稳定性的一个简单的例子。在1月2日,99号客户的消费金额为200元,当时间推移到3月 2日,99号客户的消费金额变成250元,这一信息在业务系统中被更新了。但是在数据仓库中(我们假定数据仓库每天进行一次数据提取),3月2日的数据提取结果是在数据仓库中增加了记录222,原先的记录111并没有发生任何的改变,说明99号客户在3月2日的消费金额为250元。可见,数据仓库实际上是为99号客户的消费行为进行了定期的拍照,并将快照存储起来供后续的分析工作使用。
8Nx
R(P%R"jU'x WZK8wD#t4.随时间变化的
软件测试技术门户f p%B#\L
X&pNd x8PS;I 由于在数据仓库中数据只增不减,这使得数据仓库中的数据总是拥有时间维度。数据仓库实际上就是记录系统的各个瞬态,并通过将各个瞬态连接起来形成动画,从而在数据分析的时候再现系统运动的全过程。数据提取的周期实际上决定了动画间隔的时间,数据提取的周期短,则动画的速度快,图3-4示意了这种特点。
'M2B}