ETL的过程原理和数据仓库建设

发布: 2008-6-18 17:04 | 作者: 奥勒菲 | 来源: 赛迪网 | 查看: 116次 | 进入软件测试论坛讨论

3.3数据抽取和上载时的SQL优化

　　3.3.1 WHERE子句中的连接顺序

　　ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其它WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。

　　低效：SELECT * FROM EMP E WHERE SAL > 50000 AND JOB = ‘MANAGER’ AND 25 < (SELECT COUNT(*) FROM EMP WHERE MGR=E.EMPNO);

　　高效：SELECT * FROM EMP E WHERE 25 < (SELECT COUNT(*) FROM EMP WHERE MGR=E.EMPNO) AND SAL > 50000 AND JOB = ‘MANAGER’;

　　3.3.2 删除全表时用TRUNCATE替代DELETE

　　当DELETE删除表中的记录时，有回滚段(rollback segments ) 用来存放可以被恢复的信息，而当运用TRUNCATE时，回滚段不再存放任何可被恢复的信息，所以执行时间也会很短。同时需要注意TRUNCATE只在删除全表时适用，因为TRUNCATE是DDL而不是DML。

　　3.3.3 尽量多使用COMMIT

　　ETL中同一个过程的数据操作步骤很多，数据仓库采用的是数据抽取后分析模型重算的原理，所以对数据的COMMIT不像业务系统为保证数据的完整和一致性而需要某个操作过程全部完成才能进行，只要有可能就在程序中对每个DELETE、INSERT和UPDATE操作尽量多使用COMMIT, 这样系统性能会因为COMMIT所释放的资源而大大提高。

　　3.3.4 用EXISTS替代IN

　　在许多基于基础表的查询中，为了满足一个条件往往需要对另一个表进行联接，例如在ETL过程写数据到模型时经常需要关联10个左右的维表，在这种情况下，使用EXISTS而不用IN将提高查询的效率。

　　3.3.5 用NOT EXISTS替代NOT IN

　　子查询中，NOT IN子句将执行一个内部的排序和合并，无论在哪种情况下，NOT IN都是最低效的，因为它对子查询中的表执行了一个全表遍历。用NOT EXISTS替代NOT IN将提高查询的效率。

　　3.3.6 优化GROUP BY

　　提高GROUP BY 语句的效率，可以通过将不需要的记录在GROUP BY 之前过滤掉。

　　低效： SELECT JOB , AVG(SAL) FROM EMP GROUP BY JOB HAVING JOB = ‘PRESIDENT’ OR JOB = ‘MANAGER’

　　高效： SELECT JOB , AVG(SAL) FROM EMP WHERE JOB = ‘PRESIDENT’ OR JOB = ‘MANAGER’ GROUP BY JOB

　　3.3.7 有条件的使用UNION-ALL 替换UNION

　　ETL过程针对多表连接操作的情况很多，有条件的使用UNION-ALL 替换UNION的前提是：所连接的各个表中无主关键字相同的记录，因为UNION ALL 将重复输出两个结果集合中相同记录。

　　当SQL语句需要UNION两个查询结果集合时，这两个结果集合会以UNION-ALL的方式被合并，然后在输出最终结果前进行排序。如果用UNION ALL替代UNION，这样排序就不是必要了，效率就会因此得到提高3-5倍。

　　 3.3.8 分离表和索引

　　总是将你的表和索引建立在不同的表空间内，决不要将不属于ORACLE内部系统的对象存放到SYSTEM表空间里。同时确保数据表空间和索引表空间置与不同的硬盘控制卡控制的硬盘上。