内部税收服务努力提供优质服务并推出最佳解决方案 几年前,Workload Selection Research的领导Jeffrey P. Kmonk在通过传统的在线交易管理系统为客户提供决策支持数据时,面临着一个两难的局面。一天晚上,Kmonk和同事James Corley和Jeff Butler在讨论过所有可能的解决方案之后得出结论,认为只有使用数据仓库才能满足现在及未来的决策支持需要。IRS与其它的组织一样,面临着许多巨大的业务挑战,其中包括刚刚被接受的且高度可见的业务,为纳税人提供高品质服务,并保证税务管理的公平性。Kmonk及他的小组所扮演的角色就是为访问大型企业的数据组提供方便的方法,以利定量分析、计划及预测,并支持IRS不断变化的业务战略。 在讨论中,三位同事认识到,建立数据仓库最大的困难在于如何把庞大的传统分布式OLTP数据组以有效使用为标准,用一种分析的结构进行转换。 在那时,IRS只能完成少量的复杂分析、建模及决定有效资源定位的问题。要做的分析需要定期、成批进行,不可打断正常的交易处理循环。这些障碍导致了延误和较低的效率,潜在地意味着美国财政部收入减少几十亿美元。 就在那个晚上Kmonk,Corley和Butler写出了一个最终成为CDW的计划,它后来成为一个获奖的计划,可以把关键业务信息提供给IRS的研究人员及决策者。 1TB的数据 明确地叙述要做些什么很容易。开发出完整的解决方案则难得多。 IRS所遇到的技术问题令人生畏。首先有超过1TB的复杂格式数据,而且这些格式每年都在变。问题更严重的在于缺少带有决策支持功能的计算基础设施。IRS的计算结构只能支持初级的在线交易处理操作:增加,更新或修改纳税人账户,而不能进行在线分析处理操作,特别是查询和分析业务信息。 除了技术上的挑战以外,IRS还有多种的业务需要,及从技术盲到技术专家的大规模多样分布式用户群,他们都需要易于使用的响应系统。这些要求都需要在较少开支及最少内部技术资源的条件下满足。 为了满足这三个主要的需求,Kmonk说,我们需要一套数据抽取系统,可以大批量地处理复杂且不断变化的数据;还需要一个数据管理解决方案,具备超过TB数据的扩充能力,且能够为上百个分布式的用户提供快速灵活的分析;数据仓库的专家们则希望以较少的投资即可建立系统。 IRS采用SYBASE IRS决定以Sybase产品及Sybase专业服务开发所需的解决方案。 CDW计划组包括4名具备专业领域经验的IRS员工及4名Sybase专业服务顾问。Sybase顾问的作用是开发CDW的数据抽取工具及开发CDW的Web站点。 同时选择了Sybase适应性服务器IQ实现TB级CDW数据仓库及5个数据集市的必要扩充性、分析能力及灵活性。 分析数据管理功能强大、快速且灵活 CDW应用程序管理3TB的存储数据,1.2TB原始数据,用户可以使用多种分析工具查询数据。 建立一个这样规模及复杂程序的数据仓库,其难度可想而知。最基本的技术挑战就是建立一套可以管理上TB数据的系统,它需要具备足够的开放性及高性能,能够适应不同的主流产品,且不需要持续的性能调整。Sybase IQ之所以被选中,主要是看中了它的可扩充性、查询的高性能、灵活性及较小的维护需求。 Sybase适应性服务器IQ在高性能数据分析方面非常出色,它使用了专利的查询处理技术,基于列的索引和为性能优化的算法。使用独特的技术,IQ的查询性能比传统的RDBMS高100倍。适应性服务器IQ不需要花很多时间和资源进行调整,完成后的数据库也比输入的原始数据量小。 IRS曾经考虑过使用传统的关系型数据库系统,但出于性能与数据膨胀的因素,最终这个计划被取消了。使用传统的关系型数据系统将使维护工作量增加,数据仓库将超过5TB,因此附加的开支也会明显增加。 除了扩充性和性能上的考虑,业务智能(BI)工具的灵活性对于计划的成功也很重要。适应性服务器IQ与所有主流的第三方BI工具都可以很好配合,可以处理来自任何以开放接口编写的应用程序的查询。这种可以使用多种主流工具的用户来说都意味着真正的灵活性。它把对于用户的再培训降到最低,有助于获得用户的认可。 强大的挑战和最佳体验解决方案 建立一个数据仓库的重要方面是把传统的交易数据转换到分析环境中。对于IRS这个过程同样不简单。税务法令在多年中已经有了不少变化,IRS每年的数据组结构都不一样。数据量也是小组以前从未遇到过的。为了把这些大型多样数据库集成到一起而开发一套系统是一个巨大的挑战。 原始数据的格式对于小组来说就是一个技术挑战。多数IRS源数据都是使用60年代的大型机系统产生的,使用客户分层结构文件维护业务数据。CDW计划组需要一种能够处理包括EBCDIC、包符号、二进制和其它数据类型的分层文件的方法,并将之转换为ASCII文件,通过本地处理把分层结构的记录映射到关系数据库上。 Sybase公司负责数据仓库结构的Gerry Moses说,出于成本的考虑,IRS无法开发出一套定制的应用程序对每年的数据进行预处理。Sybase专业服务则开发了一个程序使用简单的参数文件产生C代码。用生成的程序可以无需手工修改处理大约95%的源数据。这个聪明的解决方案节省了大量的开支,被数据仓库研究所所认可,获得了1999年度数据提取最佳体验奖。 CDW网站 Sybase专业服务建立了一个CDW网站,IRS的总部及地区办公室都可以安全访问。由于超过半数的用户都在地区办公室里,所以这样的网站可以使维护的费用降低,同时提高可用性。Kmonk说。 除了简化分布式访问,CDW网站还是系统结构中的关键组成部分。这个网站上还发布出所有数据仓库的变化数据,包括实体关系图表、详细表格和文件描述,已经建立的查询规则和表格及当前数据仓库的信息列表。Kmonk解释说,这一点很重要,因为我们的用户有着不同的需求并需要详细了解数据细节,以正确开发查询。这个网站还向用户群发送连接软件和模板。 200:1的回报 由于有了CDW,使用信息技术支持IRS实现业务目标就不成问题了,Kmonk说,保守地估计它的投资回报率为200:1。IRS的用户群首次可以访问到信息资源,完成企业数据的几乎任何类型的分析,对决策起到了支持作用。