关于DB2数据库的系统信息集成

发表于:2007-07-13来源:作者:点击数: 标签:
集成工作永无止境。IT 环境在不断变化。新的应用程序在网上源源不断地出现。对已打包的应用程序进行发行版级别的更改会对整个基础结构产生连锁反应。人们总是想尝试使用下一个新工具或新技术。我们做出的投资必须着眼于未来。因此,公司内出现了专注于一个集

集成工作永无止境。IT 环境在不断变化。新的应用程序在网上源源不断地出现。对已打包的应用程序进行发行版级别的更改会对整个基础结构产生连锁反应。人们总是想尝试使用下一个新工具或新技术。我们做出的投资必须着眼于未来。因此,公司内出现了专注于一个集成体系结构的组织。不管是称作信息管理(Information Management)、集成服务(Integration Service)还是数据体系结构(Data Architecture),公司内的专门部门都在解决集成业务以及定义集成体系结构和基础结构(提供其未来业务的基础)方面的问题。

集成是一项很艰巨的工作,因为信息的增加和信息源的多样性结合在一起,检索有用信息的工作变得非常复杂。企业必须不仅能访问传统的应用程序来源(比如关系数据库),还要能访问可扩展标记语言(Extensible Markup Language,XML)文档、文本文档、扫描的图像、视频剪辑、传入的新闻、Web 内容、电子邮件、分析性三维数据和特殊用途的存储(包括内部和外部)。由于组织上或操作上的约束,通常不能对来自不同的分布式数据源的信息进行完全复制或将其合并到单个数据库中。虽然可以发现隐含的信息,但是当信息相互关联时会更加轻松地把握机会,同时才能更好为客户服务。

众多市场(比如企业应用程序集成、数据仓库、企业内容管理、门户网站和应用程序服务器)中的技术供应商已经开始将他们的关注焦点转向整体集成问题。这使得我们更难选择能满足业务需求的最佳技术。而且,拳头产品的市场定位常常使利用后续项目中某个实现的优势变得很难。

虽然竞争对手们可能只提供特殊领域的集成,但是 IBM 可以提供综合的集成平台,该平台具有许多可以无缝地在一起工作的产品。本文着重讨论 DB2® Information Integrator™ 产品,以帮助您理解它们是如何帮助解决信息集成问题的。

IBM DB2 Information Integrator 概述

图 1所示的 IBM DB2 Information Integrator 软件提供了战略信息集成框架的基础。这样的框架有助于客户实时访问、操作和集成各种不同的分布式数据。该文件夹(portfolio)包括:

  • IBM DB2 Information Integrator V8.1,基于 DB2 信息管理技术的新产品
  • IBM DB2 Information Integrator for Content V8.2,前身是 IBM Enterprise Information Portal。

图 1. DB2 Information Integrator 产品提供了对各种不同的分布式和实时数据的集成访问,就象数据是来自单个数据源那样。

这些产品中的每一个都能使客户从各种不同的分布式数据和内容源抽象出公共数据模型,并使客户能够将它们当作单一源进行访问和操作。每个产品都支持一个用户社区,用户社区主要是根据其成员可以访问的数据和他们支持的开发社区定义的。该产品集支持主要采用读访问的方案,这些方案对于企业报告生成、知识管理、商业智能、门户站点基础结构和客户关系管理而言都很常见。

DB2 Information Integrator:用于联邦数据和复制的服务器

DB2 Information Integrator 的服务对象是熟悉关系数据库应用程序开发的应用程序开发社区。使用 SQL 的应用程序或生成 SQL 的工具(比如集成开发环境、报告生成和分析工具等)现在可以通过联邦数据服务器访问和操作各种不同的分布式数据。

DB2 Information Integrator 最适合于主数据源为关系数据、另外还添加了其它 XML、Web 或内容源的项目。DB2 Information Integrator 基于 DB2 技术基础结构,利用 IBM 在诸如 IBM DB2 DataJoiner®、IBM DB2 Relational Connect 和 IBM DiscoveryLink® 之类产品上的早期投资。DB2 Information Integrator 构建在 DB2 通用数据库之上,DB2 通用数据库是一种现代的数据库体系结构,因其可伸缩性和可扩展性而全球闻名。

DB2 Information Integrator 能够联邦、搜索、高速缓存、转换和复制数据。作为一种联邦数据服务器,它提供了对 DB2 通用数据库、IBM Informix® 产品以及来自 Microsoft®、Oracle、Sybase 和 Teradata 的数据库的“开箱即用”式访问。另外,它还可以访问来自 WebSphere® MQ 消息、XML 文档、Web 服务、Microsoft Excel、平面文件、ODBC 或 OLE DB 源以及生命科学行业特有的各种格式的半结构化数据。对 IBM Lotus® Extended Search 的集成支持使解决方案能够对各种广泛的内容进行访问,使之能访问各种内容资源库(包括 DB2 Content Manager)以及电子邮件数据库、文档资源库、第三方因特网搜索引擎和 LDAP 目录。

另外,开发人员的工具箱扩展了联邦功能,使其真正触及到了每一个数据源。

搜索和查询访问是通过标准的 SQL API 提供的,并将 Lotus® Extended Search 可以访问广泛内容的能力和关系引擎的精确性相结合。文本的搜索方法有两种:

  • 能够创建后端关系存储的全局索引。通过使用这种方法,文本搜索的语义 - 比如模糊搜索、辞典支持和段内搜索 - 可以在查询内使用。

  • 代理的搜索体系结构,它不要求创建或维护中心索引以便跨多个源访问内容。扩展搜索引擎将每个完整的文本查询转换成目标数据源的本机查询语言。

查询可以产生标准的 SQL 应答集或 XML 文档。优化器已经得到了显著的扩展,能够支持分布式联邦查询处理。

  • 查询重写,这是查询优化中的一个功能强大的阶段,在该阶段将写得很糟糕的输入查询转换成语义相同的形式以改善性能,它能识别底层数据源并可以根据特定转换对于某个特定数据源的可用性来限制或启用这些转换。
  • 下推分析(pushdown analysis)是查询处理中新引入的阶段,它确定每个特定的后端服务器可以计算出某个特定查询的程度,并确定在 DB2 Information Integrator 系统上需要进行多少补偿性处理。
  • 基于成本的优化根据成本估算创建查询执行方案,成本估算目前包括来自源数据的标准统计信息(例如,基数或索引)、数据服务器的能力(如连接功能或内置函数)、数据服务器容量、I/O 容量和网络容量。
  • 语句生成(根据基于成本的优化器的结果生成可执行方案)已经得到了扩展,可以为“理解 SQL”的数据源生成有效的特定于 DBMS 的 SQL。
  • 查询运行时引擎已经得到了扩展,可以驱动对本地和分布式信息执行查询,允许功能补偿并提供一致的虚拟数据库视图。
  • 联邦高速缓存的首个发行版提供了管理员管理的跨关系数据库后端的集成视图的高速缓存。优化器自动将查询发送到高速缓存,以便在合适时满足查询。

DB2 Information Integrator 有一组丰富的转换功能,包括标准的 SQL 函数,比如字符串操作、算术计算、统计计算、联机分析处理函数和过程逻辑。特定于类型的功能 - 比如计分算法(scoring algorithm)或化学相似性搜索的应用程序 - 进一步增强了现有的这一组丰富的转换。

可扩展样式表语言(Extensible Stylesheet Language,XSL)转换使文档互换和各种显示特征的动态样式匹配更为方便。用户定义的函数使客户几乎可以标准化任何数据类型的任何函数。另外,能够将 Web 服务当作内置函数进行访问,这意味着任何 Web 服务(比如货币转换)可以变成嵌入式转换函数。

DB2 Information Integrator 还包括一个用于混合关系数据库的复制服务器。客户可以在 IBM(DB2,还包括 IBM Informix)、Microsoft、Oracle、Sybase 和 Teradata(只作为目标)数据库之间复制数据。您可以配置各种拓扑结构、等待时间和一致性特征。

DB2 Information Integrator for Content:以内容为中心的应用程序的联邦访问



DB2 Information Integrator for Content 的服务对象是需要在大量内容源中搜索和访问文本及非文本信息的内容应用程序开发人员。通过提供对各种不同数据环境的无缝访问,DB2 Information Integrator for Content 相当于重新命名和重新定位的 Enterprise Information Portal 产品。

DB2 Information Integrator for Content 提供了一组丰富的集成功能,比如与各种不同内容源进行连接的连接器、复杂的信息挖掘和高级工作流。为了加快内容集成项目的实现,DB2 Information Integrator for Content 提供了对各种数据源的“开箱即用”式访问,所有这些都可以联合成单一搜索。这些连接器可以访问 DB2 Content Manager 系列和其它内容资源库、Lotus 数据库、关系数据库以及 IBM Lotus Extended Search 可以提供的大量内容。

另外,DB2 Information Integrator for Content 包括了复杂的信息挖掘功能,该功能使用 Web 搜寻和文本挖掘算法来为非结构化内容提供结构。挖掘算法的能力包括识别文档所用语言、识别文档中诸如名称之类的特性、根据定义的分类法对文档进行分类、根据类别对文档进行分组以及概述文档。通过构建有关企业范围信息的额外知识,企业可以从现有的内容资产中获得额外的回报。

最后,DB2 Information Integrator for Content 提供了高级工作流应用程序,使企业能够提高生产效率、缩短生产时间并增强交流与合作。通过使用图形化的工作流构建器,开发人员可以轻松地将合并查询结果的工作流过程定义到 DB2 Information Integrator for Content 中,以便在整个企业中使用这些结果。

结束语

如今的企业需要集成信息以提高客户忠诚度和满意度、提高运营效率、争取在线客户和贸易伙伴,以及识别和把握出现的机会。简而言之,信息集成提供了竞争优势,是随需应变计算的基础。IBM 已经听到了集成各种不同数据的需求并理解了这种需求。实际上,利用 DB2 Information Integrator 文件夹,IBM 可以继续推动第一流的技术创新,使企业能够充分利用它们所有的信息资产。

(  

原文转自:http://www.ltesting.net