1.3.4 高级数据和信息系统与高级应用 关系数据库系统广泛地用于各种行业应用。随着数据库技术的发展,各种高级数据和信 息系统已经出现并在 开发 中,以" name="description" />
MILY: 宋体; mso-bidi-font-family: Helvetica; mso-font-kerning: 0pt; mso-bidi-font-size: 8.0pt">1.3.4 高级数据和信息系统与高级应用
关系数据库系统广泛地用于各种行业应用。随着数据库技术的发展,各种高级数据和信息系统已经出现并在开发中,以适应新的数据库应用的需要。
新的数据库应用包括处理空间数据(如地图)、工程设计数据(如建筑设计、系统部件或集成电路)、超文本和多媒体数据(包括文本、图像、视频和音频数据)、时间相关的数据(如历史记录或股票交易数据)、流数据(如视频监控和探测器数据,其中数据像流一样流进和流出)以及万维网(通过因特网提供巨大的、广泛分布的可用信息储存库)。这些应用需要有效的数据结构和可伸缩的方法来处理复杂的对象结构,变长记录,半结构化或非结构化的
数据、文本、空间和时间数据、多媒体数据, 以及具有复杂结构和动态变化的数据库模式。为满足这些需求,开发了高级数据库系统和面向特殊应用的数据库系统。这些包括对象-关系数据库系统、时间和时间序列数据库系统、空间和时间空间数据库系统、文本和多媒体数据库系统、异构和遗产数据库系统、数据流管理系统和基于Web的全球信息系统。
虽然这样的数据库或信息储存库需要复杂的机制,以便有效地存储、检索和更新大量复杂的数据,但是它们也为数据挖掘提供了肥沃的土壤,提出了挑战性的研究和实现问题。本节,我们将介绍上面列举的每种高级数据库系统。
1. 对象-关系数据库
对象-关系数据库基于对象-关系数据模型构造。这种模型通过提供处理复杂对象的丰富数据类型和对象定位,扩充关系模型。因为大部分复杂的数据库应用需要处理复杂的对象和结构,对象-关系数据库在业界和应用中日趋流行。
从概念上讲,对象-关系数据库模型继承了面向对象数据库的基本概念。其中,用一般术语,把每个实体看作一个对象。对于AllElectronics例子,对象可以是个别的雇员、顾客或商品。涉及一个对象的数据和代码封装在一个单元中。每个对象关联:
• 一个变量集,描述对象。这对应于实体-联系和关系模型的属性。
• 一个消息集,对象可以使用它们与其他对象或与数据库系统的其他部分通信。
• 一个方法集,其中每个方法存放实现一个消息的代码。每收到一个消息,方法就返回一个响应值。例如,消息get_photo(employee)的方法将检索并返回给定雇员对象的照片。
共享公共特性集的对象可以归入一个对象类。每个对象都是其对象类的实例。对象类可以组成类/子类层次结构,使每个类代表该类对象共有特性。例如,类employee可以包含变量name, address和birthdate。假设类sales_person是类employee的子类。一个sales_person对象将继承属于其超类employee的所有变量。此外,它还具有作为一个销售员特有的所有变量(如commission)。这种类继承性有利于信息共享。
对于对象-关系系统中的数据挖掘,需要开发新的技术,处理复杂的对象结构、复杂的数据类型、类和子类层次结构、特性继承以及方法和过程。
2. 时间数据库、序列数据库和时间序列数据库
时间数据库(temporal database)通常存放包含时间相关属性的关系数据。这些属性可能涉及若干时间标签,每个都具有不同的语义。序列数据库(sequence database)存放具有或不具有具体时间概念的有序事件的序列。例子包括顾客购物序列、Web点击流和生物学序列。时间序列数据库(time-series database)存放定时(如每小时、每天、每周)重复测量得到的值或事件的序列。例子包括股票交易、库存控制和自然现象(如气温和风力)观测收集的数据。
可以使用数据挖掘技术发现数据库中对象演变特征或对象变化趋势。这些信息对于决策和规划是有用的。例如,银行数据的挖掘可能有助于根据顾客的流量安排银行出纳员。可以挖掘股票交易数据,发现可能帮助你制订投资策略的趋势。(例如,何时是购买AllElectronics的股票的最佳时机?)通常,这种分析需要定义时间的多粒度。例如,时间可以按财政年、学年或日历年分解。年可以进一步分解成季度或月。
3. 空间数据库和时间空间数据库
空间数据库(Spatial database)包含涉及空间的信息。例子包括地理(地图)数据库、超大规模集成电路(VLSI)或计算机辅助设计数据库以及医疗和卫星图像数据库。空间数据可能用光栅格式(raster format)表示,由n维位图或像素图构成。例如,一个2维卫星图像可以用光栅数据表示,每个像素存放一个给定区域的降水量。地图也可以用向量格式表示,其中路、桥、建筑物和湖泊可以用诸如点、线、多边形和这些形状形成的划分和网络等基本几何
结构的组合或叠加表示。
地理数据库有大量应用,包括从森林和生态规划,到提供关于电话和电气电缆、管道和水道系统位置在内的公共信息服务。此外,地理数据库还常常用于车辆疏导和调度系统。例如,一个用于出租车的系统可以存储一个城市的地图,提供关于单行线、交通拥挤时从区域A到区域B的建议路径、饭店和医院的位置以及每个司机的当前位置等信息。
你可能会问:“对于空间数据库可以进行何种数据挖掘?”数据挖掘可以发现描述坐落在特定类型地点(如公园)附近的房屋特征。其他模式可能描述不同海拔高度的山区气候,或根据城市离主要高速公路的距离描述大城市贫困率的变化趋势。可以考察空间对象集之间的联系,发现空间自相关或关联的对象子集。通过空间聚类分析可以发现簇和离群点。此外,还可以进行空间分类,根据空间对象的相关特征集构造预测模型。进一步,可以构造“空间
数据立方体”,将数据组织到多维结构和层次结构中,可以对其进行OLAP操作(如下钻和上卷)。
存放随时间变化的空间对象的空间数据库称作时间空间数据库(spatiotemporal database),从这种数据库可以挖掘有趣的信息。例如,我们可以将移动对象的趋势分组,识别移动怪异的车辆;或者根据疾病随时间的地理分布,区别生物恐怖攻击与正常的流感爆发。
4. 文本数据库和多媒体数据库
文本数据库是包含对象的词描述的数据库。通常,这种词描述不是简单的关键词,而是长句或短文,如产品介绍、错误或故障报告、警告信息、汇总报告、笔记或其他文档。文本数据库可能是高度非结构化的(如万维网上的Web页面)。有些文本数据库可能是半结构化的(如email消息和许多HTML/XML网页),而其他的可能是良结构化的(如图书馆目录数据库)。
通常,具有很好结构的文本数据库可以使用关系数据库系统实现。“对文本数据库的数据挖掘可以发现什么?”通过挖掘文本数据可以发现文本文档的简明概括的描述、关键词或内容关联,以及文本对象的聚类行为。为做到这一点,需要将标准的数据挖掘技术与信息检索技术和文本数据特有的层次构造(如字典和辞典),以及面向学科的
(如生物化学、医学、法律或经济)术语分类系统集成在一起。
多媒体数据库存放图像、音频和视频数据。应用于基于内容的图片检索、声音传递系统、视频点播系统、万维网和识别口语命令的基于语音的用户界面等方面。多媒体数据库必须支持大对象,因为像视频这样的数据对象可能需要数兆字节的存储。还需要特殊的存储和搜索技术,因为视频和音频数据需要以稳定的、预先确定的速率实时检索,防止图像或声音间断和系统缓冲区溢出,因此,这种数据称为连续媒体数据(continuous-media data)。
对于多媒体数据挖掘,需要将存储和搜索技术与标准的数据挖掘方法集成在一起。有前途的方法包括构造多媒体数据立方体、多媒体数据的多特征提取和基于相似性的模式匹配。
5. 异构数据库和遗产数据库
异构数据库(heterogeneous database)由一组互连的、自治的成员数据库组成。这些成员相互通信,以便交换信息和回答查询。一个成员数据库中的对象可能与其他成员数据库中的对象很不相同,很难将它们的语义吸收进一个整体的异构数据库中。
许多企业都需要遗产数据库作为信息技术长时间开发(包括使用不同的硬件和操作系统)的历史结果。遗产数据库(legacy database)是一组异构数据库,将不同类型的数据系统组合在一起。这些数据系统可以是关系或面向对象数据库、层次数据库、网状数据库、电子数据表、多媒体数据库或文件系统。遗留数据库中的异构数据库可以通过内部计算机网络或互联计算机网络连接。
这种数据库之间的信息交换是困难的,因为需要考虑多种多样的语义,制定从一种表示到另一种表示的精确转换规则。例如,考虑不同学校之间学生学业情况数据交换问题。每个学校可能有自己的计算机系统,使用自己的课程表与记分制。一所大学可能采用四学期学年制,开三门数据库系统课程,并按由A+到F评定成绩;而另一所可能采用学期系统,开两门数据库课程,并按由1到10评定成绩。很难制定这两所大学的课程-成绩转换精确的规则,使得信息交换很困难。通过进行统计数据分布和相关分析,将给定的数据转换到较高的、更一般的概念层(对于学生成绩,如及格、良好或优秀),数据挖掘技术可以对此信息交换问题提供有趣的解,使得信息交换可以更容易地进行。
6. 数据流
许多应用涉及称作流数据(stream data)的一类新的数据的产生和分析,其中数据动态地从观测平台(或窗口)流进和流出。这种数据流具有如下独特的性质:海量甚至可能无限,动态变化,以固定的次序流进和流出,只允许一遍或少数几遍扫描,要求快速(常常是实时的)响应时间。数据流的典型例子包括各种类型的科学和工程数据,时间序列数据和产生于其他动态环境下的数据,如电力供应、网络通信、股票交易、电信、Web点击流、视频监视
和气象或环境监控数据。
由于数据流通常不存放在任何数据储存库中,数据流的有效管理和分析对研究者提出了巨大挑战。目前,许多研究者正在考察与数据流管理系统开发相关的各种问题。这种系统中的一种典型查询模型是连续查询模型,其中预先定义的查询不断计算进入流,收集聚集数据,报告数据流的当前状态,并对它们的变化做出响应。
挖掘数据流涉及流数据中的一般模式和动态变化的有效发现。例如,我们可能希望根据消息流中的异常检测计算机网络入侵,这可以通过数据流聚类、流模型动态构造或将当前的频繁模式与前一次的频繁模式进行比较来发现。大部分流数据存在于相当低的抽象层,而分析者常常对较高抽象层或多抽象层更感兴趣。因此,还应当对流数据进行多层、多维联机分析和挖掘。
7. 万维网
万维网和与之关联的分布式信息服务(如Yahoo!,Google,美国在线和Alta Vista)提供了丰富的、世界范围的联机信息服务,其中数据对象链接在一起便于交互访问。用户通过链接,从一个对象到另一个对象,寻找感兴趣的信息。这种系统对数据挖掘提供了大量机会和挑战。例如,理解用户的访问模式不仅有助于改进系统设计(通过提供高度相关的对象间的有效访问),而且还可以导致更好的市场决策(例如,通过在频繁访问的文档上布置广告,或
提供更好的顾客/用户分类和行为分析)。在这种分布式信息环境下,捕获用户访问模式称作Web用法挖掘(或Web日志挖掘)。
尽管Web页面好看并且信息丰富,但是它们可能是高度非结构化的,并且缺乏预定义的模式、类型或格式。这样,对于系统地进行信息检索和数据挖掘,计算机很难理解各种Web页面的语义并把它们以有组织的形式结构化。提供基于关键字的搜索Web服务,而不理解Web页面的上下文,只能为用户提供有限的帮助。例如,基于单个关键词的Web搜索可能返回数以百计的指针指向包含该关键词的Web页面,而其中大部分与用户期望查找的信息没有多大关系。数据挖掘可以经常提供比Web搜索服务更多的帮助。例如,基于Web页面之间链接的权威Web页面分析(authoritative Web page analysis)可以根据Web页面的重要性、影响和主题,帮助对Web页面定秩。自动Web页面聚类和分类有助于基于页面的内容,以多维的方式对Web页面分组和安排。Web社区分析(Web community analysis)有助于识别隐藏的Web社会网络和社团,并观察它们的演变。Web挖掘旨在开发可伸缩的、有效的Web数据分析
和挖掘方法。这可能帮助我们一般地了解Web上信息的分布、描述Web页面的特征并对Web页面进行分类,发现不同的Web 页面、用户、社团和基于Web的活动之间的Web的动态特性、关联和其他联系。
高级数据库和信息系统的数据挖掘在第8~10章讨论。
回书目 上一节 下一节 |