1.9 数据挖掘的主要问题
本书旨在强调数据挖掘的主要问题,涉及挖掘方法、用户交互、性能和各种数据类型。这些问题介绍如下:
数据挖掘技术和用户交互问题:这反映所挖掘的知识类型、在多粒度上挖掘知识的能力、领域知识的使用、临场即席挖掘和知识可视化。
. 挖掘数据库中不同类型的知识:由于不同的用户可能对不同类型的知识感兴趣,数据挖掘应当涵盖范围很广的数据分析和知识发现任务,包括数据特征化、区分、关联与相关分析、分类、预测、聚类、离群点分析和演变分析(包括趋势和相似性分析)。这些任务可能以不同的方式使用相同的数据库,并需要开发大量数据挖掘技术。
. 多个抽象层的交互知识挖掘:由于很难准确地知道能够在数据库中发现什么,数据挖掘过程应当是交互的。对于包含海量数据的数据库,首先应当使用适当的抽样技术,进行交互式数据探查。交互式挖掘允许用户聚焦搜索模式,根据返回的结果提出和精炼数据挖掘请求。特别,类似于OLAP对数据立方体所做的那样,应当通过交互地在数据空间和知识空间下钻、上卷和旋转来挖掘知识。用这种方法,用户可以与数据挖掘系统交互,以不同的粒度和从不同的角度观察数据和发现模式。
. 结合背景知识:可以使用背景知识或关于所研究领域的信息来指导发现过程,并使得发现的模式以简洁的形式在不同的抽象层表示。关于数据库的领域知识,如完整性约束和演绎规则,可以帮助聚焦和加快数据挖掘过程,或评估发现的模式的兴趣度。
. 数据挖掘查询语言和特定的数据挖掘:关系查询语言(如SQL)允许用户提出特定的数据检索查询。类似地,需要开发高级数据挖掘查询语言,使得用户通过说明分析任务的相关数据集、领域知识、所挖掘的知识类型、被发现的模式必须满足的条件和约束,描述特定的数据挖掘任务。这种语言应当与数据库或数据仓库查询语言集成,并且对于有效的、灵活的数据挖掘是优化的。
. 数据挖掘结果的表示和可视化:发现的知识应当用高级语言、可视化表示或其他表示形式表示,使得知识易于理解,能够直接被人们使用。如果数据挖掘系统是交互的,这一点尤其重要。这要求系统采用有表达能力的知识表示技术,如树、表、规则、图、图表、交叉表、矩阵或曲线。
. 处理噪声和不完全数据:存放在数据库中的数据可能反映噪声、异常情况或不完全的数据对象。在挖掘数据规律时,这些对象可能搞乱分析过程,导致所构造的知识模型过分拟合数据。其结果是,所发现的模式的准确性可能很差。需要处理数据噪声的数据清理方法和数据分析方法,以及发现和分析异常情况的离群点挖掘方法。
. 模式评估即兴趣度问题:数据挖掘系统可能发现数以千计的模式。对于给定的用户,所发现的许多模式都不是有趣的,因为它们表示常识或缺乏新颖性。关于开发模式兴趣度的评估技术,特别是关于给定用户类,基于用户的信念或期望,评估模式价值的主观度 量仍然存在一些挑战。使用兴趣度度量或用户指定的约束指导发现过程和压缩搜索空间是又一个活跃的研究领域。
1. 性能问题:这包括数据挖掘算法的有效性、可伸缩性和并行处理。
. 数据挖掘算法的有效性和可伸缩性:为了有效地从数据库的海量数据中提取信息,数据挖掘算法必须是有效的和可伸缩的。换一句话说,数据挖掘算法在大型数据库中的运行时间必须是可预计的和可接受的。从数据库的知识发现角度,有效性和可伸缩性是数据挖掘系统实现的关键问题。上面讨论的挖掘方法和用户交互的大多数问题,也必须考虑有效性和可伸缩性。
. 并行、分布和增量挖掘算法:许多数据库的巨大规模、数据的广泛分布和一些数据挖掘算法的计算复杂性是促使开发并行和分布式数据挖掘算法的因素。这种算法将数据划分成若干部分,并行处理,然后合并每部分的结果。此外,有些数据挖掘过程的高开销导致了对增量数据挖掘算法的需要。增量算法与数据库更新结合在一起,而不必“从头开始”挖掘全部数据。这种算法增量地进行知识修改、修正和加强业已发现的知识。
2. 关于数据库类型的多样性问题:
. 关系的和复杂的数据类型的处理:由于关系数据库和数据仓库已经广泛使用,为这样的数据开发有效的数据挖掘系统是重要的。然而,其他数据库可能包含复杂的数据对象、超文本和多媒体数据、空间数据、时间数据或事务数据。由于数据类型的多样性和数据挖掘的目标不同,指望一个系统挖掘所有类型的数据是不现实的。为挖掘特定类型的数据应当构造特定的数据挖掘系统。因此,对于不同类型的数据,期望有不同的数据挖掘系统。
. 从异构数据库和全球信息系统挖掘信息:局域网和广域网(如因特网)连接了许多数据源,形成了庞大的分布和异构数据库。从具有不同数据语义的结构化的、半结构化的和非结构化的不同数据源发现知识,对数据挖掘提出了巨大挑战。数据挖掘可以帮助发现多个异构数据库中的高层数据规律,这些规律多半难以被简单的查询系统发现,并可以改进异构数据库信息交换和互操作性能。Web挖掘发现关于Web内容、Web结构、Web 使用和Web动态情况的有趣知识,已经成为数据挖掘的一个非常具有挑战性和快速发展的领域。
以上问题是数据挖掘技术未来发展的主要需求和挑战。在近来的数据挖掘研究和开发中,一些挑战已经在一定程度上受到关注,并且现在认为是必需的,而另一些仍处于研究阶段。
然而,这些问题将继续刺激进一步的研究和改进。涉及数据挖掘应用、隐私和社会影响的问题将在本书的最后一章第11章讨论。
回书目 上一节 下一节 |