1.5 所有模式都是有趣的吗
数据挖掘系统具有产生数以千计甚至数以百万计模式或规则的潜在能力。
你可能会问:“所有这些模式都是有趣的吗?”答案通常是否定的。实际上,对于特定的用户,在可能产生的模式中,只有一小部分是他感兴趣的。
这对数据挖掘提出了一系列严肃的问题。你可能会想:“什么样的模式是有趣的?数据挖掘系统能够产生所有有趣的模式吗?数据挖掘系统能够仅产生有趣的模式吗?”
对于第一个问题的回答是,对于一个模式,如果(1)它易于理解;(2)在某种必然程度上,对于新的或检验数据是有效的;(3)是潜在有用的;(4)是新颖的,它就是有趣的(interesting)。如果一个模式符合用户确信的某种假设,它也是有趣的。有趣的模式代表知识。
存在一些模式兴趣度的客观度量。这些度量基于所发现模式的结构和关于它们的统计。对于形如X.Y的关联规则,一种客观度量是规则的支持度(support)。规则的支持度表示满足规则的事务数据库的事务所占的百分比。支持度可以取概率P (X∪Y ),其中,X∪Y表示同时包含X和Y的事务,即项集X和Y的并。关联规则的另一种客观度量是置信度(confidence), 它评估发现的规则的确定性程度。置信度可以取条件概率P (Y | X ),即包含X的事务也包含Y 的概率。用更形式化的方法,支持度和置信度定义为:
一般,每个兴趣度度量与一个阈值相关联,该阈值可以由用户控制。例如,不满足置信度阈值50%的规则可以认为是无趣的。低于阈值的规则可能反映噪声、异常或少数情况,可能不太有价值。
尽管客观度量可以帮助识别有趣的模式,但是仅有这些还不够,还要结合反映特定用户需要和兴趣的主观度量。例如,对于销售部经理,描述频繁在AllElectronics购物的顾客特性的模式应当是有趣的;但对于研究同一数据库的分析雇员业绩模式的分析者,它可能不是有趣的。此外,有些根据客观标准有趣的模式可能反映一般常识,因而实际上并不令人感兴趣。
主观兴趣度度量基于用户对数据的信念。这种度量发现模式是有趣的,如果它们是出乎意料的(与用户的信念相矛盾),或者提供用户可以采取行动的策略信息。在后一种情况下,这样的模式称为可行动的(actionable)。意料中的模式也可能是有趣的,如果它们证实了用户希望验证的假设,或与用户的预感相似。
第二个问题“数据挖掘系统能够产生所有有趣的模式吗?”涉及数据挖掘算法的完全性。
要求数据挖掘系统产生所有可能的模式通常是不现实的和低效的。实际上,应当根据用户提供的约束和兴趣度度量对搜索聚焦。对于某些挖掘任务(如关联),通常能够确保算法的完全性。关联规则挖掘就是一个例子,使用约束和兴趣度度量可以确保挖掘的完全性。所涉及的方法细节将在第5章详细考察。
最后,第三个问题“数据挖掘系统能够仅产生有趣的模式吗?”是数据挖掘的优化问题。对于数据挖掘系统,仅产生有趣的模式是非常期望的。这对于用户和数据挖掘系统都更加有效,因为这样就不需要搜索所产生的模式,以便识别真正有趣的模式。在这个方向上已经有了进展。然而,在数据挖掘中,这种优化仍然是个挑战。
为了有效地发现对于给定用户有价值的模式,模式兴趣度度量是不可或缺的。这种度量可以在数据挖掘之后使用,根据模式的兴趣度对所发现的模式定秩,过滤掉不感兴趣的那些模式。更重要的是,这种度量可以用来指导和约束发现过程,剪去模式空间中不满足预先设定的兴趣度约束的子集,提高搜索性能。这种基于约束的挖掘在第5章(关于关联挖掘)和第7章(关于聚类)介绍。
对于每类可挖掘的模式,评估兴趣度并使用它们改善数据挖掘的有效性的方法将在全书加以讨论。
回书目 上一节 下一节 |