1.4 数据挖掘功能—可以挖掘什么类型的模式
我们已经观察了可以进行数据挖掘的各种数据库系统和信息存储。现在,让我们考察可以挖掘的数据模式的类型。
数据挖掘功能用于指定数据挖掘任务要找的模式类型。一般而言,数据挖掘任务可以分两类:描述和预测。描述性挖掘任务描述数据库中数据的一般性质。预测性挖掘任务对当前数据进行推断,以做出预测。
在某些情况下,用户不知道他们的数据中什么类型的模式是有趣的,因此可能想并行地搜索多种不同的模式。这样,重要的是数据挖掘系统要能够挖掘多种类型的模式,以满足不同的用户需求或不同的应用。此外,数据挖掘系统应当能够在各种粒度(即不同的抽象层)发现模式。数据挖掘系统还应当允许用户给出提示,指导或聚焦有趣模式的搜索。由于有些模式并非对数据库中的所有数据都成立,通常每个被发现的模式都附上一个确定性或“可信性”度量。
数据挖掘功能以及它们可以发现的模式类型介绍如下。
1.4.1 概念/类描述:特征化和区分
数据可以与类或概念相关联。例如,在AllElectronics商店,销售的商品类包括计算机和打印机,顾客概念包括bigSpenders和budgetSpenders。用汇总的、简洁的和精确的方式描述各个类和概念可能是有用的。这种类或概念的描述称为类/概念描述(lass/concept description)。
这种描述可以通过下述方法得到:(1)数据特征化,一般地汇总所研究类(通常称为目标类(target class))的数据;(2)数据区分,将目标类与一个或多个可比较类(通常称为对比类(contrasting class))进行比较;(3)数据特征化和比较。
数据特征化(data characterization)是目标类数据的一般特性或特征的汇总。通常,用户指定类的数据通过数据库查询收集。例如,为研究上一年销售增加10%的软件产品的特征,可以通过执行一个SQL查询收集关于这些产品的数据。
有一些有效的方法将数据汇总和特征化。基于统计度量和图的简单数据汇总在第2章介绍。
基于数据立方体的OLAP上卷操作(见1.3.2节)可以用来执行用户控制的沿着指定维的数据汇总。该过程将在第3、4章讨论数据仓库时进一步详细讨论。面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必一步步地与用户交互。这一技术将在第4章讨论。
数据特征的输出可以用多种形式,包括饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果描述也可以用广义关系(generalized relation)或规则形式(称作特征规则)提供。这些不同的输出形式和它们的转换在第4章讨论。
例1-4 数据特征化。数据挖掘系统应当能够产生一年之内在AllElectronics花费1000美元以上的顾客特征的汇总描述。结果可能是顾客的一般轮廓,如年龄在40~50岁、有工作和有很好的信誉等级。系统应当允许用户对任意维下钻,如对oclearcase/" target="_blank" >ccupation下钻,以便根据他们的职业类型来观察这些顾客。
数据区分(data discrimination)是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。目标类和对比类由用户指定,而对应的数据通过数据库查询检索。例如,用户可能希望将上一年销售增加10%的软件产品与同一时期销售至少下降30%的软件产品进行比较。用于数据区分的方法与用于数据特征化的方法类似。
“如何输出区分描述?”输出提供的形式类似于特征化描述,但是区分描述应当包括比较度量,以便帮助区别目标类和对比类。用规则表示的区分描述称为区分规则(discriminant rule)。例1-5 数据区分。数据挖掘系统应当能够比较AllElectronics的两组顾客,如定期(每月22 多于2次)购买计算机产品的顾客和偶尔(如每年少于3次)购买这种产品的顾客。结果描述提供顾客比较的一般轮廓,频繁购买计算机产品的顾客80%在20~40岁之间,受过大学教
育;而不经常购买这种产品的顾客60%或者年龄太大或者太年轻,没有大学学位。沿一个维下钻,如沿occupation下钻,或添加新的维,如income_level,可以帮助发现两类之间的更多区分特性。
概念描述,包括特征化和区分,在第4章介绍。
1.4.2 挖掘频繁模式、关联和相关
正如名称所示,频繁模式(frequent pattern)是在数据中频繁出现的模式。存在多种类型的频繁模式,包括项集、子序列和子结构。通常,频繁项集是指频繁地在事务数据集中一起出现的项的集合,如牛奶和面包。频繁出现的子序列,如顾客倾向于先购买PC再购买数码相机然后再购买内存卡这样的模式是一个(频繁)序列模式。子结构可能涉及不同的结构形式,如图、树或格,可以与项集或子序列结合在一起。如果一个子结构频繁地出现,则称它为
(频繁)结构模式。挖掘频繁模式导致发现数据中有趣的关联和相关。
例1-6 关联分析。假设作为AllElectronics的市场部经理,想确定在相同的事务中,哪些商品经常被一块购买。从AllElectronics事务数据库中挖掘出来的这种规则的一个例子是buys (X,“computer”) buys (X,“software”) [ support = 1%, confidence = 50% ] 其中,X是变量,代表顾客。50%的置信度或可信性表示,如果一位顾客购买计算机,则购买软件的可能性是50%。1%的支持度意味所分析的所有事务的1%显示计算机与软件一起购买。
这个关联规则涉及单个重复的属性或谓词(即buys)。包含单个谓词的关联规则称作单维关联规则(single-dimensional association rule)。去掉谓词符号,上面的规则可以简单地写成“computer . software [1%,50%]”。
假设给定涉及购买的AllElectronics关系数据库。数据挖掘系统还可以发现如下形式的规则:age (X,“20.29”) ^income (X,“20K.29K”) . buys (X,“CD player”) [ support = 2%,confidence = 60% ]
该规则指出,所研究的AllElectronics顾客,2%是20~29岁,年收入为20 000~29 000,并且在AllElectronics购买了CD播放机。这个年龄和收入组的顾客购买CD机的概率为60%。注意,这23 是一个以上属性或谓词(即age, income和buys)之间的关联。采用多维数据库使用的术语,每个属性称为一维,上面的规则可以称作多维关联规则(multidimensional association rule)。
通常,关联规则被认为是不令人感兴趣的而被丢弃,如果它不能同时满足最小支持度阈值和最小置信度阈值。还可以做其他分析,发现相关联的属性-值对之间的有趣的统计相关(correlation)。
频繁项集挖掘是频繁模式挖掘的最简单形式。频繁模式、关联和相关挖掘在第5章讨论,其中特别强调频繁项集挖掘的有效算法。序列模式挖掘和结构化模式挖掘作为高级课题,分别在第8章和第9章讨论。
1.4.3 分类和预测
分类(classification)是这样的过程,它找出描述和区分数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象类。导出模型是基于对训练数据集(即类标号已知的数据对象)的分析。
“如何提供导出的模型?”导出的模型可以用多种形式表示,如分类(IF-THEN)规则、决策树、数学公式或神经网络(见图1-10)。决策树是一种类似于流程图的树结构,其中每个节点代表在一个属性值上的测试,每个分枝代表测试的一个输出,而树叶代表类或类分布。
上一节:1.5 所有模式都是有趣的吗 共2页: 1 [2] 下一页 下一节:1.3.4 高级数据和信息系统与高级应用 |