1.7 数据挖掘任务原语

发表于:2007-06-13来源:作者:点击数: 标签:
1.7 数据挖掘任务原语 每个用户头脑中都有一个数据挖掘任务,即想进行的数据分析形式。数据挖掘任务可以用指定的数据挖掘查询的形式说明数据挖掘系统的输入。数据挖掘查询用数据挖掘任务原语定义。这些原语允许用户在知识发现过程中交互地与数据挖掘系统通信

1.7 数据挖掘任务原语

每个用户头脑中都有一个数据挖掘任务,即想进行的数据分析形式。数据挖掘任务可以用指定的数据挖掘查询的形式说明数据挖掘系统的输入。数据挖掘查询用数据挖掘任务原语定义。这些原语允许用户在知识发现过程中交互地与数据挖掘系统通信、指导挖掘过程,或从不同的角度或深度考察所发现的结果。数据挖掘原语说明定义如下,如图1-13所示的下述挖掘意图: 

. 欲挖掘的任务相关数据集:指明数据库或数据集中用户感兴趣的部分。这包括感兴趣的数据库属性或数据仓库的维(称作相关属性或维)。

. 欲挖掘的知识类型:说明要执行的数据挖掘功能,如特征化、区分、关联或相关分析、分类、预测、聚类、离群点分析或演变分析。

. 用于发现过程的背景知识:这种关于挖掘领域的知识对于指导知识发现过程和评估发现的模式是非常有用的。概念分层是背景知识的一种流行形式,它允许在多个抽象层挖掘数据。概念分层的一个例子是age属性(或维)的概念分层,如图1-14所示。用户对数据中联系的信赖是另一种形式的背景知识。

. 模式评估的兴趣度度量和阈值:可以用于指导挖掘过程,或在发现模式之后,评估所发现的模式。不同类型的知识可能有不同的兴趣度度量。例如,对于关联规则,兴趣度度量包括支持度和置信度。其支持度和置信度的值小于用户指定的阈值的规则认为是不感兴趣的。

. 发现模式的期望的可视化表示:涉及发现模式的显示形式,可能包括规则、表、图表、图、决策树和立方体。





图1-13 说明数据挖掘任务的原语

图1-14 age属性(或维)的概念分层。

根节点代表最一般的抽象层,记作all 可以设计数据挖掘查询语言集成这些原语,允许用户灵活地与数据挖掘系统交互。数据31 挖掘查询语言也为建立友好的图形用户界面提供了基础。这将有助于数据挖掘系统与其他信32 息系统通信,有利于与整个信息处理环境的集成。

设计一种综合的数据挖掘语言是一个挑战,因为数据挖掘任务涉及面宽,涵盖数据特征化到演变分析。每种任务都有不同的需求。有效的数据挖掘查询语言的设计需要深入理解各种数据挖掘任务的能力、局限性和基本机制。

关于数据挖掘查询语言和标准,已经有了一些建议。本书中,我们使用称作DMQL(Data Mining Query Language)的数据挖掘查询语言。该语言基于上述原语,是一种教学工具。用它说明数据挖掘查询的例子遍及全书。该语言采用了类似于SQL的语法,因此,容易与关系查询语言SQL集成在一起。让我们看一看如何用它来说明一项数据挖掘任务。

例1-11 挖掘分类规则。假设作为AllElectronics的销售经理,你想根据顾客的购买模式将他们分类。你对这样的顾客特别感兴趣,年薪不低于40 000美元,已经购买了超过1 000美元的商品,其中每种商品的价格不低于100美元。特别是,你对顾客的年龄、收入、购买的商品类型、购买地点和商品的产地感兴趣。你想以规则的形式观察结果分类。该数据挖掘查询用DMQL表示如下,其中查询的每行加以编号,方便讨论。

 

该数据挖掘查询解析形成SQL查询,检索由行1和行4~行8指定的任务相关集。即行1指定AllElectronics数据库,行4列出相关属性(即挖掘对这些属性进行),行5指定关系,行6给定条件,而行7和8给出分组与分组条件。行2说明概念分层location_ hierarchy和age_hierarchy 分别用作泛化分店地点和顾客年龄值的背景知识。行3说明该任务要挖掘的知识类型是分类。

注意,我们想产生“promising_customers”与“non_promising_ customers”的分类模型。对于分类,通常可以说明一个属性为类标号属性,它的值显式地表示类。然而,在这个例子中,两个类是隐含的。即指定的数据集被检索并且被看作promising_ customers的例子,而customer表中的其余顾客看作non_promising_customers。分类在这个训练集的基础上进行。行9说明挖掘的结果以规则集的形式显示。一些分类方法的细节在第6章介绍。

目前还没有标准的数据挖掘查询语言,然而,研究者和产业界正在这个方面获得可喜的进展。微软的数据挖掘OLE DB(在本书附录介绍)包括一种XML风格的数据挖掘语言DMX。

其他标准化成果包括PMML(Programming data Model Markup Language)和CRISP-DM (CRoss-Industry Standard Process for Data Mining)。

【责任编辑:铭铭 TEL:(010)68476606-8008】


回书目   上一节   下一节

原文转自:http://www.ltesting.net

...