第1章引言 习题

发表于:2007-06-13来源:作者:点击数: 标签:
1.1 什么是数据挖掘?在你的回答中,针对以下问题: (a)它是又一种广告宣传吗? (b)它是一种从 数据库 、统计学和机器学习发展的技术的简单转换吗? (c)解释数据库技术发展如何导致数据挖掘。 (d)当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的

1.1 什么是数据挖掘?在你的回答中,针对以下问题:

(a)它是又一种广告宣传吗?

(b)它是一种从数据库、统计学和机器学习发展的技术的简单转换吗?

(c)解释数据库技术发展如何导致数据挖掘。

(d)当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。

1.2 给出一个例子,其中数据挖掘对于商务的成功是至关重要的。该商务需要什么数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?

1.3 假设你是BigUniversity的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。该数据库包括如下信息:每个学生的姓名、地址和状态(例如本科生或研究生)、所修课程以及他们的GPA(平均积分点)。描述你要选取的结构。该结构的每个成分的作用是什么?

1.4 数据仓库和数据库有何不同?有哪些相似之处?

1.5 简述以下高级数据库系统和应用:对象-关系数据库、空间数据库、文本数据库、多媒体数据库、流数据和万维网。

1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、分类、预测、聚类和演变分析。使用你熟悉的现实生活中的数据库,给出每种数据挖掘功能的例子。

1.7 区分和分类的差别是什么?特征化和聚类的差别是什么?分类和预测呢?对于每一对任务,它们有何相似之处?

1.8 根据你的观察,描述一个可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。它需要一种不同于本章列举的数据挖掘技术吗?

1.9 列举并描述说明数据挖掘任务的五种原语。

1.10 解释为什么概念分层在数据挖掘中是有用的。

1.11 经常把离群点当作噪声丢弃。然而,一个人的垃圾可能是另一个人的财富。例如,信用卡交易的异常可能帮助我们检测信用卡的欺诈使用。以欺诈检测为例,提出两种可以用来检测离群点的方法,并讨论哪种方法更可靠。

1.12 最近的应用特别关注时空数据流。时空数据流包含随时间变化的空间信息,并且是流数据形式(即数据像一个无限的流,流进流出)。

(a)给出三个时空数据流的应用例子。

(b)讨论使用有限的时间和资源,从这种数据流中可以挖掘何种有趣的知识。

(c)指出并讨论时空数据流挖掘的主要难题。

(d)用一个应用实例,拟定一种从这样的流数据中有效地挖掘一类知识的方法。

1.13 描述以下数据挖掘系统与数据库或数据仓库集成方法的差别:不耦合、松散耦合、半紧密耦合和紧密耦合。你认为哪种方法最流行,为什么?

1.14 描述关于数据挖掘方法和用户交互问题的三个数据挖掘挑战。

1.15 与挖掘少量数据(如几百个元组的数据集合)相比,挖掘海量数据(如数兆元组)的主要挑战是什么?

1.16 列举在诸如流/探测器数据分析、空间时间数据分析或生物信息学中的一个特定应用领域中的数据挖掘的主要挑战。

【责任编辑:铭铭 TEL:(010)68476606-8008】



回书目   上一节   下一节

原文转自:http://www.ltesting.net

...