第2章数据预处理 习题

发表于:2007-06-13来源:作者:点击数: 标签:
第2章数据预处理 习题 2.1 数据的 质量 可以用精确性、完整性和一致性来评估。提出数据质量的两种其他尺度。 2.2 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。 java script:if(this.width>498)this.style.width=498;' onmousewheel = 'javas

第2章数据预处理 习题

2.1 数据的质量可以用精确性、完整性和一致性来评估。提出数据质量的两种其他尺度。

2.2 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。

 

计算数据的近似中位数值。

2.3 给出另外三个(未在本章介绍的)数据离差特性的常用统计度量,并讨论如何在大型数据库中有效地计算它们。

2.4

假定用于分析的数据包含属性age。数据元组的age值(以递增序)是:13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70。

(a)该数据的均值是什么?中位数是什么?

(b)该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。

(c)数据的中列数是什么?

(d)你能(粗略地)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)吗?

(e)给出数据的五数概括。

(f)画出数据的盒图。

(g)分位数-分位数图与分位数图的不同之处是什么?

2.5 在许多应用中,新数据集增量地添加到已有的大型数据集中。这样,计算描述性数据汇总的一个重要考虑是,是否能够以增量的方式有效地计算度量。以计数、标准差和中位数为例,说明分布的或代数的度量有利于有效的增量计算,而整体度量不行。

2.6 在现实数据中,元组在某些属性缺少值是经常发生的事。描述处理该问题的各种方法。

2.7 使用习题2.4给出的age数据回答如下问题:

(a)使用分箱均值光滑对以上数据进行光滑,箱的深度为3。解释你的步骤。评述对于给定的数据,该技术的效果。

(b)如何确定数据中的离群点?

(c)对于数据光滑,还有哪些其他方法?

2.8 讨论数据集成需要考虑的问题。

2.9 假设医院检测随机选择的18个成年人年龄和身体脂肪数据,得到如下结果

 

(a)计算年龄和脂肪百分比的均值、中位数和标准差。

(b)绘制年龄和脂肪百分比的盒图。

(c)根据这两个属性,绘制散布图和q-q图。

(d)根据z-score规范化来规范化这两个属性。

(e)计算相关系数(皮尔逊积矩系数)。这两个变量是正相关还是负相关?

2.10 如下规范化方法的值域是什么?

(a)min-max规范化。

(b)z-score规范化。

(c)小数定标规范化

2.11 使用如下两种方法规范化如下数据组:200, 300, 400, 600, 1000

(a)令min = 0,max = 1,min-max规范化。

(b)z-score规范化。

2.12 使用习题2.4给出的age数据,回答以下问题:

(a)使用min-max规范化将age值35变换到[0.0,1.0]区间。

(b)使用z-score规范化变换age值35,其中age的标准差为12.94岁。

(c)使用小数定标规范化变换age值35。

(d)对于给定的数据,你愿意使用哪种方法?陈述你的理由。



2.13 使用流程图概述如下属性子集选择过程

(a)逐步向前选择。

(b)逐步向后删除。

(c)向前选择和向后删除的结合。

2.14 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成三个箱。

(a)等频(等深)划分。

(b)等宽划分。

(c)聚类。

2.15 使用习题2.4给出的age数据,(a)画一个宽度为10的等宽直方图。

(b)为如下每种抽样技术勾画例子:SRSWOR,SRSWR,聚类抽样,分层抽样。使用大小为5的样本和层“青年”,“中年”和“老年”。

2.16 [Chen Chen提供]中位数是数据分析最重要的整体度量之一。提出几种中位数近似计算方法。分析在不同的参数设置下各自的复杂度,并确定它们对实际值的近似程度。此外,提出一种平衡准确性与复杂性的启发式策略,然后将它用于你给出的所有方法。

2.17 [Deng Cai提供]在数据分析中,定义或选择相似性度量是重要的。然而,不存在广泛接受的主观相似性度量。使用不同的相似性度量可能导致不同的结果。尽管如此,某些表面上不同的相似性度量在某种变换后可能等价。

假设我们有如下二维数据集:

 

(a)将数据看作二维数据点。给定一个新数据点x = (1.4, 1.6)作为查询,根据与查询的相似性,使用(1)欧几里得距离(式(7-5))和(2)余弦相似性(式(7-16)确定数据库中点的秩。

(b)规范化数据集使得每个数据点的范数等于1。对变换后的数据使用欧几里得距离确定数据点的秩。

2.18 ChiMerge [Ker92] 是监督的、自底向上的(即基于合并的)数据离散化方法。它依赖于χ2分析:具有最小χ2值的相邻区间合并在一起,直到满足停止标准。

(a)简略描述ChiMerge如何工作。

(b)取鸢尾花数据集作为待离散化的数据集合(鸢尾花数据集可以由UCI机器学习数据库http://www.ics.uci.edu/~mlearn/MLRepository.html得到)。使用ChiMerge方法,对于四个数值属性分别进行数据离散化。(令停止标准为:max-interval = 6。)你需要写一个小程序,以避免麻烦的数值计算。提交你的简要分析和检验结果:分裂点、最终的区间和你的源程序文档。

2.19 对如下问题,使用伪代码或你喜欢用的程序设计语言,给出算法:

(a)对于分类数据,基于给定模式中属性不同值的个数,自动产生概念分层。

(b)对于数值数据,基于等宽划分规则,自动产生概念分层。

(c)对于数值数据,基于等频划分规则,自动产生概念分层。

2.20 数据库系统中鲁棒的数据加载提出了一个挑战,因为输入数据常常是脏的。在许多情况下,数据记录可能缺少多个值,某些记录可能被污染(即某些数据值不在期望的值域内或具有与期望不同的类型)。设计一种自动数据清理和装载算法,使得有错误的数据被标记,污染的数据在数据加载时不会错误地插入到数据库中。

【责任编辑:铭铭 TEL:(010)68476606-8008】


回书目      

原文转自:http://www.ltesting.net

...