全面解析基于空间数据库的数据挖掘技术[1]
作者:林梦 来源:赛迪网
随着GIS技术在各个行业的应用以及数据挖掘、空间数据采集技术、数据库技术的迅速发展,对从空间数据库发现隐含知识的需求日益增长,从而出现了用于在空间数据库中进行知识发现的技术——空间数据挖掘(Spatial Data Mining,本文简称为SDM)。空间数据挖掘是从空间数据库中提取隐含的、用户感兴趣的空间和非空间模式和普遍特征的过程。
本文分析了空间数据库知识发现面临的困难,研究了扩展传统数据挖掘方法如分类、关联规则、聚类等到空间数据库的方法,并对空间数据库系统实现技术及空间数据挖掘系统开发模式等进行了比较分析。
1 空间数据库知识发现面临的困难
从空间数据库发现知识的传统途径是通过专家系统、数据挖掘、空间分析等技术来实现的。但是在空间数据库隐含知识的发现方面,只单独依*某一种技术,往往存在着这样或那样的缺陷。对于专家系统来讲,专家系统不具备自动学习的能力,GIS中的专家系统也达不到真正的智能系统的要求,仅能利用已有的知识进行推导。对于数据挖掘来讲,空间数据库与普通数据库的在数据存储机制的不同和空间数据的相互依赖性等特点决定了在空间数据库无法直接采用传统的数据挖掘方法。对于空间分析来讲,虽然空间分析中常用的统计方法可以很好地处理数字型数据,但是它存在的问题很多,如统计方法通常假设空间分布的数据间是统计上独立的,而现实中空间对象间一般是相互关联的;其次,统计模型一般只有具有相当丰富领域知识和统计方面经验的统计专家才能用;另外,统计方法对大规模数据库的计算代价非常高,所以在处理海量数据方面能力较低。
从上面的分析可以看出,由于空间数据具有诸多特点,因此在空间数据库进行知识发现,需要克服使用单一技术的缺陷,即需要融合多种不同技术。所以研究人员提出了空间数据挖掘技术来解决从空间数据库知识发现隐含知识的难题。
空间数据挖掘是多学科和多种技术交*综合的新领域,它综合了机器学习、空间数据库系统、专家系统、可移动计算、统计、遥感、基于知识的系统、可视化等领域的有关技术。
空间数据挖掘利用空间数据结构、空间推理、计算几何学等技术,把传统的数据挖掘技术扩充到空间数据库并提出很多新的有效的空间数据挖掘方法。与传统空间分析方法相比,它在实现效率、与数据库系统的结合、与用户的交互、发现新类型的知识等方面的能力大大增强。空间数据挖掘能与GIS的结合,使GIS系统具有自动学习的功能,能自动获取知识,从而成为真正的智能空间信息系统。
2 扩展传统数据挖掘方法到空间数据库
空间数据挖掘技术按功能划分可分为三类:描述、解释、预测。描述性的模型将空间现象的分布特征化,如空间聚类。解释性的模型用于处理空间关系,如处理一个空间对象和影响其空间分布的因素之间的关系。预测型的模型用来根据给定的一些属性预测某些属性。预测型的模型包括分类、回归等。以下介绍将几个典型的数据挖掘技术聚类、分类、关联规则扩展到空间数据库的方法。
聚类分析方法按一定的距离或相似性测度将数据分成一系列相互区分的组,而空间数据聚类是按照某种距离度量准则,在某个大型、多维数据集中标识出聚类或稠密分布的区域,从而发现数据集的整个空间分布模式。经典统计学中的聚类分析方法对海量数据效率很低,而数据挖掘中的聚类方法可以大大提高聚类效率。文献[1]中提出两个基于CLARANS聚类算法空间数据挖掘算法SD和ND,可以分别用来发现空间聚类中的非空间特征和具有相同非空间特征的空间聚类。SD算法首先用CLARANS算法进行空间聚类,然后用面向属性归纳法寻找每个聚类中对象的高层非空间描述;ND算法则反之。文献[4]中提出一种将传统分类算法ID3决策树算法扩展到空间数据库的方法,该算法给出了计算邻近对象非空间属性的聚合值的方法,并且通过对空间谓词进行相关性分析和采用一种逐渐求精的策略使得计算时间复杂度大大降低。Koperski等[4]将大型事务数据库的关联规则概念扩展到空间数据库,用以找出空间对象的关联规则。此方法采用一种逐渐求精的方法计算空间谓词,首先在一个较大的数据集上用MBR最小边界矩形结构技术对粗略的空间谓词进行近似空间运算,然后在裁剪过的数据集上用代价较高的算法进一步改进挖掘的质量。