数据库发展史上的标志分水岭

发表于:2007-05-26来源:作者:点击数: 标签:
在IBM DB2发展的20年期间,IBM公司曾经在 数据库 领域发明了不少新技术,比如联邦技术。我认为其中IBM对数据库最大的贡献就是发明了现在市场上占据主流地位的关系型数据库。 一、关系型数据库的发展 关系型数据库的数据模型最早是在上个世纪70年代由E.F.Codd

在IBM DB2发展的20年期间,IBM公司曾经在数据库领域发明了不少新技术,比如联邦技术。我认为其中IBM对数据库最大的贡献就是发明了现在市场上占据主流地位的关系型数据库。

 

一、关系型数据库的发展

 

关系型数据库的数据模型最早是在上个世纪70年代由E.F.Codd博士提出的。当初并没有受到太多的重视,但是后来人们逐渐发现了它的生命力所在。关系型数据库从理论研究走向商业应用,占据数据库市场的主流地位,反过来又对数据处理和计算机整体的理论研究起到了很大的推动作用。

 

DB2的前身,是E.F.Codd博士在IBM的实验室作的一个系统原型,这个系统原型当时被称作System R(系统R)。E.F.Codd本人对系统R提出的关系数据库模型的理论,以及相应的语言,进行了大量的实践,发现并且解决了大量的关键技术。这个系统原型在推向市场的时候,就成为今天大家所熟知的DB2。所以谈起数据库,IBM的最大贡献,就是发明了关系数据库。这个贡献比以后的任何贡献都大,因为它开拓了一个全新的数据库领域。后来所有数据库的技术都是基于这个技术之上不断发展,都没有超过IBM DB2的前身对数据库的贡献。

 

DB2出现之后,在一些大型的商业应用当中,发挥了很大的作用。特别是IBM的主机系统,二十世纪70年代后80年代初,在一些大型的应用中占主流地位。比如银行金融业,它们对数据处理的要求非常迫切,在这种情况下,IBM DB2逐步介入。所以现在有不少大的应用,特别是在金融界和银行中,跟IBM主机配套的数据库就是DB2。

 

随着技术的进步,对数据处理的要求也越来越多。不像过去只是对数据的直接使用,做一些加减乘除,做一些统计。现在很重要的应用,就是把数据里面蕴含着的很多有价值的东西拿出来,就是所谓的数据挖掘。跟数据挖掘相关的就是数据仓库,还有联机事务分析。IBM在这个方面也作了很好的工作,比如它开发了数据仓库的工具,联机事务处理的工具,数据挖掘方面,也开发了很多工具。这是适应新的应用需求提出来的。在这些方面,市场的竞争是很激烈的。除了IBM的DB2以外,主要的数据库厂商,在上述的几个方面都在开展竞争。

 

激烈的竞争使得数据库的市场上已经出现了相对集中的现象,目前市场上只剩下几个主要的数据库厂商,很多小的厂商逐渐被大厂商所收买。

 

谈到数据库现在的发展方向,其中主要包括数据库提供商利用原有的关系数据库的优势,把许多其它的功能纳入到数据库当中,比如说电子邮件、个人通讯等等。此外在办公自动化中,人们相互进行的协同工作,也成为数据库所吸收的应用。

 

比较热门的研究领域还有XML数据库技术,它主要处理关系数据库过去处理不了的半结构化数据,如一些文档数据,也要纳入到数据库里面,这跟传统的关系数据库是不一样的。

 

二、数据库发展的分水岭

 

我相信现在的数据库发展到了一个全新的阶段,或者说一个分水岭的阶段。原有的数据库技术遇到了很多的挑战,这时候我们要解决所面临的新问题。

 

这要从数据的变革说起。过去的数据库技术主要处理纯数据,它所存储的数据基本上都是从键盘输入进去的,也就是说它所处理的数据都是由键盘输入的数据。键盘输入的数据是有限的,主要是字符。字符可以表示数字,也可以表示文本。数字又分为整数、浮点数。这是由于二十世纪70年代和80年代的技术所限,数据库技术都是围绕键盘输入进行处理。包括商业数据、管理数据。由于这些数据比较简单,因此它的查询处理技术,存储技术,及其使用都局限于数据处理。

 

数据处理范围的扩大,是技术进步带来的。在关系数据库发展的年代,数据输入就是从键盘进去的,没有别的手段。上世纪70年代的时候,人们没有这么多技术,也没有这么丰富的数据。

 

现在,所有的东西都可以数字化,数字化的内容都存在磁带机里。数据不仅仅是由键盘输入的,键盘输入的部分只是输入的数据中很小的一部分。除了键盘以外,要输入的数据有:扫描仪扫描的图像,或者其他的装置和设备直接采集的数字化的内容,和其他复杂的对象。比如:照片、电视节目、将来的数字化电影、音乐、扫描后的报纸、一本书(书里面有文字,有图形,有图像,有数学公式,有很多特定领域特殊的内容)。这些内容都是过去传统数据库处理没有涉及到的。

 

因此目前数据处理面临着一个很大的挑战,可以说是数据库发展的一个分水岭。查询处理和其他内容都发生变化,包括查询、分解、优化,目前关系数据库做的都没有涉及到这些领域。

 

首先,对这些数据进行处理,数据模型要发生变化,关系数据库模型处理不了这么复杂的东西;

 

其次,数据模型的变化意味着查询不能用过去键盘输入时代的查询语言。所以查询手段要发生变化;

 

第三,查询手段的变化,意味着后端对查询数据的处理要发生变化,因为存储的对象变化了。过去的对象很简单,现在一个对象除了一部电影、一幅图像、一个电视节目,这些对象本身以外,还有很多关于节目的描述性的东西,即对象的元数据(对这些内容特征的描述)。比如一张照片,它的颜色、它的纹理,这使得数据呈现一种多维的趋势。

 

另外,在存储方面,过去数据存储不太考虑10年、20年这样长期的存储。关系数据库没考虑这一点。一般的数据用了一年两年之后,不用了,我们就采取备份的手段,把它倒到磁带上,变成离线的,再放到架子上,编目进行管理。现在存储容量的要求跟过去键盘输入时代的要求有天壤之别。一个小时的电影的存储都是以兆为单位计算的。假如有一本书,可能10年以后还有用,20年以后还要用,用户只要有需要,就能把它调出来。所以数据量很大,存储时间需要很长,需要的时候还得把它拿出来。这带来的变革很大。

 

与之相应的,查询的方式由于有了图形音乐的内容,显然查询的时候就不可能再只用键盘,而必须用多种手段,即多模式输入查询,这是跟键盘输入时代一个巨大的变化。另一方面是对数据的使用。过去关系数据库用的都是键盘输入的数据,都是直接使用,就是查一条记录,或者一行数据,然后前端建一个应用程序,对这些简单数据进行处理。现在我们把一张照片调出来,看照片要用特定的浏览器;我们把一本书调出来,要翻阅书,要对书里的内容进行索引检查,这都需要特殊服务。此外,数据库特殊服务还包括视频点播,从数据库中调出一部电影,或者一部动画片来。服务的对象和服务都产生了很大的变化,因此,反过头来从服务的角度来看,它会反过头来对数据库,对数据库的支撑技术提出了很多的要求。比如我们所需要的快速查询,所涉及的技术就远远的超过了现在关系数据库所处理的常规的数据,涉及到多媒体技术,新的查询处理技术,包括模糊查询和多维数据查询。

 

总结前面这几个方面,我认为数据库的发展已经出现了一个分水岭。分水岭的标志就是它的数据发生的变化。

 

用一句话概括,过去数据库技术所处理的数据,基本上都是以键盘输入数据为主,以后数据库处理的技术,有键盘输入的数据,但是它的数据量已经占到第二位,其它多种类型的数据占据着主导地位。这个分水岭无论是从研究上还是从商业应用和市场竞争,都带来了很多的机会,也带来了很多的挑战。

 

现在我们在分水岭相关的研究方面有不少的工作都在开展,前面所提及的领域,包括多媒体技术、人机交互技术、全文检索、海量存储系统、以光技术为主的存域网技术,我们都在进行研究,但是把所有的技术能够同时纳入新的数据模型,以及在数据处理的基础理论方面,能够形成一个体系,我觉得现在还没有到达这个地步。这恰恰是我们数据库领域要做的事。而做这件事情的时候,单纯靠数据库领域一方面的力量是不够的,要结合其他领域的人。包括前面提到的所有各个领域的力量,一起来考虑这个问题。

原文转自:http://www.ltesting.net