4月12日,IBM CDL在面向广大用户和合作伙伴的开放日活动中,特意邀请了五名数据库领域的国际大师,他们是:国内数据库领域的领军人物、中国人民大学的教授王珊女士,以及IBM全球62位院士(IBM Fellow)之中的4位——郑妙勤、Mohan、Hamid Pirahesh和王云。在近3个小时与中国的数据库工程师交流的过程中,他们分别阐释了自己的数据库观。
王珊:我选择了一条非常正确的道路!
作为一个“半路出家”的数据库研究者,我为我的选择感到庆幸!
我的庆幸不仅是因为这个领域在不到半个世纪的时间里爆发出灼人的能量,改变了人们生活、工作和学习的各个方面,更重要的是它在不断地打开新的篇章,让像我这样的研究者能为探索这个领域里无穷的奥妙做出不懈的努力。
数据库发展的动力源自我们所处信息环境的变迁,较之十多年的情况,今天我们在信息利用上正在发生这样的变革:
一方面,我们所接触的数据对象越来越丰富。先前,我们所管理的是一些结构化的数据,处理的也就是一些简单的计算事务,而在今天我们要面对的是包括文本、音频、视频、图像等在内的类型更为丰富的信息。除了常规性的事务处理,我们需要做基于多层次挖掘的分析处理。
另一方面,我们面临的是一个海量的数据空间。先前,数据库所能管理的数据主要来自以键盘的形式录取的简单数据,这只是数据总量的冰山一角。今天,在扫描仪、RIFD等设备的帮助下,数据正呈排山倒海之势增长。
所以我想数据库技术现在是越来越广泛,遇到的问题也是越来越多。有人说数据库已经不是很神秘,可能他是指核心技术,就是像传统的层次、网状和关系数据库这些核心技术已经相对比较成熟。但是我并不认为已经没什么好研究的了。相反,在它的核心技术上,我认为很多在论文里研究的技术,或者说我们得到的专利以及很多的发明并没有真正的用到产品里,我认为它和产品还相差的甚远,所以我们如何把这些技术转换到产品里,还有很多的路要走。
现在大家都在讲数据库管理系统要自调优自调整,数据库越来越复杂了,管理系统使得数据库管理的负担太大了。用一个数据库,可能我来用和你来用不一样,可能你的水平比我高,你对DBMS能够充分利用它的这些特性、性能、空间充分的发挥,所以我想DBMS技术,传统的技术没有过时,相反在新的条件下,我们遇到了很多新的挑战,数据量越来越大。另外我想数据库一方面向大的方向发展,另一方面也在向小的方向发展,我们的手机、移动设备上面都要用存储数据,所以我想这方面的挑战会越来越多。
郑妙勤:联邦化、虚拟化代表了数据库的发展方向!
什么是数据呢?对于这样一个简单的问题,在过去人们可能更愿意将其局限到一个特定的数据库上去,但现在情况已经发生了根本性的变化,我们认为数据库正在朝虚拟化的方向发展,而数据联邦已经成为一种必不可少的应用手段。
大家所说的虚拟化对我们是一个很大的挑战,我们想的都是诸如DB2、Oracle之类的实体数据库,事实上我们的数据空间非常非常大,我觉得我们关于数据库的认识和研究恰恰开始。比如,虽然王云先生是Data Joiner的发明人,现在信息完全都是Data Joiner了,你怎么去找寻和应用信息?我觉得应该有一个意义上的寻找,还要有一个关联的、面向知识的寻找。所以我觉得最成功的一个数据库应该是一个涵盖结构化和非结构化、面向知识应用的数据管理。
Mohan:我们要将IBM在数据库领域的创新精神发扬广大!
作为一个数据库的研究者,特别是IBM的数据库研究者,我感到异常的荣耀,因为我隶属于一个有着创新传统的光荣组织。
在1981年我加入阿马丹实验室之前,IBM就有同事在进行数据库基础方面的研究。SQL语言是在IBM的实验室由Don Chamberlin研发出来的,之后XML的查询语言XQuery也是他主导开发的。
第一次跨数据库查询的研究是在IBM做的,就是我领导的一个项目。我和Hamid 先生之前在查询优化方面做了很多有趣的工作,又在交易管理方面做了一些研究。IBM不仅在研究方面,而且在产品实现方面都对业界做出了巨大的影响。
现在我们所做的工作基本上是面向XML拓展的DB2接口,以及如何把结构化的数据和非结构化的数据结合在一起。
回顾往昔,IBM在关系型数据库、层次数据库等方面的成绩令人肃然;展望未来,我们相信IBM数据库的创新力会在我们这里得以强势延展。
Hamid Pirahesh:我们对数据库领域的承诺是——创新、创新、再创新!
数据库具有广阔的发展空间,对此,我深信不疑!
我们所能做到的就是创新、创新、再创新!
首先,我们要致力于拓展数据库的商业价值——这不是一件容易的事情,即让数据不是存在于数据库当中,而是存在于业务流程当中。在于进入到商业过程中,了解到数据是分布在不同的商业过程中或者是在某一个特定的商业线当中。就是说你必须了解你的商业目标,然后超过关系数据库。
其次,在关系数据库中数据只有一种形态,但是如果你进入到今天的企业当中,你可以发现有上千种的形态在不同的公司当中,数据变成杂乱无章的,但是你必须喜欢这种杂乱无章。我们还要继续保持关系数据库,但是你必须把它和结构化、半结构化、非结构化的数据结合在一起。在关系数据库中我们现在只处理到20%的商业数据,就是说处理接下来的80%的数据的时间已经到了。
最后,我们需要更多的人加入到数据库研究的开放社区,共同推动数据库技术的创新。在我们实现的过程中,我们必须要这么多来自大学的优秀人才的加入,也必须要开放的社团的加入,还必须要开放源代码的加入。
王云:我们所要做到的是数据为我所用,而非我为数据所困!
我们做数据库这么多年,在做什么?比如我们在做交易处理、灾备恢复,其实我个人觉得基本上我们在做的事情,一个是我们分析推算的能力,我们可以想象、可以分析、可以推算;另外一个很重要的能力是什么呢?是我们的记忆。因为很多事情若不假借先前的成果或经验,我今天又要从1+1开始算起。
如果我们讲数据库,我们不要把数据讲成被动的东西,它是活动的东西,而且数据是具有运算能力的东西。数据库跟我们当年的文档最大的不同是什么呢?不仅数据库可以把数据做的更坚固,它其实可以把数据变成更活的数据,以前我们在文档上做数据处理,数据是活的,你可以有一个查询语言。怎么样能够让数据变成活的东西?其实这是数据库这么多年的变化,它不仅是了解更多的数据,还要了解这些数据可以做些什么样的功能满足我们的需求。所以我要跟大家讲数据不是死的,是活的,不仅仅它要能够接受更复杂的企业模式、生活模式,它还要跟我们的生活结合在一起。
过去,我们在探讨的是怎样去管理数据,结果是陷入数据的泥沼里不能自拔。那么今后,我们要考虑的是我们能从数据里得到什么,这是一个艰巨而意义重大的问题!