作为运营商的核心生产系统之一,BOSS系统的稳定性运行非常关键,其每次发生的重大故障都会引起运营商严重的经济损失。而BOSS系统的稳定运行,和应用研发/集成商提供的应用软件本身的稳定性密切相关。甚至能不夸张地认为,目前国内BOSS系统的大部分稳定性问题,主要集中在BOSS应用软件的不稳定上。
何谓系统的稳定性?无非就是这三方面:系统功能稳定,不要动辄操作失败;系统运行效率好,实时性高;系统运行平稳,不要动辄重启甚至宕机。而要做到这三方面,不对应用软件进行充分的测试,是无法确保的。
那么,为什么BOSS应用软件的测试没有做好?怎么解决这个问题?
从运营商的角度理解,是研发/集成商没有对软件进行充分的测试,导致系统出现大量BUG,所以研发/集成商应该加强测试,从而提高自身软件的质量。如果说研发/集成商要提高自身软件的价值,必须首先提高自身软件的质量。这是简单、勿庸置疑的道理。
而从研发/集成商的角度来理解,是运营商的业务需求繁杂多变,研发周期短,难以进行充分的测试即被迫匆匆上线。而且目前BOSS软件的报价一般仅考虑研发成本,无法考虑包括测试环境、测试工具等成本,要搭建这些测试环境、引入这些测试工具将消耗几倍于目前的研发成本,所以无法也无力进行严格的软件测试。要加强测试,提高质量,首先要运营商给予更大的成本空间,否则无法实现。
这是个典型的“鸡”和“蛋”的问题,看起来是个死结,难以解开。本文的目的,就是从分析当前BOSS应用软件测试方面存在的问题入手,立足于实际可操作的角度,对怎么打开这个“死结”做出积极探讨。
应用软件不稳定问题总结
在BOSS的实际建设和维护过程中,关于应用软件导致的系统不稳定(主机、存储等设备,数据库、中间件等系统软件导致的不稳定,本文不作讨论),能大致归结为以下几种。
1.新上线系统的BUG过多,功能不稳定。某个新系统上线后,才发现应用软件的BUG非常多,营业员时不时的操作失败,而又不是每次都操作失败,让人难以琢磨该系统的“性格”。
2.新上线业务功能导致原有正常业务功能出错。这能说是BOSS系统维护中最常发生的不稳定问题,实际上就是新功能研发时,只对新功能进行了测试,而没有对原有功能的影响进行测试,导致上线前没有发现问题,而仓促上线所致。
3.新上线业务越来越多,系统越来越慢,直至系统宕机。这属于典型的性能、压力的测试和分析不够,并进而对系统支撑业务能力估算不足所致。
这三个问题,从另一个角度来看,能理解为解决当前BOSS应用软件测试问题的三个步骤。首先必须加强上线前研发/集成商的软件测试,建立完整的测试流程和测试环境,这样才能解决新上线系统BUG过多的问题;其次,在此基础上,对每个新上线的业务功能,除了执行新功能本身的测试外,还通过建立丰富的测试用例库来确保执行严格的功能回归测试,才能确保新上线业务没有对原有正常业务功能产生不良影响;最后,有了这些测试流程、测试环境、测试用例库,才能进行严格的性能测试和分析,为新业务上线对系统荷载造成的影响进行科学客观的分析,从而准确地把握系统实际运行荷载的变化趋势,并进而尽早发现系统支撑能力的“临界点”,最终做到对系统宕机现象的“防患于未然”。
下面将对这三个步骤进行深入的剖析和阐述。
打开死结的三个步骤
一、第一步:加强上线前研发/集成商的软件测试
关于“新上线的系统BUG过多,功能不稳定”这一点,毋庸置疑就是研发/集成商对新研发的应用软件,没有在系统上线前做足够充分的测试,从而没有在上线前发现并解决足够的BUG。怎么解决这个问题,在当前现实市场条件下,则需要研发/集成商、运营商双方面的努力。
1.要做好具体工作
为了做好软件测试,研发/集成商需要做好这些具体的工作内容。
1)建立真正完整而务实的测试工作流程。在“玩”测试这个“游戏”之前,首先要确定怎么测试的游戏规则。其内容包括:测试工作分为几个阶段;这些阶段的工作内容分别怎么和研发对应;在各个阶段,测试人员怎么和研发人员交互;测试发现的BUG怎么落实解决;测试的争议怎么解决;测试环境怎么维护;测试的软件版本怎么获取;测试版本和研发版本之间又怎么交互演进;软件发布的标准怎么依赖测试结果等。
2)组建技术、业务均合格并掌控测试方法论的独立测试队伍。设计出一个完整、务实、适应于本企业内部环境和文化的测试流程,只需要依赖企业内部少数熟悉公司内部环境的人才就可实现。而建立合格的测试技术队伍,则需要一个团队的努力,甚至涉及到软件企业文化的改动。这是软件企业当前最难解决的问题。目前的现状,无论是高校还是社会,普遍没有形成有效的软件测试人员的培养经验,甚至连起码的认识都欠缺。
3)引入适当的测试工具软件。一方面,即使针对正在研发中的软件,由于在研发过程中不断引入的变更(发现错误进行的变更,业务需求变化引起的变更等),对于已测试通过的功能,也需要在每次修改代码后进行回归测试,只有这样才能确保即使在代码不断修改的情况下,软件发布时相应的功能测试仍然是通过的。而这种回归测试的工作量非常之巨,以至于如果完全人工来做,是不可能实际做到的。另一方面,对于像内存泄漏、Core Dump、性能压力等方面测试,如果全部采用人工进行,也将变得非常困难和低效。为此,研发/集成商需要引入相应的自动化测试(包括自动回归、模拟压力、代码分析等)工具,才能真正做好测试。
4)搭建完整的测试环境。没有研发环境就没法研发。同样,没有测试环境就无法测试。测试环境之于研发环境的差别,一方面是测试环境下不会修改所有代码,而是测试人员利用研发人员提交到原始码版本服务器的代码,编译而形成可执行软件,进而进行测绘;另一方面,测试环境下要始终维护着状态一致的业务数据,只有这样才能确保测试用例的完整运行(一般来说,每个测试用例运行完成后,他要确保下次该用例在同样的测试数据上仍然能够运行成功,否则无法执行自动的回归测试)。
5)工程进度紧张的情况下确保测试的完整性。由于实际的市场压力,现有大部分BOSS系统建设的进度压力都非常大,这直接导致软件测试的进度压力也非常大,甚至变得不现实。必须考虑怎么结合实际情况,确保在非常紧张的进度压力下,仍然能够开展充分的测试。
2.工作落实建议
第一、二项工作,是研发/集成商无法推卸的责任,而且也是其应该能够解决的问题。至于怎么解决,则需要依靠研发/集成商自身在管理上的努力。但一般来说,建立完整务实的测试流程,和组建技术、业务均合格并掌控测试方法论的独立测试队伍,少则1年、多则2、3年才能真正实现。
第三个引入测试工具软件的工作,存在这样的落实难点:限于当前国内应用软件的现实价格平,研发/集成商一般无力承担这些测试工具的昂贵代价(根据一般的BOSS软件研发队伍规模,其至少三、四十人以上,需要购买的测试工具license价格动辄上百万美元。而目前BOSS应用软件的总体价格,不过才几十万美元。),如Mercury的WinRunner/ LoadRunner/ TestDirector系列等,或IBM的Rational系列工具等。实际上,直至今日,甚至非常多研发/集成商连研发工具都是依赖运营商去购买的。比较现实的建议,还是通过运营商采购、研发/集成商使用的方式来解决这个矛盾。当然,具体采用哪些工具,采用什么样的测试工作流程,这是需要研发/集成商来提出方案,并由运营商认可的。
第四个搭建测试环境的工作,和测试工具软件类似,相对于目前应用软件的现实价格,这些设备和软件的价格都太昂贵,研发/集成商目前根本无力承担购买和维护一套这样的完整环境的代价。因为测试环境涉及到UNIX主机、存储、网络等昂贵的硬件设备,而且研发/集成商要研发运行于各种主流UNIX主机平台的应用软件,还必须拥有各种主流的主机台,才能真正解决问题。这个问题,同样只有通过运营商来解决。建议能在设计BOSS系统方案时就考虑到这部分设备的提供,这样,就能让研发/集成商的研发测试依赖于运营商提供的测试环境。
根据以往的BOSS系统建设经验,一方面往往在系统建设方案中对测试环境所需要的设备、系统软件的考虑不足,另一方面也没有严格区分研发环境和测试环境的差别。为了做好这个工作,建议运营商和研发/集成商在系统方案设计之初,就充分考虑这部分投入。一般来说,相对运行环境,只需要考虑一个按比例缩小的、具有典型代表意义的测试环境方案即可。