如何实施性能测试

发布: 2009-11-24 13:22 | 作者: 网络转载 | 来源: 领测软件测试网 | 查看: 249次 | 进入软件测试论坛讨论

一、性能测试概念

性能测试是一个较大的范畴，包括负载测试、压力测试和容量测试。其中负载测试是为了检验系统在给定负载下是否能达到预期性能指标；压力测试是通过不断向被测系统施加“压力”，测试系统在压力情况下的性能表现；容量测试针对数据库而言，是在数据库中有较大数量的数据记录情况下对系统进行的测试。

性能测试是在交替进行负荷和强迫测试时常用的术语。性能测试关注的是系统的整体。它和通常所说的强度、压力/负载测试测试有密切关系。所以压力和强度测试应该于性能测试一同进行。例如：对一个网站进行测试，模拟10到100个用户就是在进行常规性能测试，用户增加到1000乃至上万就应该是压力/负载测试。

性能测试(Performance) 正常使用的时间内系统完成一个任务需要的时间，多人同时使用的时候响应时间。性能测试是为了检查系统的反映，运行速度等性能指标，其前提是要求在一定负载下，例如：检查一个网站在100人同时在线的情况下的性能指标，每个用户是否都还可以正常的完成操作等

二、性能测试主要过程

对于一个完整的性能调优过程，其过程中应该包括测量性能、定义性能测试、确定基准性能、压力测试、解决性能问题五大部分。

（一）、测量性能
为了要正确地调整性能，必须准确完整地记录每次测试的结果并进行维护。记录应包括：

精确的系统配置，尤其是与前几次测试的不同之处

原始数据和性能监视工具计算的结果

这些记录不仅指示应用程序是否达到性能目标，而且有助于识别未来性能问题的潜在原因。

在每遍测试中，运行一系列完全相同的性能测试；否则，无法分辨不同的结果是由于测试中的改动还是应用程序更改造成的。使尽可能多的性能测试操作自动进行有助于消除因操作者造成的差异。

其他表面上是良性的因素影响性能测试的结果，如应用程序在测试开始前运行的时间。正如冷的汽车引擎与热引擎的性能不同，长时间运行的应用程序由于内存碎片这样的因素，其性能可能与刚启动的应用程序不同。

（二）、定义性能测试
性能测试期间，测量和记录性能目标中指定的度量标准值。达到全部性能度量标准（如思考时间、事务混合等）很重要。在这些约束下，测试应尽可能实际。例如，对应用程序进行测试，确定它在许多客户端同时访问它时的性能。多线程测试应用程序可以用可复制的方式模拟多个客户端，每个线程表示一个客户端。如果应用程序访问数据库，则数据库应包含实际数目的记录，并且测试应使用数据项的随机（但有效）值。如果测试数据库太小，数据库服务器的缓存效果将产生不符合实际情况的测试结果。如果输入或访问数据的方式不符合实际情况，则结果也可能不符合实际情况。例如，在主键上按字母顺序创建新数据是不太可能的。

通常，测试装置必须接受用户指定的输入参数，如事务混合、思考时间、客户端数目等。然而，测试装置本身可以规定创建实际的随机数据的规则。

创建了驱动应用程序的测试装置后，应该将所有运行测试的不变条件记入文档。最起码，这些条件应包括运行测试装置所需的输入参数。另外，应将如何设置运行测试的数据库记入文档。说明中应指定数据库不应包含前一遍测试所做的更改。说明中还应指定用于测试的计算机配置。在不同于应用程序所在的另一台计算机上运行测试装置，因为这样设置更接近生产环境。

（三）、确定基准性能
确定了性能目标并制定了性能测试后，运行一次测试以建立基准。验证环境与生产环境越相似，应用程序部署后的性能令人满意的可能性就越大。因此，一开始有一个符合实际情况的验证环境很重要。

幸运的话，基准性能将符合性能目标，并且应用程序不需要任何调整。但更可能的情况是，基准性能不令人满意。然而，记录初始测试环境和基准结果可以为调整工作提供坚实的基础。

（四）、压力测试
压力测试是性能测试的一种专门形式，它与其他工程领域的破坏性测试相似。压力测试的目的是使应用程序产生故障，通过增加处理负载使其超过性能的降低，直到由于资源饱和或发生错误而使应用程序开始出问题。压力测试有助于揭示细微的错误，这些错误本来要到部署应用程序时才会被发现。由于此类错误通常是因设计缺陷所致，压力测试应该早在开发阶段便在应用程序的每个区域上开始进行。在其源头修复这些细微的错误，而不是忽视这些错误，直到它们可能在应用程序中的其他位置表现出症状时才修复它们。

（五）、解决性能问题
通常可将性能问题归结于不止一个因素。因此，查找性能恶化的解决方案与进行科学实验极为相似。科学实验传统上遵循一个分六步进行的过程，包括观察、初步假设、预测、测试、控制和结论。结论由该过程积累的最佳证据集合所支持的假设组成。可以遵循同样的过程来解决性能问题。

当观察到 ASP 应用程序的性能比期望的低时，您假定 ASPProcessorThreadMax 元数据库属性设置得太低。当“ASP 排队请求”性能计数器上下移动，并且处理器的运行效率低于 50% 时，可能会发生这种情况。您预测增加 ASPProcessorThreadMax 元数据库属性的数值可以提高性能。

活动线程设置现在已经变成控件。一次仅进行一个设置更改，直到观察到满意的性能改变。如果在几次调整 ASPProcessorThreadMax 元数据库属性之后获得了更令人满意的性能，则结论是某个属性设置与所有当前变量（所需内存的总量、正在运行的应用程序数、已升级的软件等）组合，可提供最佳服务器性能。变量中的任何更改就会形成进一步的实验。

三、性能测试场景设计方法

主要分以下几种：

压力测试：已知系统高峰期使用人数，验证各事务在最大并发数（通过高峰期人数换算）下事务响应时间能够达到客户要求。系统各性能指标在这种压力下是否还在正常数值之内。系统是否会因这样的压力导致不良反应（如：宕机、应用异常中止等）。

Ramp Up 增量设计：如并发用户为75人，系统注册用户为1500人，以5％－7％作为并发用户参考值。一般以每15s加载5人的方式进行增压设计，该数值主要参考测试加压机性能，建议Run几次。以事务通过率与错误率衡量实际加载方式。

Ramp Up增量设计目标：寻找已增量方式加压系统性能瓶颈位置，抓住出现的性能拐点时机，一般常用参考Hits点击率与吞吐量、CPU、内存使用情况综合判断。模拟高峰期使用人数，如早晨的登录，下班后的退出，工资发送时的消息系统等。

另一种极限模拟方式，可视为在峰值压力情况下同时点击事务操作的系统极限操作指标。加压方式不变，在各脚本事务点中设置同集合点名称（如：lr_rendzvous("same");）在场景设计中，使用事务点集合策略。以同时达到集合点百分率为标准，同时释放所有正在Run的Vuser。

　　稳定性测试：已知系统高峰期使用人数、各事务操作频率等。设计综合测试场景，测试时将每个场景按照一定人数比率一起运行，模拟用户使用数年的情况。并监控在测试中，系统各性能指标在这种压力下是否能保持正常数值。事务响应时间是否会出现波动或随测试时间增涨而增加。系统是否会在测试期间内发生如宕机、应用中止等异常情况。

根据上述测试中，各事务条件下出现性能拐点的位置，已确定稳定性测试并发用户人数。仍然根据实际测试服务器（加压机、应用服务器、数据服务器三方性能），估算最终并发用户人数。

场景设计思想：从稳定性测试场景的设计意义，应分多种情况考虑：

针对同一个场景为例，以下以公文附件上传为例简要分析场景设计思想：

1）场景一：已压力测试环境下性能拐点的并发用户为设计测试场景，目的验证极限压力情况下测试服务器各性能指标。

　　2）场景二：根据压力测试环境中CPU、内存等指标选取服务器所能承受最大压力的50%来确定并发用户数。

　　测试方法：采用1)Ramp Up-Load all Vusers simultaneously

　　2)Duration-Run Indefinitely

3)在Sechedule-勾选Initalize all Vusers before Run

　　容错性测试：通过模拟一些非正常情况（如：服务器突然断电、网络时断时续、服务器硬盘空间不足等），验证系统在发生这些情况时是否能够有自动处理机制以保障系统的正常运行或恢复运行措施。如有HA（自动容灾系统），还可以专门针对这些自动保护系统进行另外的测试。验证其能否有效触发保护措施。

　　问题排除性测试：通过原有案例或经验判断，针对系统中曾经发生问题或怀疑存在隐患的模块进行验证测试。验证这些模块是否还会发生同样的性能问题。如：上传附件模块的内存泄露问题、地址本模块优化、开启Tivoli性能监控对OA系统性能的影响等等。

测评测试是用于获取系统的关键性能指标点，而进行的相关测试。主要是针对预先没有明确的预期测试结果，而是要通过测试获取在特定压力场景下的性能指标（如：事务响应时间、最大并发用户数等）。

　　评测事务交易时间：为获取某事务在特定压力下的响应时间而进行的测试活动。通过模拟已知客户高峰期的各压力值或预期所能承受的压力值，获取事务在这种压力下的响应时间。

　　评测事务最大并发用户数：为获取某事务在特定系统环境下所能承受的最大并发用户数而进行的测试活动。通过模拟真实环境或直接采用真实环境，评测在这种环境下事务所能承受的最大并发用户数。判定标准阈值需预先定义（如响应时间，CPU占用率，内存占用率，已出现点击率峰值，已出现吞吐量峰值等）。

　　评测系统最大并发用户数：为获取整个系统所能够承受的最大并发用户数而进行的的测试活动。通过预先分析项目各主要模块的使用比率和频率，定义各事务在综合场景中所占的比率，以比率方式分配各事务并发用户数。模拟真实环境或直接采用真实环境，评测在这种环境下系统所能承受的最大并发用户数。判定标准阀值预先定义（如响应时间，CPU占用率，内存占用率，已出现点击率峰值，已出现吞吐量峰值等）。取值标准以木桶法则为准（并发数最小的事务为整个系统的并发数）。

　　评测不同数据库数据量对性能的影响：针对不同数据库数据量的测试，将测试结果进行对比，分析发现数据库中各表的数据量对事务性能的影响。得以预先判断系统长时间运行后，或某些模块客户要求数据量较大时可能存在的隐患。

问题定位测试在通过以上测试或用户实际操作已经发现系统中的性能问题或怀疑已存在性能问题。需通过响应的测试场景重现问题或定义问题。如有可能，可以直接找出引起性能问题所在的代码或模块。

　　该类测试主要还是通过测试出问题的脚本场景，并可以增加发现和检测的工具，如开启Tivoli性能监控、开启HeapDump输出、Linux资源监控命令等。并在场景运行过程中辅以手工测试。