在会话测量中,通常会将一群收听者放在交互式通信的环境下,并要求他们通过一个电话或VoIP系统完成一项任务。测量人员在系统中加入延迟和回声等效应,然后调查测量主体对连接质量看法如何。
延迟效应对会话质量的影响随任务不同而有很大差异。对于非交互式的任务而言,几百毫秒的单向延迟都是可以忍受的;而对交互性较强的任务,哪怕是很短的延迟都可能造成会话困难。
延迟对不同任务影响不同的这种情况就造成在会话呼叫质量的解释上出现问题。例如,两个相同的VoIP系统连接都会产生300ms的单向延迟,但一个系统用于高交互性的商业谈判,而另一个系统则用于朋友间的非正式聊天。那么前一个系统中的用户可能会觉得呼叫质量很差,而后一个系统中的用户则可能根本注意不到这一延迟。
很显然,这种会话质量测量也属于主观评价的范畴。下面看看客观评价。
(3)基于样本的客观测量
ITU开发了P.861(PSQM)和更新的P.862(PESQ),力图用成本更低的客观测量法来做为主观收听质量测量的补充。采用这些测量技术,可以通过比较送入系统中的一个原始参考文件与输出的受损文件之间的差异,得到由传输系统或CODEC引入的失真。这些技术的初衷虽然是为了CODEC的实验室测量,但在VoIP网络测量中也得到了广泛使用。
P.861(PSQM)和P.862(PESQ)算法将参考信号和受损信号都分成较短的交迭样本块,计算每一块的傅立叶变换系数,并比较他们的系数。P.862算法最后给出一个PESQ得分,该得分与MOS的范围相近,但它并不是MOS的准确映射。新的PESQ-LQ得分更接近收听质量MOS。这些算法都同时要求访问源文件和输出文件才能测量后者相对于前者的失真。
(4)话音质量的测试方法
大部分语音测试设备(例如Spirent的Abacus)都是采用基于ITU P.861与P.862规范标准,对网络或者设备进行客观评价。这里我们用Spirent的Abacus5000来举例说明话音质量的评价方法。Abacus5000是基于呼叫的测试系统,它可以在模拟用户产生呼叫的同时生成真实的媒体流。针对音频,可提供3-tone,Resilient测试;针对话音,能够发送标准的男声、女声、混音等.wave格式文件。标准的测试文件从发送端经过被测网络传输后到接收端,测试系统通过话音质量评估手段,比较原始语音文件和接收到的语音文件间的异同来对被测系统进行评估,得到PSQM(P.861)或者PESQ(P.862)。系统还可以提供客观测试方法到主观测试结果的相关性对应,即PSQM/PESQ到MOS的转换。图2所示的为Abacus5000的语音质量测试方法。
2.2 语音质量参数
语音质量主要有三种ITU标准:
(1)MOS(ITU-P.800),1~5分,5分最好,属于主观评价指标;
(2)PSQM(ITU-P.861),0~6.5分,0分最好,属于客观评价指标;另外,PSQM+属于PSQM评分标准的扩展,评分标准与PSQM相同;
(3)PESQ(ITU-P.862),-0.5~4.5分,4.5分最好,属于客观评价指标,又称之为“话音清晰度”指标;另外,PESQ_LQ是PESQ评分标准的扩展,范围为1~4.5分,更接近于MOS的1~5分标准;
当然,影响话音质量的参数指标还有以下几种:
(4)回声(ECHO),指传输系统由于阻抗不匹配等原因,对声源发出的声音产生的“反射”现象,即说话者很快听到的自己发出的声音。一般,人的耳朵能够识别的回声以150ms为界,超过150ms的回声,人耳能够比较明显的分辨,会产生反感,在150ms以内的回声,一般人都可以接受,基本听不出来。
(5)语音间断(HIT),指由于丢包等传输原因或编解码等原因造成的语音不连续,人耳听到的是断断续续的话音,会产生极大反感。信息产业部的测试规范中规定,20ms以上的语音间断都必须统计,语音间断累计和与总通话时长的比值,称为“语音间断比”,通常这个值不应该超过2%。
(6)语音滑动(CLIP),指由于静音压缩等编解码原因造成的语音边缘模糊,通常是由静音到有声部分或者由有声到静音部分出现声音丢失,人耳听到的是失真的话音,会产生极大反感。信息产业部的测试规范中规定,20ms以上的语音滑动都必须统计,语音滑动累计和与总通话时长的比值,称为“语音滑动比”,通常这个值为零,否则不能入网。
文章来源于领测软件测试网 https://www.ltesting.net/