Box-Muller 算法隐含的原理非常深奥,但结果却是相当简单。如果您在 [0,1) 值域内有两个一致的随机数字 U1 和 U2(如本专栏中第一部分所述),则您可以使用以下两个等式中的任一个算出一个正态分布的随机数字 Z:
Z = R * cos( θ )
or
Z = R * sin( θ )
其中,
R = sqrt(-2 * ln(U2))
and
θ = 2 * π * U1
正态值 Z 有一个等于 0 的平均值和一个等于 1 的标准偏差,您可使用以下等式将 Z 映射到一个平均值为 m、标准偏差为 sd 的统计量 X:
X = m + (Z * sd)
以 NextGaussian 方法实现高斯类的最简单方法由图 6 中的代码表示。
我使用的是 Math.Cos 版本,但我本完全可以轻松地使用 Math.Sin 版本。该实现代码虽然可行,但效率很低。由于 Box-Muller 算法可利用 sin 或 cos 中的任一个函数计算正态分布的 Z 值,因此我倒不如同时计算两个 Z 值,保存第二个 Z 值,然后在第二次调用 NextGaussian 方法时可以检索所保存的值。此类实现方法如图 7 所示。
尽管该方法可行性很好,但也存在一些低效性。使用 Math.Sin、Math.Cos 和 Math.Log 方法进行计算会降低性能。一种提高效率的巧妙方法是使用数学技巧。如果您检查一下 R 和 θ 的定义,会发现它们与某单位圆内某随机点的极坐标相对应。该数学技巧就是计算单位正方形内某随机点的坐标(避免了调用 Math.Sin 和 Math.Cos 方法)并确定该随机点是否在单位圆范围内。如果是这样,我们就可以使用这组坐标;如果不是这样,则我们可计算一组新的随机坐标,然后重试一次。约有 78% 的随机生成坐标都在单位圆范围内,这提供了更好的性能,但显然要影响到清晰性。
图 8 中例示了单位正方形技巧。Box-Muller 基本算法将选择一个极坐标为 (R, θ) 并保证在单位圆范围内的点。您也可以在包围单位圆的单位正方形内选择矩形坐标;点 (x1, y1) 在单位圆范围内,但是点 (x2, y2) 则在单位圆范围之外。图 9 说明了单位正方形方法的实现。
图 8 单位正方形技巧
在软件测试场景中,性能通常不是主要的考虑因素,因此我所提到的三种实现方法都适用。但在软件开发中,特别是在进行模拟时,性能就成为一个主要问题。尽管 Box-Muller 算法执行起来既高效又相对简单,但是也有其他替代算法可生成正态/高斯伪随机数字。有一种高效的替代方法称为 ziggurat 方法。
返回页首
总结
让我进行一下简单总结。生成随机测试用例输入数据是基本的软件测试技能。.NET Framework 包含一个 System.Random 类,可用于生成某一特定值域内的统一分布的整数型或浮点型伪随机数字。需要注意的主要问题就是要确保正确指定值域的端点值。
可使用 Wald-Wolfowitz 检验方法来分析包含两个符号的模式以证明它是随机生成的模式。您可使用此检验方法分析随机测试用例输入数据或分析所测试系统的输出数据。
最佳通用混排算法称为 Fisher-Yates 算法。它非常简单并且几乎不需要使用另一种方法。但即使正确算法中存在一丝微小偏差都可能导致算法看似正确但却存在重大错误。
可使用 Box-Muller 算法生成正态分布的伪随机数字。Box-Muller 算法隐含的数学原理非常深奥,但实现过程却异常简单。有几种方法可用于实现 Box-Muller 算法,但都以降低效率来提高清晰性。
请将您的疑问和意见通过 testrun@microsoft.com 发送给 James。
James McCaffrey 博士供职于 Volt Information Sciences Inc.,在那里他负责管理 Microsoft 的软件工程师的技术培训。他已经为多种 Microsoft 产品效过力,包括 Internet Explorer 和 MSN Search。可通过 jmccaffrey@volt.com 或 v-jammc@microsoft.com 与 James 联系。
文章来源于领测软件测试网 https://www.ltesting.net/