生成正态/高斯数字
我将在本月专栏中演示的第四种方法是从钟形分布(通常称为正态或高斯分布)中生成数字。
假设您要生成一些与一组人身高相对应的测试用例输入数据。可通过一种称为 Box-Muller 算法的非常巧妙的方法来生成正态分布的伪随机数字。用于创建图 1 中所示输出的代码的开头如下所示:
Gaussian g = new Gaussian(); double ht; int outliers = 0; Console.WriteLine("从平均值为 68.0 英寸、标准偏差为 6.0 英寸的" + "正态/高斯分布生成 " + "100 个随机身高 ->"); |
我以一个程序定义的高斯对象为例。此对象执行所有工作并使用 Box-Muller 算法。可变身高将受一个正态分布值的约束。我还会初始化一个计数器以跟踪非正常值,即那些远高于或远低于平均身高的值。跟踪非正常值使我起码可以验证我的随机身高事实上是正态分布的。图 5 列出了生成并显示我的随机身高的代码。
我每隔 10 个值就用模数 (%) 运算符打印一个新行,只是为了保持输出整齐。来自平均值为 68.0 英寸、标准偏差为 6.0 英寸的正态分布随机身高通过 Gaussian.NextGaussian2 方法的调用返回,我稍后将对此详细说明。我通过监控小于 56 英寸或大于 80 英寸的值来跟踪非正常值。这些值是高于或低于平均值 68.0 英寸两个标准偏差(6.0 * 2 = 12.0 英寸)的值。据统计,随机生成值超过平均值两个正(或负)标准偏差的概率大约有 5%。因此,如果生成 100 个随机身高(就像我现在这样),则可以预期约有 5 个非正常值。如果得出的非正常值远多于或远少于 5 个,则就需要仔细检查代码。请注意,在图 1 所示的运行示例中,我刚好得到 5 个非正常值,这使我更加确信我的随机生成的身高数据点实际上是正态分布的。
Box-Muller 算法隐含的原理非常深奥,但结果却是相当简单。如果您在 [0,1) 值域内有两个一致的随机数字 U1 和 U2(如本专栏中第一部分所述),则您可以使用以下两个等式中的任一个算出一个正态分布的随机数字 Z:
Z = R * cos( θ ) 其中,
R = sqrt(-2 * ln(U2)) |
正态值 Z 有一个等于 0 的平均值和一个等于 1 的标准偏差,您可使用以下等式将 Z 映射到一个平均值为 m、标准偏差为 sd 的统计量 X:
X = m + (Z * sd) |
以 NextGaussian 方法实现高斯类的最简单方法由图 6 中的代码表示。
我使用的是 Math.Cos 版本,但我本完全可以轻松地使用 Math.Sin 版本。该实现代码虽然可行,但效率很低。由于 Box-Muller 算法可利用 sin 或 cos 中的任一个函数计算正态分布的 Z 值,因此我倒不如同时计算两个 Z 值,保存第二个 Z 值,然后在第二次调用 NextGaussian 方法时可以检索所保存的值。此类实现方法如图 7 所示。
尽管该方法可行性很好,但也存在一些低效性。使用 Math.Sin、Math.Cos 和 Math.Log 方法进行计算会降低性能。一种提高效率的巧妙方法是使用数学技巧。如果您检查一下 R 和 θ 的定义,会发现它们与某单位圆内某随机点的极坐标相对应。该数学技巧就是计算单位正方形内某随机点的坐标(避免了调用 Math.Sin 和 Math.Cos 方法)并确定该随机点是否在单位圆范围内。如果是这样,我们就可以使用这组坐标;如果不是这样,则我们可计算一组新的随机坐标,然后重试一次。约有 78% 的随机生成坐标都在单位圆范围内,这提供了更好的性能,但显然要影响到清晰性。
图 8 中例示了单位正方形技巧。Box-Muller 基本算法将选择一个极坐标为 (R, θ) 并保证在单位圆范围内的点。您也可以在包围单位圆的单位正方形内选择矩形坐标;点 (x1, y1) 在单位圆范围内,但是点 (x2, y2) 则在单位圆范围之外。图 9 说明了单位正方形方法的实现。
原文转自:http://www.uml.org.cn/Test/200611225.htm