一种常见的AB测试误区分析(2)

发表于:2017-01-13来源:吆喝科技作者:吆喝科技点击数: 标签:AB测试
第一行和之前一样,收集200个样本之后报告的显著性水平没啥问题。然而问题出在第三行,试验结束时,假设AB两个版本实际效果相同,我们得到统计显著

 

AB测试原理

 

第一行和之前一样,收集200个样本之后报告的显著性水平没啥问题。然而问题出在第三行,试验结束时,假设AB两个版本实际效果相同,我们得到统计显著结论的比例上升了。因此,显著性水平——用来衡量因为运气因素观察到区别的概率——将是错误的。

问题有多严重?

如果你的转化率是50%,想测试一下新的logo是否能把转化率提升到50%以上。你打算观察到5%级别的统计显著性就停止试验,否则在收集150个样本后停止试验。假设新logo没有任何影响,得到错误的统计显著结果的概率有多大?不过5%?根据前面的分析,也许是6%?

 

结果是26.1%-比你预计的显著性水平的5倍还多。这是最差的情况,因为我们每收集一个新样本都检查统计显著性,(也不是没有这样先例)。至少有一家AB测试平台确实提供在出现统计显著就停止试验的功能。听起来这是个巧妙的花招,直到你意识到在统计学上这是恶习。

 

重复进行显著性检查总会增加虚报概率,也就是说会把许多本来非显著的结果变成显著(而不是反之)。只要你有“偷窥”数据,发现统计显著就结束试验的行为,该问题就会存在。偷窥的越频繁,显著性水平偏差越大。例如,在试验过程中偷窥10次,表面上是1%的显著性实际上仅是5%的显著性。下面的表格展示了在有偷窥的情况下,数据报表中的显著性需要达到多少才能有实际上5%显著性。
偷窥次数达到实际显著性水平5%所需要的报告显著性水平

1次           2.9%

原文转自:http://www.appadhoc.com/blog/a-mistake-analysis-of-abtesting/