如果网页正在运行AB测试的时候,你时不时的去查看试验结果的显著性,你就会陷入误区。统计学上,重复检验显著性是错误的行为。这样做的后果是,即使数据报告显示统计显著,实际上仍有较大可能性非统计显著。下面解释原因。
背景
当AB测试的数据面板显示“95%可能性比原版本有提升”,或者“90%可能统计显著”,需要考虑如下的问题:假如A版本和B版本没有潜在的差别,我们能看到数据中显示出来区别的可能性有多大?这个问题的答案就是显著性水平,“统计显著的结果”意味着显著性水平数值比较小,5%或1%。数据面板一般会取补集(95%或99%),作为“优于原版本的概率”或类似的东西来报告。
然而,显著性水平的计算有严格的假设:样本数量的多少是事先指定的。你很可能违反了该假设而不自知。如果开始试验之前你没有“本次试验将采集1000个样本”这样的预期,而是打算“一看到统计显著的结果就结束”,那么上报的显著性水平将毫无意义。这一结论完全反直觉,大量AB测试工具忽略了这一点。下面会用一个例子解释问题出在哪里。
假设你在样本量达到200和500时对试验进行分析,4个可能发生情景如下:
假设AB版本效果相同,显著性水平为5%,那试验结束时,我们有5%的可能性得到统计显著的结果。
而如果我们一观察到显著结果就停止试验,事情会像下面这样发展:
原文转自:http://www.appadhoc.com/blog/a-mistake-analysis-of-abtesting/