减少了第一类错误后,还有另一种错误会影响我们的决断,
那就是原假设为假时接受了原假设,说白了就是2个版本有差异时候,我们错误 的认为他们没有差异 ,这个错误的概率在统计学角度也称为取伪错误,记为 β ),这个概率可以相对大一些,业界大约定俗成的一个标准就是10%和20%的概率。
和显著性水平一样,为了避免我们犯第二类错误,我们需要通核算 β 从而计算出另一个参数来给我们参考,就是统计功效,和核算置信区间的置信度类似,它是的思路是 1-β 来得出 (统计功效 power = 1 – β )
统计功效是指版本差异(效果)为某个指定值时,通过显著性检验能正确地把差异检验出来的概率。说白了就是,假设两个版本的确存在差异,我们能够正确拒绝原假设,获得统计显著性结果(95%置信区间中数据)的概率。
统计功效的核算涉及样本数量,方差, α 、以及最小变化度或者置信区间下限。
由此可见,只有我们把第一类错误控制在5%以内,第二类错误控制在10%-20%左右,我们才可以说得出具有参考价值的出的试验数据。
换句话说,我们在做A/B测试时,试验结果达到95%的置信度,以及80%-90%的统计功效时,它对我们来说才是有意义、可以作为决策参考的。