首先我们容易犯的就是第一类错误,就是原假设为真时拒绝了原假设,说白了就是过来就是2个版本无差异时候,我们错误 的认为他们有差异(从统计学角度讲也叫弃真错误)这个错误的后果非常严重,所以我们把这它的标准设一个值0.05, 它其实就是一个概率, 这个概率就是我们容许自己出错的概率。
这个就是5%就是在统计学里称作 α , 它代表着我们这个试验结果的置信水平。与这个置信水平相对应的就是置信区间的置信度,由 1- α 得出,所以你在这里看到如果 α 是0.05,那置信度就是0.95,也就是说,如果我们容许自己出错的几率是5%,那我们将得到一个有 95% 的可能性包含真实的总体均值区间范围,如果你把这个 α 调整成0.07,那你的置信区间的置信度将变成93%。
由于 α 是我们自己设置的,那么当然需要通过数据去验证一下,这个通过计算出来的值就是 p-value , p 的定义就是,如果两个版本无差异的前提下,我们得到这个试验数据的概率。
p-value 是计算出的, α 是我们自己设定的。
p <= α 则意味着我们的测试得到了统计显著的结果, 因为只有我们得到的这个 p 的概率越小,我就可以越有信心的地根据小概率事件不会发生的判断依据,从而推翻原假设,接受备择假设。(假设 p 值0.04 那么意味着如果原假设为真,我们通过抽样得到这样一个样本数据的可能性只有 4%。则我可以认为此次试验发生了小概率事件。根据小概率事件不会发生的判断依据,我们可以反证认为原假设不成立,接受备择假设的事实。)
p 值核算涉及样本均值,样本数量,和标准差。