一种常见的AB测试误区分析(4)

发表于:2017-01-13来源:吆喝科技作者:吆喝科技点击数: 标签:AB测试
两个t是给定显著性水平/2和统计功效1-的t统计量 听起来痛苦,你甚至可以考虑把试验效果的当前估计值去除掉,直到试验结束再显示。如果该信息用于提

 

两个t是给定显著性水平α/2和统计功效1-β的t统计量
听起来痛苦,你甚至可以考虑把试验效果的“当前估计值”去除掉,直到试验结束再显示。如果该信息用于提前结束试验,则报告的显著性水平毫无意义。

 

如果你真想把这事做对:事先固定样本大小可能令人沮丧,如果改动后效果确实不错,难道不应该立刻部署吗?这个问题长期困扰着医学界,因为医学研究人员通常希望在新的疗法看起来有效时停止临床试验,但是他们还需要对其数据进行有效的统计推断。下面是两种用于医学试验设计的方法,有些部分应该也适用于网页试验:

 

序贯分析试验设计:序贯分析试验设计让你可以预先设定检查点,决定是否继续试验,给出正确的显著性水平。

 

贝叶斯试验设计:贝叶斯试验设计让你可以随时停止试验并给出正确推断。实时反映网页试验的状态,贝叶斯方案看起来是未来发展方向。

结论

虽然数据面板看起来很强大和方便,但在进行中的A/B测试中被滥用。任何时候,当它们与手动或自动的“停止规则”结合使用时,显著性检验结果会无效。除非在软件中实现序贯分析或贝叶斯实验设计,否则任何运行网页试验的试验者都应该只在样本量已经提前固定的情况下进行试验,并且像虔诚的教徒一样坚持该样本量。

原文转自:http://www.appadhoc.com/blog/a-mistake-analysis-of-abtesting/