一种常见的AB测试误区分析(4)_软件测试工程师入门

刘慈欣谈ChatGPT：人类的无能反而

OpenAI 因使用“窃取”的个人数据

搜狐回应员工遭遇工资补助诈骗：

软件测试 > 测试技术 > 软件测试工程师入门 >

一种常见的AB测试误区分析(4)

发表于：2017-01-13来源：吆喝科技作者：吆喝科技点击数：标签：AB测试

两个t是给定显著性水平/2和统计功效1-的t统计量听起来痛苦，你甚至可以考虑把试验效果的当前估计值去除掉，直到试验结束再显示。如果该信息用于提

两个t是给定显著性水平α/2和统计功效1-β的t统计量
听起来痛苦，你甚至可以考虑把试验效果的“当前估计值”去除掉，直到试验结束再显示。如果该信息用于提前结束试验，则报告的显著性水平毫无意义。

如果你真想把这事做对：事先固定样本大小可能令人沮丧，如果改动后效果确实不错，难道不应该立刻部署吗？这个问题长期困扰着医学界，因为医学研究人员通常希望在新的疗法看起来有效时停止临床试验，但是他们还需要对其数据进行有效的统计推断。下面是两种用于医学试验设计的方法，有些部分应该也适用于网页试验：

序贯分析试验设计：序贯分析试验设计让你可以预先设定检查点，决定是否继续试验，给出正确的显著性水平。

贝叶斯试验设计：贝叶斯试验设计让你可以随时停止试验并给出正确推断。实时反映网页试验的状态，贝叶斯方案看起来是未来发展方向。

结论

虽然数据面板看起来很强大和方便，但在进行中的A/B测试中被滥用。任何时候，当它们与手动或自动的“停止规则”结合使用时，显著性检验结果会无效。除非在软件中实现序贯分析或贝叶斯实验设计，否则任何运行网页试验的试验者都应该只在样本量已经提前固定的情况下进行试验，并且像虔诚的教徒一样坚持该样本量。

原文转自：http://www.appadhoc.com/blog/a-mistake-analysis-of-abtesting/

软件测试 > 测试技术 > 软件测试工程师入门 >

一种常见的AB测试误区分析(4)

结论

相关文章

全网最详细的接口测试实战

先测试再开发？TDD测试驱动

自动化测试架构

软件测试架构师的知识能力

大数据平台测试方法

用不同的测试模型来构建测

当软件测试遇上ChatGPT：软件

软件测试用例评审说明

全网最详细的接口测试实战

先测试再开发？TDD测试驱动

自动化测试架构

软件测试架构师的知识能力

大数据平台测试方法

用不同的测试模型来构建测

当软件测试遇上ChatGPT：软件

软件测试用例评审说明

MBT基于模型的测试介绍资料

iso29119相关介绍性资料

HP QTP 10 中文版官方中文补丁

HP QTP 10 英文版下载地址

HP ALM 11 官方中文版下载地址

Quality Center 9.0中文版下载地

HttpWatch Basic Edition Version 7.

WIN2003+ORACLE11G+QC11(ALM11) 安装

WIN2003+SQL2005(SP3)+QC11(ALM11) 安

软件测试沙龙 More>>

新浪微博 More>>

热门标签

《测试团队的招聘与管理

《我们应该如何构建我们

软件测试 > 测试技术 > 软件测试工程师入门 >

一种常见的AB测试误区分析(4)

结论