最近,A/B测试在互联网各界都受到了甚至是不公正的批评。这些批评包含了A/B测试的一些相关要点,但基本论点是站不住脚的。这些批评混淆了(例如,测试红色与路色按钮的区别或是其他)与A/B测试方法之间的关系。现在让我们看下最近在网络上的些争论,为什么他们的批评是没有根据的。
争论一:A/B测试与局部极小化
Jason Cohen在他的文章《Out of the cesspool and into the sewer: A/B testing trap》 | 中文翻译版本:《[译文]小心A/B测试的陷阱:从水沟流入下水道的水》中认为:A/B测试往往得到的结果是局部最小值,而非真正想得到的全局最小值。对于那些把页面上每个区块作为提升转化率的部分,而又不清楚局部最小值与全局最小值区别的人来说。这就好比说,在网页里每个区块都是都是个变量:这些的数值自然越低越好。通过下面来自jason Cohen的图 ,就可以知道出局部最小值与全局最小值的区别。
即便是在jason文章里,争论的焦点也不在于A/B测试,因为激进的调整页面并使用相同的测试方法也可得到全局最小值。因此声称局部最小值是A/B测试陷阱是不公平的,因为这与A/B测试方法根本就没关系。相反,在争论中却揭示出微调并做测试的方法是徒劳无功的。
那么,如果A/B测试没有问题,那么是局部最小值的问题吗?即便打了折扣的局部最小值的理论是错误的,答案依旧是否定的。上面的图片展示了非常浅显易懂的一维度曲线。你可以把x轴当作背景色y轴当作跳出率。Jason的文章可以归纳为:如果测试了一组不同的蓝色,你可能减少跳出率。但如果你尝试着将颜色改掉(例如,黄色),你可能会得到可能是最低的跳出率。
下面是本争论的两个问题:
1、你永远都不知道是否已经得到了全局最低值
全局最低值仅存在于理论中。让我们继续之前的改为黄色背景得到跳出率全局最小值的范例。在进一步的测试中,如果我们发觉没有背景色得到更低的跳出率该怎么办?或者放置张可爱小猫的背景得到更低的跳出率呢?问题的关键点在于,除非可以把跳出率降低到0%(或转化率达到100%),否则你将永远怀疑自己是否达到真正意义上的全局最小值。
另一个检测是否找到全局最小值的方法是穷举所有可能性。理论上,你页面仅修改背景色(你不能使用背景图片,因为你老板讨厌用背景图)。那么你可以将所有可能的颜色尝试一遍并取其中最小值的方案。在穷举所有可能色彩中,那个得到最小值的背景色就有可能是全局最小值。这就带出了下一个问题…
2、这不仅仅是背景色的问题
当优化页面时,你需要面对成百上千的变量(背景色只是其中的一个)。标题、文案、布局、页面长度、视频、文字颜色、图片这些仅是其中的一小部分变量。优化页面取决于页面所有的一切。这意味着之前看到的曲线不只是我们所见到的一维的。在现实中,它是被上千个变量影响着的多维结构。
再强调一下,把图中的山峰想像成你的转化率(或是跳出率),变量在不同的维度上(尽管貌似就只有两个变量,但事实上有上百个)。与一维的例子不同的是,在真实页面上穷举所有可能性是不可能的。因此,你不必刻意去追求全局最大(最小)值。吸取教训:接受局部最小值。
争论二:A/B测试的细微改版
SEOMoz的Rand Fishkin写了篇《Don’t Fall Into the Trap of A/B Testing Minutiae》 | 中文翻译版本:《[译文]不要落入A/B测试的局部最小值陷阱中》的文章,在文中他重申了Jason关于不要浪费时间在测试页面细小元素上(如,标题,文字等)。他的主要论点是:使用细微改版得到局部最大值的方法花费了太多精力和时间,这样做并不值得。下面的图片来自他的博客,稍有调整。
首要指出的是机会成本不是需要足够的时间来测试(这可能需要以几周时间),而应该是设置测试的时间(这需要几分钟)。一旦设置好测试,就几乎是自动的,其风险仅是设置测试时花费的时间。如果,投资15分钟的时间可以进行次按钮颜色测试最终的结果可以提升1.5%的转化率,这还有什么错误吗?
许多A/B测试工具(包括我启动的visual website optimizer)可以很容易的进行小的测试。这些测试工具可以在后台监测测试,如果结果不理想就会自动停止。那么做这样的测试会有什么样的风险呢?我只看到好的一面:增加了销售额与转化率。
Rand为了证实自己的观点,他给出一份最近的Basecamp 首页重新设计稿,该设计将Basecamp转化率提升了14%。你能想像得到进行这样的一次重新设计(相比于改变按钮颜色测试)所带来的影响吗?事实上,由于曲线是在于多维度上的,一个完全的重新设计有很高的失败概率。复杂的重新设计导致失败的可能性要比改动一个按钮的颜色大得多。因为我们从来没有听说过重新设计导致失败的案例眼睛,我们也不能就此认为版面大幅度的改动要比版面微调的效果好(尤其是,版面大幅度改动所需要的投入与时间要比版面微调多得多)。
通过局部最小值,你至少知道转化率正在增长,这是往增长利润前进的方向。但这并不代表说将放弃追求全局最小化的目标。全局最佳就像是世界和平:很难达到目标,但我们一直朝着正确的方向努力。要吸取的教训是:理想的策略包含了小测试(红色与蓝色对比)与版面大幅度改动这两者。跳过转化率曲线山脉,可以确保你不断的找到更好的转化率。
争论3:
Jeff Atwood 写到电影《偷天情缘》( 译者注:电影中的男主角是个气象预报员,在去一小镇报导当地的土拨鼠日庆典后。第二天醒来发觉时间依旧停留在前一天的土拨鼠日。昨日的一切又重复上演。无论他如何选择渡过这一天,他都无法前进一步。 )与A/B测试相比,得出结论由于男主角失败了所以A/B测试也会失败。在jeff的所有比较中,他认为A/B测试缺乏激情并且扼杀创造力。他继续引用Natha Bowers的一tweet: