科学“证明”的本质与软件开发

发布: 2008-8-15 18:12 | 作者: 网络转载 | 来源: developerWorks | 查看: 23次 | 进入软件测试论坛讨论

近期发生在Kansas和Pennsylvania的对以教授智能设计取代达尔文的自然选择理论（或者不十分准确地说，进化理论）的反对正在不断升温，但是却没有带来多少启发。这场辩论——如果我们可以这样称呼——似乎已经蜕化为双方各自为其理念布道。本文的目的不是陷入泥潭重新探讨这场争论，而是，我对这次混乱的一些相当令人尴尬的副产品有所感触。

我清楚地感到在很多人头脑里，“科学理论”与“科学定律”的区别是混乱的，他们感到疑惑：“科学理论需要什么才能被认为是真实正确的？”

我将尝试解释为什么这是一个错误的问题，因为我们永远无法用实验来“证明”一个理论。我将通过深度探讨科学证明的本质进行解释。然后我将说明这些原则可以怎样以一些有趣而出乎意料的方式应用到软件开发中。

背景

当你寻找解释某事的理论时，最好的情况是你找到了一个非常通用的理论。也就是，你的理论在任何时候，任何情况下，无一例外地都是适用的。如果你找到了这样一个理论，你可以这样开始描述它：“以下的结论是永远真实的。。。”

实际上，尽管科学研究已经持续了几千年，我们只有非常少的这种永远真实理论。几乎所有理论有其“应用范围”。例如，今天我们知道牛顿于十七世纪建立的经典力学理论在我们达到原子级时就不再适用了。在原子级上，经典理论不再作出精确的预测，我们需要另一种理论，量子力学，来解释发生的现象。类似地，在速度与光速相比非常低的时候，经典理论可以很好工作；当达到或接近光速时，我们需要爱因斯坦的狭义相对论进行预测。因此，需要注意理论只在特定领域里是“正确”或“非常接近正确”的。在这一领域外我们就需要其它理论，而该理论的适用范围可能包含也可能不包含原理论的适用范围。因此有时我们有一些“更通用”的理论，其他的理论只在某些限制条件下是正确的。

当然，如果你有一个你相信是“通用”的理论——也就是，它适用于所有情况——你必须对它进行测试。科学在本质上是一种实验过程，而测试一个通用理论包括逐渐扩大边界，持续消除限制条件，以证明理论确实对所有情况都是适用的。

实验结果

一个科学实验定义了它所进行的适用范围。被限制在适用范围中的实验得到符合或是不符合理论的结果。这些情况被总结在一个2x2的矩阵中，如图1所示。

图1：理论和实验

当然，在实际世界中，我们无法知道我们在矩阵的左边还是右边——我们不知道理论是否正确。我们通过做实验能知道的所有事情是，实验结果符合或是不符合提出的理论；也就是说，我们可以“看到”图表的上半部或是下半部。让我们分析这四种可能结果。

在实验符合理论的情况下（由图1的上半部示出），我们有两个可能相关也可能不相关的结果：

A. 理论是不正确的，或受限的，但是还没有实验，包括我们刚刚完成的实验，推翻它（左上的情况）。

B. 实验表明理论是正确的，理论在接受程度甚至适用范围上有所增长（右上的情况）。
在后面我将对这两种结果作进一步解释。

在实验不符合理论的情况中（由图1的下半部示出），我们要考虑两个冲突但重要的情况。结果与理论是不一致的。这意味着以下二者之一：

C. 理论是正确的，实验有错误（右下的情况）。

D. 实验是正确的，理论必须被推翻，修改，或加以限制（左下的情况）。
让我们先来看看后两种结果。

不符合理论的实验

很明显，结果C是非常危险的，因为仅仅一个“反面数据点”就可以歪曲理论。在所有情况下，如果实验者犯了错误，我们无一例外地得到错误的结果。这就是检查和再检查实验工作，由不同的科学家在不同的实验室重复实验以发现我们是否得到“复制”的结果非常重要的原因。但是让我们把注意力集中到结果D，它有两种子情况：

D1：理论在广义上是错误的。

D2：该实验表明理论在应用范围外的某些区域是错误的。
也就是说，该实验发现了一个新的理论不适用的领域。在先前测试的更为严格的领域中理论可能仍是正确的。这就是我们对理论有三种选择——推翻，修改，或对新的范围加以限制——的原因。

在有些时候，科学界不愿意基于一个相反实验推翻一个已被接受的信条。通常理论被修改或“打上补丁”来适应新的数据。只有在出现了若干否定实验和多个补丁后科学界才开始寻找一个能够解释所有结果的更好的理论。这是Thomas Kuhn在其著作科学革命的结构中的发现，在书中他引进了一个“规范变化”的概念。

符合的实验

现在让我们回到图表的上半部。我们达成了一致并且愿意相信实验；也就是说，我们没有理由怀疑实验有错误。这就意味着理论是“正确的”吗？

当然，如果理论就是基于可证实的真理（右上的情况）的，我们就得到了一致的结果。我使用了“可证实”的真理，因为有些理论在实现获得必要的客观性的技术突破前是无法被证实的。例如，地球是圆的是一个古希腊人的理论，1但是现代宇宙飞行使这一理论成为了一个可见的事实。因此，在我们不再需要“实验”来为理论提供更多证据之前，我们拥有的只是一些“正面数据点”，它们充当了我们相信理论与真理的方向是一致的的理由。也许该实验扩展了理论的适用范围，因为先前没有实验证实了理论在该范围内适用。因此尽管实验结果增加了我们对理论的信心，它永远不能“证明”理论对所有情况都是正确的。这是因为没有实验能在所有情况下验证理论——它所能做的只是在一组特定情况下验证理论。

最后一种情况，也就是左上的情况是怎样的呢？在这种情况中，验证的理论是不正确的，但是实验并没有显示矛盾。问题出在哪里？最有可能的情况是理论并没有在其不适用的领域被验证。实验被限制在理论仍然适用的领域里了，因此我们所做的只是“证实”了理论在该限制领域内适用。当我们进入没有进行实验测试的领域时，所有的猜想赌注都结束了。这就是为什么在它们被广泛应用前理论会多年停留在“实验证明”的状态。这是因为还没有实验在理论将会失败的领域内测试它们。多数科学研究包括“扩张界限”，于是一个理论的适用范围将包含越来越多的空间。一般地，将一个理论扩张到足够的空间需要几十年甚至上百年间大量实验的共同工作成果。而且有时要由一个十分新颖的实验来发现一个建立了很长时间的理论一组的需求领域。

随着越来越多的可获得空间被填充，理论获得了增加的正确性并逐渐形成了我们称之为定律的东西。例如，我们谈论牛顿的万有引力定律，它说的是两个物体之间的吸引力与它们质量的乘积成正比，与它们之间的距离的平方成反比。要使这一描述过时，我们必须进行一个产生与理论不符的结果的实验。

但是即使在这里也有争论；在理论级上协调万有引力定律与量子力学一直是很困难的。这实际上并没有动摇万有引力定律作为“定律”的地位；只是人们认识到在非常小的距离内，其它力变得更为重要。

预测的作用

理论应该不仅“解释”通过实验获得的后验数据。一个好的理论应该能够预测先验数据，实验结果将会是怎样的。如果得到的结果与预测是一致的，我们就有了支持理论得更强有力的论据。非常好的理论基于很少量的假设有很强的预测能力。而较弱的理论即时在有很多仔细“调整”过的输入参数的情况下仍然不能做出好的预测。换句话说：留神那些有太多“旋钮”的理论。在某种意义上，这就是实际中的奥卡姆剃刀：相对复杂的理论，我们更倾向于喜欢简单的理论。并且我们必然对那些提出了很难度量或者根本无法度量的机制——比如，以太，就是量子力学中所谓“隐藏变量”——的理论有所偏见。

John Walker指出，在观测科学中，比如天文学和宇宙学，人们无法进行实验，而必须通过根据理论做出预测然后检查预测与观测结果是否吻合来测试理论。这有时被称为“追溯”。例如，大爆炸理论对原始时期氢气，氦气和氘的大量存在做出了非常精确的预测。精确性度量很可能歪曲这一理论，尽管从某种意义上来说，实验只在130亿年前进行过一次。

下面是到目前为止我们主要探讨的内容小结：