图灵测试,测的到底是什么?(3)

发表于:2016-03-23来源:软件质量报道作者:Ent点击数: 标签:软件测试基础
不过上面的论证其实都有一个麻烦。这些说的都是理想的图灵测试,是1950年图灵给出的最原始形态。而2014年6月7日这个聊天程序通过的那个图灵测试,和

  不过上面的论证其实都有一个麻烦。这些说的都是理想的图灵测试,是1950年图灵给出的最原始形态。而2014年6月7日这个聊天程序通过的那个“图灵测试”,和1950年图灵心中的那个测试,并不完全是一回事。

  聊天机器人的“图灵测试”

  如果你刚才几部分的内容没忘光,可能还会记得,我们反复强调了图灵测试的准则是“计算机在智力行为上表现得和人无法区分”。

  但是现实中真要测的话总得有规章,而英国皇家学会的测试规矩是,在一系列时长为5分钟的键盘对话中,某台计算机被误认为是人类的比例超过30%,那 么这台计算机就被认为通过了图灵测试。尤金在2014年的成绩是在总计150场对话里骗过了30个评委里的10个,比两年前提高了4个百分点(所以严格来 说,并不是发生了什么大突破,只是在改良的过程中跨越了一个武断的阈值)。

  麻烦来了:尤金的设计思路并不是“一台在智力行为上表现得和人无法区分”的机器,而是一台“能够在5分钟长度对话内尽可能骗过人类”的机器。

  经济学有个所谓的古德哈特定律:一项指标一旦成为政策制定的依据,便立刻不再有效。政策制定者会牺牲其他方面来强化这个指标,使得这个指标不再具有指示整体情况的作用(原来软件度量失效,也是这经济学定律的魔力)。类似的道理勉强也可以套用到别的领域里。某种意义上尤金·古斯特曼就是例证——它不但是专门设计的聊天机器人、缺乏任何其他领域的智力能力,而且为了骗过人类,还被特意设定成一个13岁的非英语母语的小孩,以便在很多问题无法回答或者出现错误的时候,让裁判误以为这是因为它年龄小,而非因为它欠缺人性。

  其实在聊天机器人里尤金已经不错了,至少它没有话题限制。早年间一个著名的聊天程序ELIZA的一个脚本是冒充一位精神分析师,如果病人说“我头 疼”,它就会回以“你为什么说你头疼?”在这个子领域里它颇为逼真——可是这实在不能认为是表现出了类似人的智力活动。推特上曾有一个账号叫 @AI_AGW,寻找那些气候变化怀疑论者的言论然后给他们发科学论文链接辩论,有些怀疑论者根本没意识到这是AI,双方可以大战几十回合。网友们还开发出了“女神AI”、 “高冷AI”、“二逼AI”等等形态对其进行戏仿——但这些恐怕都不是图灵当初设想的人工智能形态。当然更不是科幻爱好者恐惧(或者盼望)的天网觉醒。

  也许要这样的人工智能才更接近图灵的本意吧……

  图片来源:xkcd,汉化:Ent

  无论是尤金的编写者还是程序的组织者,对此倒也心知肚明。编写者弗拉基米尔·维西罗夫说,“我们希望能借此激发人们对人工智能与聊天机器人的兴 趣。”而组织者凯文·沃里克说,计算机冒充人会带来网络安全的问题,“理解这类实时在线交流如何让人们对某些事信以为真并对他们造成影响,是非常重要的事 情。”没有人真的提到图灵测试本来的那个意义——判断计算机是否在思考;因为这也的确不是本来的那个图灵测试。

  有一些人认为现在的整个人工智能领域都背离了初衷,比如侯世达。 另一些人则认为图灵测试根本是无聊和过时的,和AI没有关系。有些人觉得现在的人工智能思路毫无问题,假以时日就能做出好用的AI。还有一些人认为强AI 根本就是不可实现的。作为一个旁观者,我肯定无力判断哪几种观点是对的,但从个人来说,我是真的希望能出现一个程序,以原本的意义通过图灵测试的最初版 ——不光是为了计算机和人工智能的进展,也是为了理解我们自身的大脑。说到底,要弄懂一台机器的运作方式,还有什么办法比拆开来再装回去更好的呢

  如还有时间,还可以看看其它文章:

  图灵测试与人工智能

  人工智能≠类人智能:超越图灵测试的世界观

  一个故意不通过图灵测试的人工智能

  《一个故意不通过图灵测试的人》-第2部分

  人工智能统治人类?反图灵测试在发展

原文转自:http://www.testwo.com/article/620