“Siri中文版”科大讯飞发布语音云平台(2)

发表于:2012-03-23来源:爱范儿作者:爱范儿点击数: 标签:Siri中文版科大讯飞语音云
柳传志也以自己的经历,勉励创业者保持专注: 身边很多朋友赚了很多钱,我也可以赚很多钱。当年96、97年民生银行投资的时候,我被认为最有可能第一

  柳传志也以自己的经历,勉励创业者保持“专注”:

  身边很多朋友赚了很多钱,我也可以赚很多钱。当年96、97年民生银行投资的时候,我被认为最有可能第一个投资的,但我没投。据别人替我估算,如果当时投了那 1 亿多,现在的回报是 2000 多亿,我觉得我不必后悔,身边不断有这样的事儿出现,你说它是好事,它是坏事?这还真不好说,因为我投资赚了这笔钱以后,我也许会想去投房地产、去做别的更多的事,电脑这条路可能做不成,也许到最后什么都可能做不成。

  李开复谈语音识别技术

  李开复是第二名上场的嘉宾。众所周知,李开复是著名语音识别技术专家,谈到语音识别,当然少不了由他来现身说法。

  事实上,在讯飞发布会之前,李开复曾在微博上对市面上存在的众多“中国 Siri”提出四个疑问:

  1)智能手机主界面是手触,语音助手解决了什么真正用户需求和痛处?2)如何克服后台海量数据学习技术门槛?全球只有一个公司有这个技术。3)应用谁开发?自己开难扩张,用别人的应用整合不佳影响体验,4)语音服务器和带宽成本较大,如何克服?

  今天发布会结束后,李开复更新微博:“讯飞语点推出后,2、4由讯飞解决了”。

  事实上,在之前科大讯飞向爱范儿提供的独家稿件中,讯飞一一回答了四个问题,3 月 22 日发布会用实际产品进行了回应。详细内容见文末引用部分。

  李开复的“炉边谈话”提供了很多“专家式”的内容。简单整理成问答形式如下。

  问:我们看到讯飞语音识别的技术已经非常成熟,那么你认为“应用”的空间在哪里,未来语音识别技术还有什么挑战?

  李开复:云端识别技术,讯飞已经解决了。“应用”在哪里?这并不是一些专家在实验室里拍脑袋就能想到的。大家可以来试,可以在讯飞的云平台上试一试,可能成功的会比较少,但能够摸索到成功的应用的概率也会增加。

  语音技术方面,主要挑战还有三方面:

  一、语音识别相对容易,但语义理解相对困难。让软件听懂容易,但理解会比较难。

  二、如果能在一定程度上做到语义理解,那么怎么样让开发者介入不用太花时间?

  三、用户体验的期望值。语音是人类最自然交流的方式——与多点触摸不同,一旦人们开始使用语音交互,会有比较大的心理预期:我爱怎么说就怎么说,你应该能理解,这是一个比较长久的挑战。这中间,应该有巧妙方式来降低这种感受。

  问:语音技术里面,是不是使用的人越多,语音技术也会愈加成熟?

  李开复:当然了,更多人参与,获得更多自动回馈,可以实现一个良性的正向循环方。一个人能力有限,一亿用户,每人使用 3 秒钟,就是 3 亿秒,这个数据量是庞大的。实际应用中,正确的输入可以被视作是“一次正确训练和学习”,吸收改进;一个错误的结果,比如订餐时识别错误取消订单,可以视作“不正确的学习”,同样吸收改进。

  但这个比“听写”更困难:错了,是语音错了还是语义错了,或者其中一个正确、一个错误;对了,是语音对了语义对了,或者其中一个正确、一个错误。当回馈量大于累计量和使用量,可以让我们迈出一大步。

  问:什么样的语音应用是用户期待和接受的?

  李开复:我认为有三个方向。1,相对是语音识别,而非深度语义理解的应用,或者说“浅语义,深语音”。比如听写(Demo 中有提到教育领域的听写测试、KTV 评分、发短信、日程提醒),——输入法也很重要,这个比较保险。

  2,娱乐性应用,比如 Siri 这样的调侃调戏类应用。这种识别错了也无伤大雅,很爱使用。苹果很聪明,用调侃 Siri 录了很多语音,然后慢慢把真正的应用做好。

  3,在一些“眼忙手忙”的场景,这个时候语音需求就会很大,比如驾车的时候,这时候是不能多点触控的,这算一个“刚性需求”的场所。

  在这里我建议开发者:想把语音放进来的时候,不是那么容易,因为语音的 API 和语音的用户体验,比一般的 API 要难很多,比如百科全书类、地图、本地商家,O2O,线上模式拉来线下消费,因为有语义部分在里面,要花很多时间去把它调好,不能用简单的 API 随便联接起来。

  附:科大讯飞对李开复“中国 Siri 路在何方”的回应稿件

  第一,语音助手能够解决什么真正的用户需求?

  大多数人提到 Siri,第一印象就是调戏 Siri,但如果一个产品只是用来“调戏”,那这个产品充其量只能算是玩具,而不是人们所必须使用的语音助手。所以,Siri 的定位应该是解决用户的真正需求和痛处。

  可惜,目前 Siri 的模仿者大多视这个需求而不见,而是关注如何才能更好的“调戏”用户。相信只有真正做到解决用户需求的产品,才能够获得用户长久的喜爱,希望国内的开发者能够注意这个问题。

  Siri 想要实用,就必须调用开放数据的平台,而中国却没有 Wolfram Alpha 这种引擎,所以中文 Siri 想要真正解决用户需求,只能一家一家去谈,比如找大众点评、百科等。这是创业公司做不来的,而大公司(百度、腾讯等)来做,可能又存在利益冲突。

  第二,如何克服后台海量数据学习技术门槛?

  虽然李开复老师说全球只有一个公司有这个技术,而我们也不知道这个公司具体是指哪一个。但据我了解,在语音识别方面,科大讯飞是做的不错的,讯飞语音输入法的识别率已经达到 85% 以上。而且他们的语音识别是基于云计算实现的,应该是具备数据学习能力的。

  除了语音识别,还有一个难题是语义理解,这也是中文 Siri 的核心难题。让机器真正理解人的语言,这是一件很困难的事。就目前来看,苹果在英文方面都没有很好解决,不然也不会有用户要告苹果虚假宣传了。但苹果可以依靠“调戏”用户获得大量语料,然后学习后提升可用度。

原文转自:http://www.ltesting.net