尽管在IP系统下有各式各样的语音识别设备,仍然存在的问题就是,自动的语音转换软件无法使VoIP的用户听到电子邮件,或者其他形式的文本信息。但是毋庸置疑的是,这样的功能是非常有用的。
对于语音识别系统文本到语音(text-to-speech)的了解,可以帮助我们了解现存的一些技术上的障碍。一些技术通常被叫做语音合成技术,其中包含着许多有趣的部件,通常来说,把文本转化为声音的工作是按照下面的程序来完成的:
一些应用软件为合成过程准备文本文件,之后,一个特殊的叫做语音合成引擎的程序会把文字变成声音(声音元素),和一些重读和升降调的声音元素。
然后,这些声音元素就被合成为了一串数字声音。
数字声音通过一个放大器然后由扬声器播放出来(一般都是音箱或者是耳机,特别是对于VoIP的用户)。
整个过程中最有趣的部分就在于VoIP下的工作,这需要一些设备或者服务。比如说在呼叫处理终端(在这里VoIP的用户能够获得数据),文本到语音的转换会按照要求工作或停止,或者先执行并以声音格式保存(当预先定义的服务存在,并且预先配置执行时)。
因为保存声音文件需要很大的磁盘空间,而且实际上和可视的文本文件相比用户也并不经常需要一个声音文件。其实,文本到语音的转换最大的效用是在于实时地对文本进行语音的转换。比如说语音计时。
这项技术的潜在用户有很多,最常用并且最广泛使用的一些功能是通过电话(和VoIP)的连接访问文本电子邮件的语音版。这样一来Outlook Exchang的智能信息环境比如说Asterisk, Cisco Unity(ViewMail工具),以及Avaya Unified Messenger都能够为企业级的用户提供不同等级的语音转换服务。对于那些小型的或者是个体的用户,Outlook的许多语音信箱插件,比如说CallAudit Voice, PhoneMax, RVS-COM, 以及Simply BitWare都能够把Outlook信箱的内容进行语音合成和处理。
以上所述的技术中最关键的部分就在于文本到声音的转换,这也是语音合成意义之所在。从某种程度上说,通过VoIP听到文本信息只是这个功能的一方面体现,从最基本的使用角度来说,它的实用不仅局限于此。