VoiceXML(Voice Extensible Markup Language)是一个新的XMLschema,用来制定通过语音对话访问Web的内容及其交互语音应答的传递标准,从面向应用的角度来说,也就是开发语音用户界面。本文通过设计一个移动业务咨询系统来说明整个应用程序的流程。
1 VoiceXML的起源
VoiceXML(Voice Extensible Markup Language)是一个新的XMLschema,用来制定通过语音对话访问Web的内容及其交互语音应答的传递标准,从面向应用的角度来说,也就是开发语音用户界面。1999年3月,由Motorola、Lucent、AT&T和IBM四家公司联合发起成立了VoiceXML论坛(http://www.VoiceXML.org/),其目的在于为电话和移动设备提供一种便捷的访问Internet网络,获取服务和信息的手段。2000年3月,VoiceXML论坛发布了VoiceXML 1.0标准。5月,W3C(World Wide Web Consortium)接受了VoiceXML1.0。W3C于2004年3月17日又新通过了VoiceXML2.0标准。目前,由于VoiveXml技术和语音技术的快速发展,国内外共有150多家公司支持VoiceXML,Motorola、Lucent等公司已开发出了基于VoiceXML的产品。语音技术不但让那些由于环境或生理限制无法使用图形化浏览器的人得以访问Web,也为所有的用户提供了更为便捷的Web访问功能。
2 VoiceXML的系统体系结构
VoiceXML2.0(包括1.0)规范基于W3C工业标准XML,为语音和电话应用的开发者,服务提供商和设备制造商提供了一个智能化的API。VoiceXML的标准将简化WEB上具有语音响音服务的个性化界面的创建,使人们能够通过语音和电话访问网站上的信息和服务,同时与CGI(PERL,PHP,C,JAVA SERVLET等)的脚本结合在一起来检索后台数据库,访问企业内部网,从而最终将语音浏览器与微型浏览器融合在一起,实现计算机网络与电话技术的完美结合。其具体系统结构如下:
图1 VoiceXML的WEB体系结构
从图中我们可以看出,同传统的INTERNET网站相比,在不需要太大的改动前提下,只要增加一个VoiceXML的服务器处理来自PSTN(公用电话交换网)的应用即可。在VoiceXML的服务器中,包含了VoiceXML的解释器(VoiceXML解释程序语境)、VoiceXML自带的浏览器、自动语音识别(ASR)及文本到语音(TTS)的转换设备。
由此看出,基于VoiceXML的语音服务平台主要由三部分组成:文档服务器(通常都由Web服务器来充当,它负责产生VoiceXML文档,并将它送给解释器去解释);VoiceXML文档的解释器(它负责解释VoiceXML文档,向实现平台发送命令);实现平台(主要由三部分组成:电话平台、语音识别(ASR)、语音合成(TTS),它负责根据解释器的指令来同用户进行交互,并将用户的指令传给解释器。
文档服务器没有什么特殊之处,只是存放的文档类型不同而已。VoiceXML解释器是一个计算机程序,它解释一个VoiceXML文件,引导和控制用户与执行平台之间的交互作用。VoiceXML解释程序语境也是一个计算机程序,用一个VoiceXML解释程序解释一个VoiceXML文件,并且可以与执行平台相互作用而与VoiceXML解释程序无关。实现平台是语音服务平台的核心技术,其中ASR和TTS是属于语音信号处理范畴的,将会在下文中讲述它们。电话平台主要是接受用户的语音和DTMF信号并转换为数字信号,并提供与语音网关的接口以及信号通过网络传输交换等功能。
下图是整个VoiceXML程序工作流程:

图2VoiceXML程序工作流程
2.1 语音浏览器
新的语音技术可以创建出对话驱动的应用程序,例如语音识别技术(ASR),语音合成技术(TTS)以及记录和回放数字化语音在PC和服务器(分发到客户端设备)上。VoiceXML提供了一种与技术语言
上一页 下一页






