大词汇连续语音识别


  在语音识别中最具有挑战性的是大词汇量、非特定人的连续语音识别(Large vocabulary continuous speech recognition, LVCSR)。有研究表明大词汇量、非特定人的连续语音识别系统的词误识率大体为小词汇量、特定人的孤立词识别词误识率的数十倍左右。包括不同的说话人的说话方式、方言和口音、环境噪音、传输信道等等都是LVCSR所面临的主要挑战。

  深圳市智能媒体和语音重点实验室在带口语普通话LVCSR方面有长期的研究。方言和口音是各种语言普遍具有的共同现象,而在汉语中尤为多样化和明显。中国分布着7大方言语系,约206种方言。在实际生活中,能够说一口标准普通话的人并不多见。我们的团队在语音和语言学多层面系统的研究了中文自发式语音识别中发音变化问题,并对口音变化问题进行了探索性研究。当前我们已经对于多口音和混合口音的连续语音和短语识别进行了系统深入的研究,在国际一流期刊上发表了多篇高质量论文,已被国际知名的大学和研究机构引用。

  我们还具有在噪声环境LVCSR方面的优势。实际的语音中往往还掺杂着其它声音和信号,比如商场里嘈杂的人声、麦克风和电话信道引入的信号畸变和串扰等等。鲁棒性语音识别一直是影响语音识别系统能否实际应用的关键因素,作为语音识别的一个基本问题,是当今面向应用的语音识别研究的重要目标和方向。我们在噪声条件下的VAD、特征提取、搜索算法和后处理方面都有长期的研发,具有业界领先的识别引擎,在噪声条件下具有极佳的识别率。提高系统强健性,提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定是本我们一直努力的目标。