视频检索/音频检索--深圳市智能媒体和语音重点实验室

视频检索/音频检索

　　随着网络时代的到来，互联网中的各种信息呈现爆炸式的增长。个人越来越多地要经由互联网操作各种各样的远程信息资源，政府部门要采用电子政务来方便群众和改善行政效率，企业要采用网络呼叫中心来服务客户和加速商业进程。在互联网络上的各种信息资源中，语音和音频（包括视频信息中的音频部分）是其中重要的组成部分之一，因此基于音频的多媒体检索显得越发的重要。

　　深圳市智能媒体和语音重点实验室在多年语音技术研究的基础上，结合服务行业实际业务的特点和需求，率先开发了面向海量多媒体内容的检索系统，让客户可以像使用“谷歌”、“百度”的文本检索一样方便地对多媒体内容进行检索。为了使客户得到更便捷的服务，系统拥有面向行业定制的应用接口：可根据行业媒体资产管理和个性化服务的要求，定制可扩展的输出接口。灵活的接口模式：支持各种常见的视音频格式和多种API开发接口，可满足多种开发和应用集成环境的要求。

特点：
1.不同协议与编码形式的语音资源信息获取
能够对一定区域范围内互联网上的网站进行全面的快速搜索；对不同来源、不同格式、不同信道等语音及音频资源进行获取；

2.基于内容的语音检索
通过对特定内容音频信息（或者敏感信息）的检索，实现对网络复杂海量语音信息的检索和定位，并且对定义的关键词对应语音进行有效检出；

3.稳健的音频分割和分类技术
实现了一个多特征、多分类器的盲分割前端，基于MLP/SVM的融合器得到最后的分割分类结果。基于音素图的两阶段关键词检索技术：预处理进行连续语音识别的结果组织成多候选拼音图－作为元数据，并建立内容索引。

4.海量语音支持和多格式
支持的格式包括常见的电信应用和媒体应用的格式，如音频编码PCM、u/A-PCM、ADPCM、mp3、vox、GSM、AMR，视频编码 MJPEG、MPEG1/2、MPEG4(SP/ASP)、H.264/AVC等编码格式。中文、包括带口音中文语音支持：经过长时间的研究，将语音识别技术中的发音变化的研究工作扩展到中文方言和带口音语音识别方向，重点研究了广东话和多种北方话带口音语音中的发音变异。