声音识别及其在安防等方面的应用 - 安防知识网

大家知道，在现代的信息社会里，信息的载体有语言文字、声音、图像以及影视等等。

【安防知识网】大家知道，在现代的信息社会里，信息的载体有语言文字、声音、图像以及影视等等。但信息的主要载体是语言及文字，它传递的信息占全部信息量的80%以上。因此应用计算机对语言文字进行处理，以更充分地利用信息资源具有十分重要的意义。由于语言现象所特有的多样性、不确定性和模糊性，语言信息处理，特别是自然语言的识别、理解和生成的研究，一直是而且至今还是最具有挑战性的一个学术领域，因而对声音识别技术的研究，具有重要的学术意义与社会意义。

　　声音识别技术就是让机器通过识别和理解把声音信号转变为相应的文本或命令的高技术。构成声音的独特性原因与发声的生理原因有关。人的语言产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，身体在讲话时使用的器官，如舌、牙齿、喉头、肺、鼻腔等，在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。所谓声纹，就是用电声学仪器显示的携带言语信息的声波频谱。发声的原动力是呼吸产生的气流，我们说话时用从肺呼出来的气流，经过支气管、气管后，在喉下的声腔增加压力，冲出声门，再由喉、鼻共鸣，并由舌、齿、唇等的位置和形状的变化改变音调。

　　此外，每个人的发音器官发出的清晰声音并非天生，而是经由不断学习改变错误而形成。两人以同样方式运用其发音器官是微乎其微的，因此每个人发出声音各不相同，即使是克隆人也会有所不同。

　　每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，在一般情况下，声纹的鉴定仍能区别不同的人或法定是同一人的声音，从而可以进行个人的身份识别。

　　语音是最方便、快捷、自然的人际交流手段，采用语音作为人与计算机交互的手段，使计算机能像人一样，具有听、说和理解能力，这是人们长期以来梦寐以求的事情。近二十年来，声音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，声音识别技术将进入工业、家电、通信、安全防范、汽车电子、医疗、家庭服务、消费电子产品等各个领域。很多专家都认为声音识别技术是21世纪前10年将对人类生活方式产生重大影响的十大重要的科技发展技术之一。

　　下面介绍声音识别系统的组成、原理、类型、优缺点、制约其发展的关键，声音识别在国内与我所取得的成果以及在安防等方面的应用等。

　　声音识别系统的组成、原理及类型

　　组成与工作原理

　　声音拾取设备(即麦克风)不断地采集声音信号，声音识别设备不断地测量、记录声音的波形和变化。实际上，声音识别主要是基于将现场采集到的声音同登记过的声音模板进行精确的匹配。其具体组成与工作原理框图如图1所示。

　　由图1可知，人的声音首先通过拾音器(即麦克风)拾取，特征参数提取单元检索出表现声音信号的声学特殊参数，经计算机声学模型的处理，使之成为与声音数据厍所贮存的声纹图谱相同的模式，然后用新采集的与贮存的声音模板进行对比识别，最后输出识别的结果。

　　从框图看，一个声音识别系统需要很多单元组成，但硬件设备实际只有麦克风与计算机两部分。因为声音识别主要是计算机或者程序，接受和解释口述或者理解并执行语音命令的能力。对于计算机的使用，模拟音频必须转换成数字信号。这要求进行模拟数字转换。用计算机解释信号，它必须要有一个数字数据库或者词典，并拿它来与收到的信号作比较。语音元素存在硬盘上并在程序运行的时候被加载到内存里。比较程序将检测存储的元素和来自A/D转换器的信号。

　　用计算机进行声音识别也是一个模式识别匹配的过程。在这个过程中，计算机首先要根据人的声音特点建立声音模型，对输入的声音信号进行分析，并抽取所需的特征，在此基础上建立声音识别所需的模板。而计算机在识别过程中要根据声音识别的整体模型，将计算机中存放的声音模板与输入的声音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入的声音匹配的模板。然后，据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、声音模型及其好坏、模板是否准确等都有直接的关系.

　　系统类型

　　声音识别系统被分为文本相关和文本无关的两类：

　　1、文本相关系统

　　文本相关系统要求使用者重复指定的话语，通常包含与训练信息相同的文本。文本相关的识别方法多采用动态时间伸缩法或隐马尔可夫模型法：动态时间伸缩法使用瞬间的变动倒频，其倒频谱的计算通常使用快速付立叶变换;隐马尔可夫模型法使用较成熟，它运用该模型测量频谱特征的统计变量，应用较多。

　　2、文本无关系统

　　文本无关系统则没有文本相关系统那样的限制，但不一致的环境造成的性能下降是其应用中的障碍。文本无关系统的识别方法采用平均频谱法、矢量量化法与多变量自回归法：平均频谱法使用有利的倒频距离，用平均频谱除去语音频谱中的音位影响;矢量量化法是用一套短期训练的特征向量来直接描述声音的本质特征，但存贮和计算的量大，需寻找有效的方法来压缩训练数据;多变量自回归法是在倒频向量的时序中，用多变量自回归模式来确定声音特征，其效果较好。

　　[nextpage]声音识别的优缺点

　　1、声音识别技术的优点

　　·同面像识别与步态识别一样，声音识别也是一种非接触的识别技术;

　　·由于大多数的计算机都有声卡和麦克风，因而有廉价的硬件设备;

　　·声音识别系统使用方便、简单，用户易于接受;

　　·微型拾音器易于隐蔽，能方便用于窃听，以鉴别是否罪犯等。

　　2、声音识别技术的缺点

　　·声音会随着音量、速度和音质的变化(如同一个人感冒、情绪压力或青春期引起的变化)，而影响采集与比对的结果;

　　·和其他的行为识别技术一样，声音因为变化的范围太大，故而很难进行一些精确的匹配，因而比指纹识别误识率高;

　　·能伪造，如容易用录在磁带上的声音欺骗声音识别系统，所以安全可靠性较差;

　　·目前非常好的高保真的声音采集装置——麦克风还比较昂贵。

　　制约声音识别技术发展的关键

　　实际上，人们很早就认识到声音识别对于人类生活的重要性。如世界上第一台计算机问世之后，马上就有人想到要让计算机听懂人说话。因此可以说，声音识别的研究历史与计算机的发展历史一样长。而计算机的发展已经经历了好几代，今天已经进入到了普通家庭。但是，声音识别方面的产品却迟迟未能进入市场。

　　一个声音识别系统性能好坏的关键，首先是它所采用的声音模型能否真实地反映声音的物理变化规律。但声音信号与人类的自然声音都是随机的、多变的和不稳定的，因此很难把握，这就是目前声音识别过程中的最大难点。

　　其次，模板训练的好坏也直接关系到声音识别系统识别率的高低。为了得到一个好的模板，往往需要有大量的原始声音数据来训练声音模型。因此，在开始进行声音识别研究之前，首先要建立起一个庞大的声音数据库。一个好的声音数据库包括足够数量、具有不同性别、年龄、口音的说话人的声音，并且必须要有代表性，能均衡地反映实际使用情况。

　　有了声音数据库及声音特征，就可以建立声音模型，并用声音数据库中的声音来训练这个声音模型。训练过程是指选择系统的某种最佳状态(如对声音库中的所有声音有最好的识别率)，不断地调整系统模型(或模板)的参数，使系统模型的性能不断向这种最佳状态逼近。这是一个复杂的过程，要求计算机有强大的计算能力，并有很强的理论指导，才能保证得到良好的训练结果。

　　实际上，制约声音识别技术发展的关键是其依据的模型和算法，模型算法是计算机描述声音的能力能否抓住人的声音的本质的关键。在声音识别领域，固然有资金实力、人力资源等的竞争，但最根本是其关键核心技术——模型和算法的竞争。

　　在声音识别应用领域，有许多相关技术直接影响着客户的最终体验，并关系到应用系统的使用效果，也就是自动化率(automation rate)，即系统毋须人工干预独自完成的比例。例如端点检测及相关问题，噪音环境下的声音处理，系统结构，对口音的适应性及声音界面的设计，都是声音识别整体应用系统需要考虑的。

　　声音识别在国内所取得的成果

　　计算机自动声音识别就是让计算机能听懂人说话。这一问题曾经被一位知名的美国教授称之为是“比登月还难”的科学难题。其实，人们很早就认识到声音识别对于人类生活的重要性。世界上第一台计算机问世之后，马上就有人想到要让计算机听懂人说话。所以说，声音识别的研究历史与计算机的发展历史一样长。计算机的发展已经经历了好几代，今天已经进入到了普通家庭。但是，声音识别方面的产品却迟迟未能进入市场。

　　我国声音识别研究工作起步于五十年代，但近年来发展很快，研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后，我国声音识别技术的研究水平已经基本上与国外同步，在汉语声音识别技术上还有自己的特点与优势，并达到国际先进水平。其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

　　清华大学电子工程系语音技术与专用芯片设计课题组，研发的非特定人汉语数码串连续语音识别系统的识别精度，达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下，系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串)，这是目前国际最好的识别结果之一，其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%，前三选识别率达99.96%;并且可以识别普通话与四川话两种语言，己基本达到实用要求。

　　国内研发的第一块语音识别专用芯片，以8位微控制器(MCU)为核心，加上低通滤波器、A/D、D/A、预放、功率放大器、RAM、ROM、脉宽调幅(PWM)等模块，构成了一个完整的系统芯片。这种芯片包括了语音识别、语音编码、语音合成功能，可以识别30条特定人语音命令，识别率超过95%，其中的语音编码速率为16kbits/s。因此，该芯片可以用于智能语音玩具;也可以与普通电话机相结合构成语音拨号电话机。这些系统的识别性能完全达到国际先进水平，一些应用型产品正在研发中，其商品化的过程将越来越快。

　　由于一些微型机器，如手机、掌上电脑等体积较小，难以设计键盘输入复杂指令，而语音识别恰能实现这一需求。但中文语音识别产品一直由外国大公司垄断，中科院研究人员针对汉语声调、口音和语言特性进行了大量创新，攻克了语音识别领域最难的非特定人汉语6万词连续语音技术。在同等测试条件下，中科院开发的这项技术在识别性能上优于跨国公司公开发表的结果。其中文语音识别软件，对普通话的识别率可达95%以上。具有自主知识产权的语音技术，一定会像汉字识别技术一样不但在技术上取得成功，而且在产业化和市场化上取得突破，从而进一步奠定中国在中文信息处理上的优势。

　　目前，自动化所控股的中科模识科技有限责任公司，己同其他公司合作开发了基于中文语音识别技术的移动电话语音交互系统、互联网中文多模态交互平台、智能家居声控系统、电话股票查询系统、电视机中文语音遥控器等。

　　尽管有关声音识别技术的报道屡见不鲜，国内外学者也为此作了不懈的努力，但目前声音识别系统的识别率还比较低，现在均在进行深化与实用化的研究。相信不久，会有比较好的实用产品出现。