让机器听懂人类的语音,这是人们长期以来梦寐以求的事情。声音识别技术就是让机器通过识别和理解,把声音信号转变为相应的文本或命令而识别出人的身份的高技术。本文论述声音识别系统的组成、原理、类型、优缺点、及制约其发展的关键,以及在安防等方面的应用等。
大家知道,在现代的信息社会里,信息的载体有语言文字、声音、图像以及影视等等。但信息的主要载体是语言及文字,它传递的信息占全部信息量的80%以上。因此应用计算机对语言文字进行处理,以更充分地利用信息资源具有十分重要的意义。由于语言现象所特有的多样性、不确定性和模糊性,语言信息处理,特别是自然语言的识别、理解和生成的研究,一直是而且至今还是最具有挑战性的一个学术领域,因而对声音识别技术的研究,具有重要的学术意义与社会意义。
声音识别技术就是让机器通过识别和理解把声音信号转变为相应的文本或命令的高技术。构成声音的独特性原因与发声的生理原因有关。人的语言产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,身体在讲话时使用的器官,如舌、牙齿、喉头、肺、鼻腔等,在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。所谓声纹,就是用电声学仪器显示的携带言语信息的声波频谱。发声的原动力是呼吸产生的气流,我们说话时用从肺呼出来的气流,经过支气管、气管后,在喉下的声腔增加压力,冲出声门,再由喉、鼻共鸣,并由舌、齿、唇等的位置和形状的变化改变音调。
此外,每个人的发音器官发出的清晰声音并非天生,而是经由不断学习改变错误而形成。两人以同样方式运用其发音器官是微乎其微的,因此每个人发出声音各不相同,即使是克隆人也会有所不同。
每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。尽管如此,在一般情况下,声纹的鉴定仍能区别不同的人或法定是同一人的声音,从而可以进行个人的身份识别。
语音是最方便、快捷、自然的人际交流手段,采用语音作为人与计算机交互的手段,使计算机能像人一样,具有听、说和理解能力,这是人们长期以来梦寐以求的事情。近二十年来,声音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,声音识别技术将进入工业、家电、通信、安全防范、汽车电子、医疗、家庭服务、消费电子产品等各个领域。很多专家都认为声音识别技术是21世纪前10年将对人类生活方式产生重大影响的十大重要的科技发展技术之一。
下面介绍声音识别系统的组成、原理、类型、优缺点、制约其发展的关键,声音识别在国内与我所取得的成果以及在安防等方面的应用等。
声音识别系统的组成、原理及类型
组成与工作原理
声音拾取设备(即麦克风)不断地采集声音信号,声音识别设备不断地测量、记录声音的波形和变化。实际上,声音识别主要是基于将现场采集到的声音同登记过的声音模板进行精确的匹配。
人的声音首先通过拾音器(即麦克风)拾取,特征参数提取单元检索出表现声音信号的声学特殊参数,经计算机声学模型的处理,使之成为与声音数据厍所贮存的声纹图谱相同的模式,然后用新采集的与贮存的声音模板进行对比识别,最后输出识别的结果。 [nextpage]
一个声音识别系统需要很多单元组成,但硬件设备实际只有麦克风与计算机两部分。因为声音识别主要是计算机或者程序,接受和解释口述或者理解并执行语音命令的能力。对于计算机的使用,模拟音频必须转换成数字信号。这要求进行模拟数字转换。用计算机解释信号,它必须要有一个数字数据库或者词典,并拿它来与收到的信号作比较。语音元素存在硬盘上并在程序运行的时候被加载到内存里。比较程序将检测存储的元素和来自A/D转换器的信号。
用计算机进行声音识别也是一个模式识别匹配的过程。在这个过程中,计算机首先要根据人的声音特点建立声音模型,对输入的声音信号进行分析,并抽取所需的特征,在此基础上建立声音识别所需的模板。而计算机在识别过程中要根据声音识别的整体模型,将计算机中存放的声音模板与输入的声音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入的声音匹配的模板。然后,据此模板的定义,通过查表就可以给出计算机的识别结果。显然,这种最优的结果与特征的选择、声音模型及其好坏、模板是否准确等都有直接的关系.
系统类型
声音识别系统被分为文本相关和文本无关的两类:
1、文本相关系统
文本相关系统要求使用者重复指定的话语,通常包含与训练信息相同的文本。文本相关的识别方法多采用动态时间伸缩法或隐马尔可夫模型法:动态时间伸缩法使用瞬间的变动倒频,其倒频谱的计算通常使用快速付立叶变换;隐马尔可夫模型法使用较成熟,它运用该模型测量频谱特征的统计变量,应用较多。
2、文本无关系统
文本无关系统则没有文本相关系统那样的限制,但不一致的环境造成的性能下降是其应用中的障碍。文本无关系统的识别方法采用平均频谱法、矢量量化法与多变量自回归法:平均频谱法使用有利的倒频距离,用平均频谱除去语音频谱中的音位影响;矢量量化法是用一套短期训练的特征向量来直接描述声音的本质特征,但存贮和计算的量大,需寻找有效的方法来压缩训练数据;多变量自回归法是在倒频向量的时序中,用多变量自回归模式来确定声音特征,其效果较好。
声音识别的优缺点
1、声音识别技术的优点
·同面像识别与步态识别一样,声音识别也是一种非接触的识别技术;
·由于大多数的计算机都有声卡和麦克风,因而有廉价的硬件设备;
·声音识别系统使用方便、简单,用户易于接受;
·微型拾音器易于隐蔽,能方便用于窃听,以鉴别是否罪犯等。
2、声音识别技术的缺点
·声音会随着音量、速度和音质的变化(如同一个人感冒、情绪压力或青春期引起的变化),而影响采集与比对的结果;
·和其他的行为识别技术一样,声音因为变化的范围太大,故而很难进行一些精确的匹配,因而比指纹识别误识率高;
·能伪造,如容易用录在磁带上的声音欺骗声音识别系统,所以安全可靠性较差;
·目前非常好的高保真的声音采集装置——麦克风还比较昂贵。[nextpage]
制约声音识别技术发展的关键
实际上,人们很早就认识到声音识别对于人类生活的重要性。如世界上第一台计算机问世之后,马上就有人想到要让计算机听懂人说话。因此可以说,声音识别的研究历史与计算机的发展历史一样长。而计算机的发展已经经历了好几代,今天已经进入到了普通家庭。但是,声音识别方面的产品却迟迟未能进入市场。
一个声音识别系统性能好坏的关键,首先是它所采用的声音模型能否真实地反映声音的物理变化规律。但声音信号与人类的自然声音都是随机的、多变的和不稳定的,因此很难把握,这就是目前声音识别过程中的最大难点。
其次,模板训练的好坏也直接关系到声音识别系统识别率的高低。为了得到一个好的模板,往往需要有大量的原始声音数据来训练声音模型。因此,在开始进行声音识别研究之前,首先要建立起一个庞大的声音数据库。一个好的声音数据库包括足够数量、具有不同性别、年龄、口音的说话人的声音,并且必须要有代表性,能均衡地反映实际使用情况。
有了声音数据库及声音特征,就可以建立声音模型,并用声音数据库中的声音来训练这个声音模型。训练过程是指选择系统的某种最佳状态(如对声音库中的所有声音有最好的识别率),不断地调整系统模型(或模板)的参数,使系统模型的性能不断向这种最佳状态逼近。这是一个复杂的过程,要求计算机有强大的计算能力,并有很强的理论指导,才能保证得到良好的训练结果。
实际上,制约声音识别技术发展的关键是其依据的模型和算法,模型算法是计算机描述声音的能力能否抓住人的声音的本质的关键。在声音识别领域,固然有资金实力、人力资源等的竞争,但最根本是其关键核心技术——模型和算法的竞争。
在声音识别应用领域,有许多相关技术直接影响着客户的最终体验,并关系到应用系统的使用效果,也就是自动化率(automation rate),即系统毋须人工干预独自完成的比例。例如端点检测及相关问题,噪音环境下的声音处理,系统结构,对口音的适应性及声音界面的设计,都是声音识别整体应用系统需要考虑的。
声音识别在国内所取得的成果
计算机自动声音识别就是让计算机能听懂人说话。这一问题曾经被一位知名的美国教授称之为是“比登月还难”的科学难题。其实,人们很早就认识到声音识别对于人类生活的重要性。世界上第一台计算机问世之后,马上就有人想到要让计算机听懂人说话。所以说,声音识别的研究历史与计算机的发展历史一样长。计算机的发展已经经历了好几代,今天已经进入到了普通家庭。但是,声音识别方面的产品却迟迟未能进入市场。
我国声音识别研究工作起步于五十年代,但近年来发展很快,研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,我国声音识别技术的研究水平已经基本上与国外同步,在汉语声音识别技术上还有自己的特点与优势,并达到国际先进水平。其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。
清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,己基本达到实用要求。[nextpage]
国内研发的第一块语音识别专用芯片,以8位微控制器(MCU)为核心,加上低通滤波器、A/D、D/A、预放、功率放大器、RAM、ROM、脉宽调幅(PWM)等模块,构成了一个完整的系统芯片。这种芯片包括了语音识别、语音编码、语音合成功能,可以识别30条特定人语音命令,识别率超过95%,其中的语音编码速率为16kbits/s。因此,该芯片可以用于智能语音玩具;也可以与普通电话机相结合构成语音拨号电话机。这些系统的识别性能完全达到国际先进水平,一些应用型产品正在研发中,其商品化的过程将越来越快。
由于一些微型机器,如手机、掌上电脑等体积较小,难以设计键盘输入复杂指令,而语音识别恰能实现这一需求。但中文语音识别产品一直由外国大公司垄断,中科院研究人员针对汉语声调、口音和语言特性进行了大量创新,攻克了语音识别领域最难的非特定人汉语6万词连续语音技术。在同等测试条件下,中科院开发的这项技术在识别性能上优于跨国公司公开发表的结果。其中文语音识别软件,对普通话的识别率可达95%以上。具有自主知识产权的语音技术,一定会像汉字识别技术一样不但在技术上取得成功,而且在产业化和市场化上取得突破,从而进一步奠定中国在中文信息处理上的优势。
目前,自动化所控股的中科模识科技有限责任公司,己同其他公司合作开发了基于中文语音识别技术的移动电话语音交互系统、互联网中文多模态交互平台、智能家居声控系统、电话股票查询系统、电视机中文语音遥控器等。
尽管有关声音识别技术的报道屡见不鲜,国内外学者也为此作了不懈的努力,但目前声音识别系统的识别率还比较低,现在均在进行深化与实用化的研究。相信不久,会有比较好的实用产品出现。
声音识别在安防等方面的应用
声音识别系统可应用的范围很广,如可用于电话与通信网络、人机接口、安防监控、股票交易与银行取款、智能玩具、刑侦破案、罪犯跟踪、国防监听、财产保护等方面。
用于电话与通信网络
如在电话机、手机中已经包含了语音识别拨号功能,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息。如人们可以通过电话网络,用语音识别口语对话系统查询有关的机票、旅游、银行等信息。
美国主要电信运营商Sprint的PCS部门,自2000年以来为客户开通了语音驱动系统,提供客户服务、语音拨号、查号和更改地址等业务。2001年9月开通的可以自然方式对话的咨询系统,更实现了以自然、开放的询问方式实时获得所需要的信息。加拿大最大的电信运营商,也拥有多个语音驱动系统,提供从客户服务,增值业务和资讯服务多种功能。这些系统不但减少了用户的投诉,并为无线网络服务增值,从而增强了客户的诚信度,也开辟了新的收入来源。
用于人机接口
现在,声音识别正逐步成为信息技术中人机接口的关键技术,声音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。因为随着计算机的小型化,键盘已经成为移动平台的一个很大障碍,如果手机仅仅只有一个手表那么大,再用键盘进行拨号操作已经是不可能的。所以,声音识别技术的研发与应用,已经成为一个具有竞争性的新兴高科技术产业。
用于股票交易与银行取款物
1996年9月,Charles Schwab开通了首个大规模商用语音识别应用系统,股票报价系统与语音股票交易系统。该系统有效地提高了服务质量和客户满意度,并减少了呼叫中心的费用。[nextpage]
尤其在银行的应用上,还可同密码一同打开保险箱柜与储蓄取款,既方便又可靠。
用于刑侦破案、打击恐怖分子
公安刑警采用声音识别技术,可利用暗藏在犯罪分子的电话、录像或者其他证据中的声音资料,和嫌疑人的声音进行对比,以寻找到真正的凶手。
实施绑架的罪犯往往会通过电话向被害者的家属索要赎金,警方可通过声音识别从数个嫌疑人中认出罪犯。如日本曾经发生一起绑架少女案。女孩的父亲接到一个人打来的电话,要他用重金赎回女儿。警方作了电话录音,然后在广播电台和电视台播放了这次电话录音。经群众检举,有10多个人被警方列为嫌疑人,并通过各种渠道录下嫌疑人的声音。经过声纹鉴定,终于从这些嫌疑人中找到了真正的罪犯。
此外,现代的恐怖分子有恃无恐,制造恐怖事件后往往还会拍下一段录像宣称为某事件负责,安全局的特警就可以根据这些声音资料,分析录像中的声音是否为恐怖分子本人的声音,从而可以为追查恐怖分子获得新的线索。
用于法庭作证
因办案讲究的是证据,而声音也是侦查犯罪的一项有力证据。为此,研究声音证据的“法庭语音学”(Forensic Phonetics)成为了法庭医学的一门重要的分支学科。除了声纹技术外,法庭语音学的研究方法还包括制作声谱图和进行声音比较声谱图,对声音加以记录,并将其转变为声谱图或声纹的直观形式。在进行声音比较时,声音识别专家会对声音的相似之处以及不同之处加以辨别,这些相似或不同之处涉及呼吸方式、语调的抑扬变化、不寻常的语音习惯方言等。因此,要利用“法庭语音学”成为侦查犯罪的有利帮手,就需要建立一套像指纹系统那样的自动化的语音鉴定系统。
到了20世纪70年代,日本、罗马尼亚、德国等国家都相继开展了声纹鉴定技术,以对付恐怖犯罪活动。最近几年来,世界各国的司法机构都开始接受声纹证据。在美国,已有八分之七的州上诉法院承认声纹可作为法庭证据,美国的军事法庭也采用声纹作为证据。随着科学技术的进步,声纹鉴定手段也日益先进。
用于国防监听
声音识别用于国防监听,从下述的例证就知其重要性。如美军在近几年使用的EP-3侦察机上,安装了最先进的声音识别系统。这种声音自动识别系统功能强大,只要被侦察者通过无线电进行对话,系统便能查明通话者的身份,尤其是高层领导者的身份更是全在识别之列,从而判断出从中掌握到的情报的价值到底有多大。要做到这一点在以前是一件难以想像的事,因为噪音问题无法解决。现在,监听系统能自己删除静电等其他杂音,然后通过与声音数据库相对照,就能识别出通话者的身份。
多年来,美国建有一个功能强大的资料数据系统,储存有世界上几乎所有领导人的各种相关资料。所有的国家领导人由于其口音、停顿、用词或表达习惯不同,因此都有着特定的识别方式。对于采集到的各国领导人的声音资料,为便于使用,美国中央情报局对声音加以记录,并将其转变为声谱图或声纹的直观形式。当卡塔尔电视台播出萨达姆的讲话录音后,他们首先将录音带中的声音与资料库中存储的声音进行对比,辨别出其相似之处及不同之处,这些相似或不同之处涉及呼吸方式、语调的抑扬变化、不寻常的语音习惯以及地方方言等。从而发现资料库中的声纹与录音带中的声纹基本一致,而且包含有部分相同的单词。所以,美国中央情报局当时认定录音带中的声音“十有八九是萨达姆本人”。
美国国家安全局还把声音识别技术用于辨别“榜上有名”的恐怖分子,如本·拉登。美军只有把其新旧讲话的声音作对比,借此来判断他是否真的还存活人世。日本声响实验室的研究人员甚至能根据拉登的声纹来判断他的健康状况,并发现拉登在逃亡过程中的健康状况持续恶化等。
用于保护人民财产
声音识别技术可以用于保护人民的财产不受非法侵犯,人们在重要的财产(比如住房、汽车、电器)上,可安装声音识别系统,只有用户本人的声音可以启动这些财产,而违法分子则对之束手无策。
由于声纹具有不会遗失或忘记、不需记忆、使用方便等优点,因此在保护人们的财产、防止盗窃或者其他经济犯罪方面会有更大的用途。它更适用于电话银行、电话炒股、电子购物等领域。
最近,美国加利福尼亚州一家信用卡公司发明了一种带有声音识别功能的信用卡,这种信用卡只有在识别出主人的声音后才能正常操作,可以有效打击那些偷取信用卡进行消费的小偷。信用卡中安装有一个小麦克风、一个扬声器和一个具有声音识别功能的芯片。在使用信用卡之前,用户必须说出密码,芯片将有声密码与事先录下的密码相比较,如果密码符合,卡片将发出一串“哔哔”的声音,表示可以通过电话或商店计算机的麦克风进行交易。如果声音不符合,则不会发声。目前这一设备仍在样品测试阶段,一旦面世它将被用于在电话和网络上验证信用卡用户的身份,从而减少信用卡欺诈导致的商家和消费者的交易成本。
用于安防监听,以阻止罪犯继续作案
在安防监控领域,通常还有监听,如果安装有声音识别的智能化功能,就可以寻找到通辑逃犯、惯犯以及一切留有声音档案的罪犯,从而可及时阻止这些罪犯继续作案。 此外,声音识别技术还可用于门禁系统及各种锁具中,使“芝麻开门”变成现实。
用于智能玩具等
声音识别技术还可用于玩具中,以形成语音智能玩具等产品。
结语
由上述可知,由于声音识别技术有硬件设备简单、低廉,且使用方便,易于被人们所接受等优点,因而应用很广泛,并一直成为国内外学者研究的热点。虽然,使声音识别技术真正实用化还有一定的难度,但国内外学者在为此作不懈地努力,相信不久,会有比较好的实用产品出现。