a&s专业的自动化&安全生态服务平台
公众号
安全自动化

安全自动化

安防知识网

安防知识网

手机站
手机站

手机站

大安防供需平台
大安防供需平台

大安防供需平台

资讯频道横幅A1
首页 > 资讯 > 正文

语音识别技术 能多大程度改变我们的生活?

语音识别技术,到底在研究什么?能多大程度改变我们的生活?
资讯频道文章B

  电影中,伊森.亨特重复播放由若干单词组成的一小段英国首相的录音,就轻松骗过了语音识别系统。看似轻松的破解过程,只需要一台录音机就能完成的攻击手段,让“语音识别技术”在黑科技云集的科幻大片中并不那么耀眼。

  日常生活中,我们也有接触到各种形式的语音识别技术,用来取代键盘输入,或者变身成Siri一般的智能小助手,与人类进行简单的对话。

  语音识别技术,到底在研究什么?能多大程度改变我们的生活?

  我为各位一一道来。

  语音识别的特点

  语音识别,是一种结合了生理和行为两种成分的生物认证技术。气管、鼻腔、咽喉、舌头等组织的相互配合,影响了声音的音调、音强和音色,从而形成了每个人声音的独特性,这构成语音的生理基础;而每个人不同的说话内容,则构成了语音的行为基础。

  因此,语音识别是一种很有趣的过程,既要知道你在说什么内容(行为特征),又要知道你在以什么样的方式说(生理特征)。

  语音识别,是成本最低的生物识别技术

  因为不需要依赖昂贵的成像芯片和光学镜头,也没有台式PC和移动终端的限制,只需要一枚麦克风即可采集语音,因此在各种身份认证产品中都可以集成该功能。用户对着麦克风说出特定的短语,系统将用户的语音样本过滤后,与先前存储的语音样本比较,达到一定的近似度阈值,用户就通过了身份认证。

  语音识别的应用

  语音识别技术,分为“语义识别”和“语音身份识别”两大类应用模式。

  语义识别,也被称作话语识别、非特定人语音识别,其目的在于理解话语中的单词和句子——也就是话语中的内容。

  由于几乎可以被任何人使用,语义识别技术的应用场景非常多样化,被集成到各种设备上,已经成为智能硬件发展的主流趋势。

  手机的进化历史,就是文本输入技术的发展史,也是语义识别技术的革命史。最早的功能手机屏幕很小,带有26键或9键实体键盘;随着智能手机发展,实体按键越来越少,甚至整合进入屏幕成为虚拟键盘。实体键消失的大趋势,让文本输入技术发生着改变,而手环、手表、眼镜等小屏或无屏可穿戴式设备的兴起,人们不得不寻找比键盘更有效的文本输入方式。于是,语音识别技术,成为文本输入的最轻松、最自然方式。

  正如Siri为我们展示的那样,我们已经习惯于通过语音拨打电话、打开应用、查询天气,也能不动一根手指,用语音输入法发送消息,但这些语义应用,依然借助了屏幕这一载体。未来,智能设备几乎是没有屏幕可以触摸,最终只能通过语音这种采集成本低、容易集成的方式来实现人机交互。

  语音身份识别,也称说话者识别,将语音作为一种稳定的生物特征来识别说话者的身份。

  早期的身份识别精度很低,缺乏特定的语音处理和特征提取技术,只能判断一个人的种族。二战时,美日双方经常夜战,黑暗中无法判断对方是敌是友。美国人根据 “日本人对l,r发音不准确”这一声音特性,制定了一个口令“lollapalooza(意为:非常出色的人)”,一旦对方发音不准确,就直接开火。

  今天的语音识别精度,已经可以判断一个人的身份。用户对着麦克风说出特定的短语,系统将用户的语音样本进行背景噪音过滤、特征提取,再与先前存储的语音样本比较,达到一定的近似度阈值,用户就通过了身份认证。

  (语音身份识别的流程)

  语音识别的缺陷

  语音的采集成本虽然低,但在身份识别中并未大规模应用。目前看来,主要是因为语音识别面临着不易提取、不够稳定、容易模仿三大问题。

  缺乏多样性和噪音影响,是语音特征不易提取的两大原因。

  语音是一维线性特征,与指纹、人脸、虹膜等二维图像特征相比,信息量更少,精度也更低。此外,语音识别的性能,还会受到外界环境的影响,如同时有多个说话者,或者环境噪音嘈杂,也会导致语音识别精度降低。

  语音会受时间、年龄、身体状况影响而发生改变,是导致语音特征不稳定的重要原因。

  每个人在青春期都会经历“变声”的过程,常见的感冒、鼻塞、咽喉炎、声带疲劳都会影响语音识别的性能。因此,语音识别的稳定性并不好。

  语音是一种较易模仿的生物特征,如果口技演员改行做声音窃取,破解成功率将非常惊人。录音是攻破语音系统的另一种常用方法,“谍5”对此有准确描绘:伊森· 亨特只用一台录音机就轻松窃取到英国首相的语音。为防止录音攻击,一些语音识别系统从较小的词汇表中随机产生一个变化的短语让用户朗读。这种方式能够阻挡一般的攻击者,但经验丰富和准备充分的老手仅需多花一点时间而已。

  综上所述,不易提取、不够稳定、容易模仿这三大问题困扰着语音识别技术,难道它注定只能在低端徘徊,无法满足更高安全等级、更高识别精度的要求吗?

  鱼和熊掌:价格最低 & 性能最好

  语音用于身份识别,无法回避识别精度过低的先天缺陷,但是将语音和其他高精确度、高稳定性的生物特征相结合,既保留语音的低成本优势,又弥补其低精度的弱点,打造出一种“鱼和熊掌”兼得的完美生物特征。

  为了弥补语音的缺陷,我们选择哪一种最高精确度、最高稳定性的生物特征呢?学术界早有结论:虹膜识别,在精确度和稳定性两方面,是所有生物特征中最好的,目前最优秀的虹膜识别算法甚至将误识率降低到1/500万以下。

  虹膜位于眼球前部,表面覆盖角膜,是一种隐藏在身体内部的特征。虹膜是瞳孔周围具有多种颜色的环状组织,呈现出一种复杂的放射状纹理。虹膜在出生之前随机发育产生,因此所有的虹膜都是独一无二的,从出生6个月直到死亡都保持不变。

  将“价格最低廉的语音识别”与“识别精度最高的虹膜识别”组合,可以依据不同的需要进行精度调整,使系统安全等级具有更大的弹性。特别针对用户规模达到数十万、甚至上百万的大型身份识别应用,“语音+虹膜”的组合已经成为最具竞争力的技术方案。

  比如,国内已经推出集成虹膜和语音两种识别技术的社保支付终端,用户可以根据支付金额及环境情况,选择更具灵活性的身份认证方式,如小额支付用语音识别,大额支付用虹膜识别;安静环境使用语音识别,嘈杂环境使用虹膜识别。

  “语音+虹膜”的组合,将两者的优点(低成本、高精度)集于一身,正是《碟中谍5》启发我们提出的最具技术前瞻性的身份识别方案。

超越现实 《MI5》电影的生物辨识技术
刷卡和密码都OUT了 身体密码全面来袭

参与评论
回复:
0/300
文明上网理性发言,评论区仅供其表达个人看法,并不表明a&s观点。
0
关于我们

a&s传媒是全球知名展览公司法兰克福展览集团旗下的专业媒体平台,自1994年品牌成立以来,一直专注于安全&自动化产业前沿产品、技术及市场趋势的专业媒体传播和品牌服务。从安全管理到产业数字化,a&s传媒拥有首屈一指的国际行业展览会资源以及丰富的媒体经验,提供媒体、活动、展会等整合营销服务。

免责声明:本站所使用的字体和图片文字等素材部分来源于互联网共享平台。如使用任何字体和图片文字有冒犯其版权所有方的,皆为无意。如您是字体厂商、图片文字厂商等版权方,且不允许本站使用您的字体和图片文字等素材,请联系我们,本站核实后将立即删除!任何版权方从未通知联系本站管理者停止使用,并索要赔偿或上诉法院的,均视为新型网络碰瓷及敲诈勒索,将不予任何的法律和经济赔偿!敬请谅解!
© 2024 - 2030 Messe Frankfurt (Shenzhen) Co., Ltd, All rights reserved.
法兰克福展览(深圳)有限公司版权所有 粤ICP备12072668号 粤公网安备 44030402000264号
用户
反馈