文/龙梦竹(现任思必驰信息科技有限公司市场总监)
在智能语音技术方面,就国际市场而言,已经形成了Nuance、谷歌、苹果、微软等IT巨头的垄断格局。放眼国内市场,科大讯飞、百度、思必驰等智能语音解决方案各显其色,常年致力于领先的中文语音信息处理技术。
但是,对比国内外技术实力,当前国内的智能语音技术在人机交互方面仍旧存在很大提升空间,主要有以下表现:
智能硬件“听不懂”
出现该问题的原因无非是“没听清”和“不理解”。“没听清”是由于语音识别功能出现了问题,噪声环境、识别距离、硬件回声等均是语音识别的关键因素,如果处理不当便会导致识别率不同程度的降低;“不理解”是由于语义理解不够深入而导致,说话人不同,讲话习惯、音调、音速等也各不相同,上下文语境千差万别的情况下,如果不能结合语境进行深度学习,语义理解难免差强人意,更谈不上能够进行多轮交互了。
智能硬件“不聪明”
智能硬件“不聪明”表现为:无法根据要求提供相应的信息,定制功能缺失。无论是智能语音,还是人脸识别、图像识别等技术,都只是实现人机交互的手段和工具,人类真正的交互对象是资源。当前人机交互存在的很大问题是资源不足,不能满足人们多样的功能需求,如电话、社交、音乐、电台、导航、地图、天气查询、票务查询等等,智能硬件显得很不智能。当前智能硬件的后端服务集成尚未能满足当前用户的需要。
针对智能硬件“听不懂”的问题,亟待解决的是语音识别和语义理解问题。在语音识别方面,角度、距离、回声、噪声等因素均能够对最终的识别效果产生极大的影响。确定合适的拾音角度和拾音范围、距离,有效降噪和消除回声,来进行准确的声源定位,是识别的关键一步。当前国内市场很多企业已经陆续推出了相应的解决方案,例如 5麦麦克风阵列,可进行快速集成,但是成本稍高,适合小批量产品。中国科学院声学所的8麦技术方案,针对会议系统,且目前的市场应用并不广泛。另一方面,还有环形“6+1”麦克风阵列,可进行360°无死角拾音,准确进行声源定位,并采用独有算法的降噪和回声消除技术,有效克服了语音识别过程中,随着语音传播距离加大,因语音本身的衰减,混响、背景噪音、人声干扰和回声加大等技术难点带来的阻力,实现业内领先的远场5米交互识别率92%以上,识别和交互效果能够媲美近场。由此可见,当下从事于语音技术的企业均从科技研发角度出发,从解决实际应用场景下的产品需求出发,从而着力解决语音识别和人机交互的这一大问题。
智能语音如何推动人机交互
语义理解的关键是结合上下文语境进行深度学习。然而,在真实场景下,传统语音识别加自然语言处理的方案并不能很好地实现自由的“人机交互”。微软研究院表示,基于上下文的理解是微软自然语言处理组正在解决的重点问题,Cortana助手中就初步实现了上下文语义理解。科大讯飞也在年度发布会上表示,“纠正、打断”是自然交互的本质要求,且纠错是人机语音交互的一个标准,其对话系统也已经实现基于上下文的理解。而我认为基于上下文的理解是认知智能的主要表现之一,也是解决语音识别错误的最有效途径之一,业界也已经有“支持打断和智能纠正”的认知型对话系统及相关场景解决方案诞生。
人机交互的另一端是资源,丰富的第三方服务内容可使智能硬件变得更聪明,汇集大量的资源功能才能有效提升后端服务质量。所谓的智能语音解决方案,应该能够支持安卓、linux、QNX等主流操作系统,并集成丰富的第三方服务资源,例如微信、高德地图、酷我音乐、虾米音乐、喜马拉雅FM、考拉电台、神马搜索、大众点评、墨迹天气、百度天气、携程、百度股票等等,为用户提供社交、周边搜索、导航、音乐电台、天气日历等多功能服务。丰富的第三方服务资源供智能硬件随时交互提取使用,具备这些基本条件,智能硬件才能变得更聪明、更智能,人机交互才能变得更流畅完美。
操作再简易的APP 也不如一句话来得简单
智能语音的不断发展也在推动着人机交互的不断进步,抛弃传统APP/遥控器等移动终端的控制,实现全语音自动操控,智能硬件也能越来越能够琢磨透人类的思想,追踪行动意图,随着智能硬件、智能家居的不断发展,作为主要交互方式的语音交互技术的发展也将迈上一个新台阶,毕竟操作再简易的APP控制,都没有用户口中的一句话来得简单,语音交互技术将很大程度上帮助人们将生活变得更加智能、便捷。
总而言之,智能语音的痛点始终放缓了人机交互的步伐,解决识别、理解与后端服务的难题,也鞭笞着我们在人机交互领域不断前行,智能人机交互的未来需要我们共同努力。