直击智能语音痛点如何打造完美人机交互？

国家《信息产业科技发展“十一五”规划和2020年中长期规划纲要》指出要落实“中文信息处理和智能人机交互技术”。人机交互的真正意义是让智能硬件能够进行自动化的服务并与用户进行自然交互，实现完美的用户体验，这要求智能硬件能够结合大数据进行分析并深度学习，实现行为理解并执行操作。

　　国家《信息产业科技发展“十一五”规划和2020年中长期规划纲要》指出要落实“中文信息处理和智能人机交互技术”。人机交互的真正意义是让智能硬件能够进行自动化的服务并与用户进行自然交互，实现完美的用户体验，这要求智能硬件能够结合大数据进行分析并深度学习，实现行为理解并执行操作。当前，我国智能人机交互技术起步不久，相关市场也处于上升阶段，尤其是随着智能硬件、智能家居等新兴市场的关注度日益提高，人机交互技术也因此受到了广泛关注。在这些领域内的多模态人机交互技术也得到了很好的应用，例如智能语音技术、虹膜识别技术、体感触觉技术等等。

　　文/龙梦竹(现任思必驰信息科技有限公司市场总监)

　　在智能语音技术方面，就国际市场而言，已经形成了Nuance、谷歌、苹果、微软等IT巨头的垄断格局。放眼国内市场，科大讯飞、百度、思必驰等智能语音解决方案各显其色，常年致力于领先的中文语音信息处理技术。

　　但是，对比国内外技术实力，当前国内的智能语音技术在人机交互方面仍旧存在很大提升空间，主要有以下表现：

　　智能硬件“听不懂”

　　出现该问题的原因无非是“没听清”和“不理解”。“没听清”是由于语音识别功能出现了问题，噪声环境、识别距离、硬件回声等均是语音识别的关键因素，如果处理不当便会导致识别率不同程度的降低;“不理解”是由于语义理解不够深入而导致，说话人不同，讲话习惯、音调、音速等也各不相同，上下文语境千差万别的情况下，如果不能结合语境进行深度学习，语义理解难免差强人意，更谈不上能够进行多轮交互了。

　　智能硬件“不聪明”

　　智能硬件“不聪明”表现为：无法根据要求提供相应的信息，定制功能缺失。无论是智能语音，还是人脸识别、图像识别等技术，都只是实现人机交互的手段和工具，人类真正的交互对象是资源。当前人机交互存在的很大问题是资源不足，不能满足人们多样的功能需求，如电话、社交、音乐、电台、导航、地图、天气查询、票务查询等等，智能硬件显得很不智能。当前智能硬件的后端服务集成尚未能满足当前用户的需要。

　　针对智能硬件“听不懂”的问题，亟待解决的是语音识别和语义理解问题。在语音识别方面，角度、距离、回声、噪声等因素均能够对最终的识别效果产生极大的影响。确定合适的拾音角度和拾音范围、距离，有效降噪和消除回声，来进行准确的声源定位，是识别的关键一步。当前国内市场很多企业已经陆续推出了相应的解决方案，例如 5麦麦克风阵列，可进行快速集成，但是成本稍高，适合小批量产品。中国科学院声学所的8麦技术方案，针对会议系统，且目前的市场应用并不广泛。另一方面，还有环形“6+1”麦克风阵列，可进行360°无死角拾音，准确进行声源定位，并采用独有算法的降噪和回声消除技术，有效克服了语音识别过程中，随着语音传播距离加大，因语音本身的衰减，混响、背景噪音、人声干扰和回声加大等技术难点带来的阻力，实现业内领先的远场5米交互识别率92%以上，识别和交互效果能够媲美近场。由此可见，当下从事于语音技术的企业均从科技研发角度出发，从解决实际应用场景下的产品需求出发，从而着力解决语音识别和人机交互的这一大问题。

　　智能语音如何推动人机交互

　　语义理解的关键是结合上下文语境进行深度学习。然而，在真实场景下，传统语音识别加自然语言处理的方案并不能很好地实现自由的“人机交互”。微软研究院表示，基于上下文的理解是微软自然语言处理组正在解决的重点问题，Cortana助手中就初步实现了上下文语义理解。科大讯飞也在年度发布会上表示，“纠正、打断”是自然交互的本质要求，且纠错是人机语音交互的一个标准，其对话系统也已经实现基于上下文的理解。而我认为基于上下文的理解是认知智能的主要表现之一，也是解决语音识别错误的最有效途径之一，业界也已经有“支持打断和智能纠正”的认知型对话系统及相关场景解决方案诞生。

　　人机交互的另一端是资源，丰富的第三方服务内容可使智能硬件变得更聪明，汇集大量的资源功能才能有效提升后端服务质量。所谓的智能语音解决方案，应该能够支持安卓、linux、QNX等主流操作系统，并集成丰富的第三方服务资源，例如微信、高德地图、酷我音乐、虾米音乐、喜马拉雅FM、考拉电台、神马搜索、大众点评、墨迹天气、百度天气、携程、百度股票等等，为用户提供社交、周边搜索、导航、音乐电台、天气日历等多功能服务。丰富的第三方服务资源供智能硬件随时交互提取使用，具备这些基本条件，智能硬件才能变得更聪明、更智能，人机交互才能变得更流畅完美。

　　操作再简易的APP 也不如一句话来得简单

　　智能语音的不断发展也在推动着人机交互的不断进步，抛弃传统APP/遥控器等移动终端的控制，实现全语音自动操控，智能硬件也能越来越能够琢磨透人类的思想，追踪行动意图，随着智能硬件、智能家居的不断发展，作为主要交互方式的语音交互技术的发展也将迈上一个新台阶，毕竟操作再简易的APP控制，都没有用户口中的一句话来得简单，语音交互技术将很大程度上帮助人们将生活变得更加智能、便捷。

　　总而言之，智能语音的痛点始终放缓了人机交互的步伐，解决识别、理解与后端服务的难题，也鞭笞着我们在人机交互领域不断前行，智能人机交互的未来需要我们共同努力。

直击智能语音痛点 如何打造完美人机交互？