关于语音识别技术在会议中的应用 - 安防知识网

语音识别技术始于几十年前，近年来人工智能让语音识别得到了长足发展。但由于语音识别系统对环境敏感，如何在真实的场景中落地仍有不小的挑战。本文试图从大数据思维角度，为会议场景中的语音识别应用打开一扇不一样的门户。

　　文 / 王唯上海云思智慧信息技术有限公司产品研发中心副总经理

　　1. 语音识别技术的现状

　　语言是人类最自然的交互方式。数万年来人类通过进化获得的语言交流能力，相比其他的交互方式具有更多的优势。当计算机发明之后，人类与机器的交流虽然暂时受限于鼠标键盘等面向机器的交互方式，但却从不阻挡人类让机器能够听懂人类的语言、理解语言中的内在含义、做出正确回答的探索。这些场景反复出现在科幻电影中，那些智能先进的机器人助手，通过语言与人类完成自由地交流。

　　纵观计算机模拟人类语言交流的整个过程，包括倾听-理解-思考-表达四个阶段。当前计算机领域，按照技术难易度及普及顺序，大致也可以分为以下四类与之相对应的技术研究：

　　自然语言生成——将大脑产生的思想转换成语言

　　语言合成——将语言转换为相应的语音

　　语音识别——识别语言中表达的语音内容

　　自然语言理解——理解语音表达的语言含义

　　其中，语音识别技术是指机器自动将人的语言转成文字，又称 Automatic Speech Recognition，即ASR技术。它是一门涉及声学、语音学、语言学、情感学、心理学、信息理论、模式识别理论、数字信号处理、人工智能、数理统计学等多学科交叉的科学。近年来，随着人工智能的兴起，语音识别技术在理论和应用方面都取得大突破，不仅开始从实验室走向市场，并且已逐渐走进我们的日常生活。

　　语音识别的本质是一种基于语音特征参数的模式识别，即通过学习，系统能够把输入的语音按一定模式进行分类，进而依据判定准则找出最佳匹配结果。

　　从语音识别算法的发展来看，语音识别技术主要分为三大类，第一类是模型匹配法，包括矢量量化(VQ) 、动态时间规整(DTW)等；第二类是概率统计方法，包括高斯混合模型(GMM) 、隐马尔科夫模型(HMM)等；第三类是辨别器分类方法，如支持向量机(SVM) 、人工神经网络(ANN)和深度神经网络（DNN）等。

　　目前语音识别技术已经是相对成熟（商用）的技术，各家主流公司均宣称语音识别率达到了97%，甚至98%。现在语音识别已用于许多领域，主要包括语音识别听写器、语音寻呼和答疑平台、自主广告平台，智能客服等。但需要指出的是，主流公司宣称的语音识别率一般是需要用户在安静环境下，近距离、原地不动、慢慢地、认真清晰发音时测试的结果。在实际场景，往往有很多种异常情况都会导致语音识别的效果大打折扣，比如距离太远、发音不标准、环境嘈杂、中间有时不时的打断等等。

　　所以语音识别技术在实际应用中，受限于特定的场景，同时还需要有各种解决方案来配合。这虽然是一个应用落地比较现实的问题，但并不影响我们做产品demo和初步的产品化工作，反而是我们AI产品经理的发挥机会——用产品体验设计来优化（弥补）纯技术效果的不足。

　　2. 语音识别技术的发展与挑战

　　在协作工作模式下，我们常常通过开会来布置、协调、研讨工作，以达成集思广益、信息交流、加强领导、协调矛盾等目的。虽然现代办公中，部分工作场景可以通过邮件、电话、工作群、OA系统、博客讨论组、远程视频会议等在线方式替代，但面对面的会议沟通仍然是办公行为中非常重要的方式。这也是在生产工具私有化后，共享移动办公未能占据办公模式中绝对地位的重要因素。

　　正是由于会议的重要性，在基础建设中会议区单位面积的投资比例数倍于办公区域。会议室建设的早期阶段，其建设目标集中定位在电子会议室。大家更关注从电子设备角度实现会议内容电子化、会议设施自动化：

　　会议内容电子化——通过显示、扩声等技术实现多媒体会议，丰富会议的表现形式。

　　会议设施自动化——通过会议中控技术实现会议设施自动化管理，方便会议操作。

　　会议室建设接下来的阶段，人们将视线投向会议组织过程，通过人、物、场、过程的在线，重构优化会前、会中、会后全会议生命周期过程：

　　人的在线——通过手机应用、人员定位、人脸识别等方式显示人员的在线状态。

　　物的在线——全面集成会议设施，从关注管理切换到关注使用面场景，面向最终使用者在线开放能力单元。

　　场的在线——基于IoT技术，结合空间管理类应用，实现会议室及其相关配套场所的在线。

　　过程在线——结合人、物、场镜像构建的虚拟孪生世界，重构优化会前、会中、会后全会议生命周期过程，提升效率并为更深层次的大数据衍生应用打下基础。

　　走到这一步，很自然地就能发现下一步要做的事情就是会议内容的在线。会议参与者是通过内容作为媒介促成了会议目的的达成。因此在一场会议中，我们将会议内容定义成灵魂一样重要毫不为过。在第一步中，我们通过显示、扩声设备确实实现了会议内容的信息化。但记录下来的内容仅仅是诸如音视频录像为主的非结构化内容，难于查阅、分享、检索，更无法形成知识点分段利用。这种大块的非结构数据就犹如一潭静态的死水不具有流动性特征，因此不满足在线使用对任意时间、任意地点、任意方式等特点的要求。

　　虽然以前做不到内容的真在线，但伴随着AI技术在语音识别领域的长足发展，未来会议信息化也逐渐进入了应用的深水区。人类通过阅读获取信息的速度远远高于通过收听方式接受信息。一场两小时的会议录像，如果采用会议纪要形式传阅，仅仅需要很短的时间就能遍历、快速发现重点，并通过精读方式获取有效信息。于是主流厂商都将精力投向于会议纪要的转写应用。

　　目前语音识别AI算法建立的基础是在近距离、安静环境上的，同时发言人的语速、普通话标准程度等因素也对识别率影响较大。因此目前主推的会议纪要转写仅仅适合于单人话筒发言、发言内容有精心准备、发言者语言表达能力优秀的场景，例如新闻发布会。而大多数会议环境中，由于环境噪音、多人交互重叠发言、发言内容需要现场组织存在停顿、重读、缩略等特点，导致最终生成的会议转写纪要可读性非常差。笔者曾试用过大多数一线厂商会议纪要转写产品，从主观上看，这些纪要甚至不如直接听录音。更麻烦的是目前主流公司均宣称语音识别率已经高达97%，未来不太可能有太多进一步提升的空间。而且就算还能提升，也无法解决因外部环境干扰对纪要可读性的影响。会议纪要转写产品似乎走入了死胡同。

　　3. 语音识别技术在会议中的运用

　　天生我材必有用！语音识别通过人工智能技术已经将语音识别率提高到了97%，尽管受限于非理想场景，在绝大多数实际场景中会议纪要转写未必能够达到良好的阅读要求，但我们仍不可否认，在转写记录中已经初步提炼出大量可分析的信息。这就像原油，里面包含了有用的东西和无用的东西。后续我们要做的事情就应该像石化企业一样，将有用的部分给提取出来形成信息，并找到需要使用这种信息的场景。

　　原油本身质量的高低并不决定提炼出来的东西是否有价值，只是会影响到提炼的难度及成本。如果按照这样的思路构建应用，我们就不会再纠结地等待语音转文本的进一步提升准确率，而是现在就有的数据，现在就应该有应用它的场景。

　　这也符合当下从精准的小数据思维转向模糊的大数据思维。互联网时代，网络上非结构化数据占据了当前数据海洋的80%，并在截止2020年前以每年44倍的数据快速增长。这些数据均是难于在一定时间内用常规软件工具进行内容抓取、管理和处理的，但具备数据再利用的沉默价值特征。看看谷歌、百度等搜索引擎在做什么事情，本质上他们也是在做非结构化数据的提炼工作，同时他们并没有刻意去要求源头数据必须如何精准。

　　借鉴这样的思维，我们可以把语音识别技术在会议中的应用分为三个层次：

　　数据转换——音频数据是难于衡量的，我们需要借助语音识别技术将其转换为文本数据。这个数据虽然是不精准的，但不可否认中间蕴含有丰富的可用信息，正如原油一样。

　　信息提取——有了不精准的非结构化文本数据，我们就可以借助搜索引擎检索其中的关键字、常用字、高频字，形成可衡量的标签并与音轨对应。通过这种映射，我们就能实现以前做不到的音频检索。一场会议的录音往往是很冗长的，通过这种检索我们就能帮助会后快速定位到感兴趣的内容。如果语音转写记录效果不好，我们可以直接点击音频录像播放，从而大大提升了会议回顾效率。未来我们还想借助声纹识别技术定位每一个发言人，那么又可以在“谁的发言”这个维度形成标签，支持按发言人进行检索。

　　信息利用——当信息提取出来后，我们就可以依据不同人群不同场景的需求使之对应到具体业务中，从而串接成更大的应用逻辑，做到信息的再利用，这是一个逐步发掘完善的过程。以前没有这么想是因为没有做到会议数据的结构化，未来会有很多在这方面的探索。以下我们仅仅举例说明其广阔的价值：

　　数字会议纪要——以前人工记录会议纪要，由于涉及到记录员专业水平、理解能力、概括能力等影响，很多时候纪要的准确性很差。但又没有其他较好的办法会后获取原意。现在我们就能将每条纪要对应到标签指向的音频，从而提高会议纪要的准确性及可用性。

　　知识图谱——当语音标签通过会议纪要或其他方式在不同的人群中流动的时候，我们就可以通过点赞、推荐、朋友在看等当下大家习惯的信息接受方式，让有价值的内容从一堆混杂信息中进一步浮现出来。并且这种方式是无需雇用专人进行整理的，且抽取出来的内容更容易受大众接受。选举一个例子，未来企业中我们可以通过了解管理者关注会议中的哪一部分内容，从而使管理者与员工在组织愿景和日常工作中迅速地联系起来。

　　事项跟踪——一场会议中一般均会涉及多项事件议程，我们回顾一场会议的记录实质上是横向地了解它所包含范围内所有事件的近况。但更多时候，我们更想知道一个事项从开始到现在整个纵向上面的信息，尤其是需要在会议中讨论的重要信息。更难的是，往往同一个事项会依据分工在多个级别、不同参与者的会议中并行讨论，这样就很难有好的方式收集全局信息。以前没有好的办法解决这个问题，但在有价值的语音标签之后，我们就有了把不同会议按照我们目的纵向串接起来的可能。

　　诸如此类的应用还会有很多，以前没有语音识别技术无法实现第一步，所有后面的事情大家都没有这样想，但相信有人工智能加持后，未来人类行为方式会得到加速进化。

　　工业社会经济的助推剂是能源，能源决定了我们大规模生产的成本及产能。最具经济代表性是石油，因此我们当下也公认为活在石油经济时代。未来科技社会经济的助推剂是数据，数据决定了我们能够造出什么具有竞争力的产品，我们把这个时代称为知识经济时代。