声希科技：智能虚拟人大火的背后或引起争议? - 安防知识网

虚拟人作为一个新兴事物，其应用范围的扩展、使用频率的提高是一个必然的趋势，伴随着硬件技术与传播理念的不断演进，虚拟人在分类、潜在优势挖掘、跨媒体使用等方面将会大有长进，未来还将在娱乐、客服、医疗健康、教育、法律等多个领域提供个性化的内容。终有一日，如同机器人必将走进我们的生活当中一样，它会给我们现有的格局带来一个全新的诠释。

　　随着科技的进步和社会的发展，我们已经从互联网时代跨入了人工智能时代。人工智能时代和互联网时代最大的差别就是互联网的红利渐渐开始消失，现在说已经进入人工智能时代还为时过早，二十已经进入互联网+的时代，互联网+即解决信息不对称和连接问题，例如淘宝将用户与卖家连接到一起，滴滴把司机和乘客连接到一起。但是互联网+解决了连接问题，还有很多问题没有解决，如效率和成本。

　　用人工智能代替生产力是未来的大势所趋。比如采用虚拟机器人代替医生做简单的手术，用虚拟老师教授知识，用语音识别代替会议记录员等等。人工智能的应用提高了生产力，降低了成本。所以与互联网相比，未来我们更应该关注人工智能。

　　人机交互界面变迁

　　说起人工智能的发展，就不得不提人机交互，初期的人机器交互是通过模板实现，渐渐的衍生到用cmd交互，到现在变成了图形化界面的人机交互。未来图形人机交互的发展方向是大家都应该关注的话题。

　　目前主流的人机交互发展方向是采用更自然的方式实现，因此语音交互就走入人们的视野。语音交互的优势是不需要用手、眼睛，例如开车时可以直接命令设备播放音乐、新闻等。而与设备的人机交互并不能满足日益增长的社会需求，从而就催始了智能虚拟人的研发。

　　智能虚拟人其实就是用技术模拟人体的各个器官，如用自然语言处理/对话系统模拟人的大脑，用图像识别技术模拟人的眼睛，用语音识别/发音纠错模拟人的耳朵，用语音合成模拟人的嘴巴，另外用最新的audio to video虚拟出人的形象，从而智能虚拟人诞生了。

　　智能虚拟人的四大核心技术

　　在实际的应用中，与智能虚拟人直接交互需要用到四大核心技术。

　　第一，发音纠错/语音识别。发音纠错技术顾名思义就是纠正人的发音问题。在实际应用最多的案例就是虚拟老师，与虚拟老师的交互过程中，机器可以明确的指出发音错误的地方，纠正范围包含全面，如音标、长短音、语调等，可以实现精细化纠正，并形成学习报告，便于课后的复习掌握。

3-核心技术1.jpg

　　第二，自然语言处理/对话系统。语言学习过程中，除了需要纠正发音外，还需要场景的联系，而虚拟人陪练就可以随时随地的实现这个目标。在模拟场景中，虚拟人通过角色扮演，完成多轮的对话。从而达到联系的目的。

　　第三，个性化语音合成。人类语言的个性化体现在音色的层面，个性化语音合成技术可以定制特定人的声音，实现将任何一个人的声音变成另外一个人的声音。如可以在保持录音内容不变的情况下，将录音中的声音变成林志玲、奥巴马等名人的声音，也可以将男人的声音变成女人的声音。通过少量的音频数据，训练完成后即可以变换成特定的声音。该项技术可以应用在电影电视配音、虚拟老师学习等场景。例如，在英语学习时用自己的声音代替标准发音，体会自己标准发音，从而排除音色干扰，提高学习效率;将儿童故事机器人中陌生人的声音转换成小孩爸爸妈妈的声音，给小孩讲故事，具有更大的吸引力和趣味性。

　　第四，图像/视频处理。通过定制化虚拟出需要的形象。除了输出声音，还可以合成视频。

　　目前有两种合成视频的模式，第一种是将原始的音视频与新的音频结合，合成新的音视频。只需要录制一段音频就可以合成视频，可以明显的降低视频录制时间。例如外教英语视频录制，只需要录制一些视频片段，后续如果需要补录的话成本较高，就可以直接补录一段音频，与原视频合成后形成需要补录的视频，降低了录制的成本。

　　第二种是只要有原始的音视频和新的文本，直接从文本合成视频，相对来说技术更加复杂，难度更大。

6-核心技术4.jpg

　　应用场景众多

　　智能虚拟人的应用场景可以覆盖许多领域，包含有教育、娱乐、客服(金融/电信/电商)、旅游等领域。

　　首先，教育领域的虚拟老师，虚拟老师英语教学已经有很多应用的案例，通过英语学习类APP或者智能硬件(智能平板、智能机器人)帮培训机构解决外教问题，虚拟老师和真人的助教配合，实现双师课堂。教育的教书部分，即传递知识方面由机器完成，育人需要助教实施，教书是重复性的劳动，机器会比人更擅长。

　　虚拟机器人可以在学习中实现个性化的反馈，通过学生答题器，精准掌握学生学习情况，针对错误和易混淆单词设置课后复习，做到因材施教。这种课程方式相比于传统的大班课有很大的优势，基于虚拟人技术和数据，搭配助教和人脸识别、情绪识别技术，就可以形成高质量的教育课程。

　　其次，娱乐领域的虚拟主播，实现时效性的新闻播报，传统的真人主播需要录音、剪辑后播报，影响时效性，真人实时出镜时效性高的新闻对主播的要求高。虚拟主播只要输入音频或者文字，就可以把新闻播报出来，简单、便捷、成本低。

　　另外，目前较为流行的游戏的解说主播，也可以通过虚拟形象+真人主持的模式实现。主播有真实头像会比只有音频播放量高十倍。

　　通过虚拟主播帮助媒体融合转型，在新闻时效性和跨语种传播能力等方面再上台阶，实现了在不同场景下更为自然的人机交互，

　　再次，虚拟客服，银行传统的真人窗口服务逐渐演变为现在的机器+远程真人验证服务，而用虚拟客服后，开户、验证都可以实现，如有突发情况再真人参与，大大降低人力成本。

　　最后，旅游领域的智能导游，传统需要导游讲解景点、历史文化等。用机器替代真人实现智能导游，可以手机APP智能讲解、简单互动，如厕所、景点、餐馆的地址查询互动，也可以通过智能感应游客后音频讲解。

　　未来智能虚拟人的引用可以实现自由对话，可以教我们学语言，也可以播新闻，更可以实时满足人类的交互需求。

　　可能引发犯罪问题?

　　技术是把双刃剑，能丰富和改变我们的生活，也能改变我们认知。技术在一方面的确可以帮助我们，但如果恶意使用，可能就会造成很大负面的影响，而智能虚拟人技术的发展应用也存在需要防范的问题。

20180622233_74228032(1).jpg

　　AI技术已能达到构建完全虚拟的人物面孔和动物形态，人工智能和神经网络技术可以用来轻易的虚构图片和视频使人们对此深信不疑，毕竟眼见为实嘛!小编担心，如果工具被恶意利用，制造假新闻、恶作剧、电话诈骗等，如名人发布讲话被篡改，合成语音的骚扰电话、诈骗电话时，我们又该怎么解决?

　　答案就是声纹识别，通过声纹识别技术可以对视频进行鉴定，去确定视频中是否本人讲话，甚至可以判断出声音是合成还是转换的。而我们正规利用虚拟人时也可以通过技术的方式，将合成的视频做标记，以防止被其他不法分子利用。

　　小结

　　以上部分内容根据声希科技联合创始人孙立发博士在2019年人工智能技术峰会AI图像与语音识别技术上的演讲整理