视频摘要技术解决的问题是如何使视频数据有效的表示和快速的访问,它是利用对视频内容的分析来减小视频存储、分类和索引的代价,提高视频的使用效率、可用性和可访问性,它是基于内容的视频分析技术的发展。
视频摘要解释
视频摘要技术的研究最早始于1994年CMU大学的Informedia工程,随后德国曼海姆大学、FXPaloAlto实验室、Minnesota大学、MITRE公司、哥伦比亚大学与微软研究院等都在这方面进行了较为深入的研究,分别提出了各自的视频摘要策略,视频摘要的表现形式也由最初的静态摘要转变为现在的动态缩略视频。
总的来说视频摘要是对一长段视频内容的简短总结,即视频摘要就是一连串静止或运动的图像,分别称为静态视频摘要和动态视频摘要,它们用精简的方式代表了原视频的内容,同时保留了原内容的要点。静态视频摘要是从原始视频中剪取而生成的一系列静止图像的集合,这些代表了原始视频的图像成为关键帧;动态视频摘要是由一些图像序列以及对应的音频组成,它本身是一个视频片断。两者区别是静态视频摘要只考虑其关键帧,忽略了音频信息,但生成摘要的速度比动态视频摘要快;动态视频摘要表现的内容比静态视频摘要丰富,通常以镜头的方式表示,融合了图像、声音和文字等信息。
视频摘要的作用主要是便于存储和视频的浏览或查找,相对于原始的视频资料,视频摘要的长度要短很多,节省了存储时间和空间。视频摘要保留了原内容的要点,所以对于用户来说,浏览或查找视频摘要比浏览原始视频要节省时间。
视频摘要生成方法及过程
视频摘要的生成方法大致可以分为4类:
简单的生成方法
基于时间点对视频进行采样,即每间隔一定的时间抽取一个代表帧或者一个片段,这种生成方法很容易实现,但完全没有基于视频的内容。
基于视觉信息的生成方法
根据视频里出现的颜色、纹理、形状、运动方向和强度等视觉信息,基于模式识别的思维,应用各种视频和图像处理技术,进行镜头探测、关键帧提取、场景聚类、运动特征提取等一系列操作,最终生成具有代表性的关键帧序列或缩略视频。这种算法完全基于视觉特征,忽略了音频、字幕等信息对视频的作用。
融合多特性的生成方法
在基于视觉方法的基础上融入其他媒体提供的信息,准确的判断视频片段的重要程度,这种算法是目前大多数视频摘要技术采用的方法。
基于视频句法语义的生成方法
从视频的句法结构分析入手,探寻镜头与镜头之间、场景与场景之间的结构规则,将视频的句法语义尽可能完整的保存在摘要中。
视频摘要生成过程可以归纳为3个过程:
视频分割
任何视频摘要算法都遵循“先分后合”的原则,要进行视频内容理解和分析必须首先将视频切分成合理的基本单位,这些基本单位包括场景、镜头、帧等。
视频内容提取
采用模式识别或者视频结构探测的方法来获取能够被计算机或者人感觉的信息。
合成摘要
把判定为重要的视频片段组合在一起形成某种形式的摘要。
如果将上述3个过程细化,由原始视频生成视频摘要首先要对非结构化的图像流进行处理,使之成为结构化的数据,这个过程被称为视频结构化,又叫视频分析。帧是视频数据的最小单元,是一幅静止的画面,镜头是由帧组成的视频数据的基本单位,是摄像头的一次连续的动作,只能拍摄相邻地点连续发生的事情,场景由内容相近的镜头组成,从不同的角度描述同一个事件,视频是由许多场景组成,叙述一件完成的事情。针对视频内容的结构化提取是通过自底向上的方法从每一帧中分析出结构化信息。
视频结构化主要步骤有镜头分割、关键帧提取、场景重构。
镜头分割:镜头是视频检索的基本单元,大部分视频是由一个个镜头连接而成的。在编辑时,可能采用不同的方法将前后两个镜头结合在一起。两个镜头的结合方法可能是突变,即一个镜头直接加在上一个镜头最后一个画面之后;也可能是渐变,如淡入淡出、慢转换等。镜头分割过程的主要工作是镜头边界的检测。常用的镜头边界检测的算法有突变检测算法和渐变检测算法。
关键帧提取:在进行镜头分割后,视频被分解为一个个连续的镜头。在同一镜头中,t时刻的图像帧和t+1时刻的图像帧往往在视觉特征和内容上差别不大,所以在一个镜头中对分析过程而言存在太多的冗余的图像帧,因此就需要从成千上万的图像帧中提取关键帧。所谓关键帧是用于描述一个镜头内容的关键图像,它是从原始的视频文件中抽取的一些静态图像。静态视频摘要就是由这些关键帧组成的。用它们来表示视频,更加简洁,也消除了在视频分析时的巨大冗余。关键帧提取主要是利用图论、曲线分裂、聚类和奇异值分解的方法。这些方法的基本思想是把一帧看成是多维特征空间中的一点,选择的关键帧是点的子集,这些点集能够覆盖特征距离内的其它点,或者能够表明场景内容的变化。关键帧提取算法主要有:基于镜头边界法、基于颜色特征法、基于运动分析法、基于内容的自适应提取方法、基于聚类的关键帧提取方法等。
场景重构:场景是由语义上相关和时间上相邻的若干组镜头组成的。场景是视频所蕴涵的高层抽像概念和语义的表达。在视频分割中,首先将视频切分为一个个的镜头,然而实质上某一些连续的镜头在情节上是相关的,这组镜头具有相同的语义,表达同样的主题,将这些镜头重构成场景也是视频结构化的重要部分。重构的场景是观众头脑中形成的主观概念,因此,场景重构的边界检测也就比镜头边界检测要困难得多,更具有挑战性。完全自动场景变换检测系统很难实现,很多文献提出了场景变化检测的算法。这些算法可分为两类:时间约束聚类算法和声音、视觉特性检测算法。前者是把视觉相似和时间接近的镜头组织成一个场景,目标在于用一种紧凑且有语义含义的方法表示视频;后者则强调模仿人的观察力检测场景变化。
视频摘要未来发展趋势
随着视频、音频内容分析技术、自然语言理解以及人工交互技术的不断发展与完善,未来的视频摘要技术将出现以下发展趋势:
1)多模态的视频摘要,即融合图像、视频、音频以及文本等多种媒体内容的视频摘要。大量的实验证明,将各种媒体的特征有机地结合在一起,才能最大限度地让用户在短时间内迅速理解并获取视频的内容,如标题与故事板相结合的摘要形式必定会比单一的标题或故事板的摘要形式更容易让人理解。
2)交互式的视频摘要。现在的视频摘要多半是主观的、按照生成者意图定制的摘要,力求让用户理解或浏览视频内容。但未来的视频摘要将是交互式的,允许用户指定摘要的形式,摘要哪方面的内容,便于用户自己设计个性化的摘要。未来的视频摘要技术目标是生成自适应的、可视化的视频摘要,即根据用户需求对内容进行自适应的表现。具体体现在允许用户对视频片段进行标注,允许用户调整缩略的压缩比,如对感兴趣的内容设置较小的压缩率。另外,它可以通过对用户交互记录的分析获取用户的喜好,按照用户喜好自适应地生成缩略。目前,已经能够实现通过交互式的地图以及时间线的方法对新闻视频按地区和时间进行快速信息的获取。
总而言之,视频摘要技术正在向多模态、个性化以及融合的方向发展,具有很好的研究价值以及广阔的应用前景。
视频摘要在安防领域的作用
视频摘要技术目前已经广泛地应用于大量使用视频监控的行业,例如:
公安行业:关键道路、卡口视频智能摘要;
交通行业:重点路段、收费闸口视频智能摘要;
监狱看守所:重点监舍、人员交接班视频智能摘要;
大型展会:场馆、出入口视频智能摘要;
电信行业:相关网店、基站、机房视频智能摘要;
电力行业:相关变电站、电力设备。
目前市场推出的视频摘要子系统是从海量的视频文件中迅速定位播放相关事件的视频,找出有价值的视频信息,缩短视频回放翻查时间,节省人力成本,使查看所有视频成为日常工作的一部分。视频摘要子系统能够对重点监控区域的录像文件进行特征分析,使原来需要数小时查看的文件,在几分钟内可以快速浏览查看。用户通过摘要回放,可以快捷的预览视频覆盖时间内的可疑事件和事件发生时间,并根据摘要短片中的单个事件索引,直接链接播放可疑事件的原始视频,观看整个事件的真实情况。同时视频摘要子系统还提供对处理后的视频文件进行物件特征搜索功能,用户可以通过设置活动物件大小、移动方向以及颜色等信息,对大范围的视频进行搜索,找出与用户设置信息类似的物件,并通过查找结果,回溯到原始视频。
结语
总的来说视频摘要技术已经广泛使用在安防行业各种应用场景。视频摘要技术建立在基于内容的多媒体分析技术基础上,多年以来一直是国内外多媒体研究的热点之一。如何集成现有成熟技术到视频摘要系统中,使视频分析和检索系统能够真正实现商业化应用,也是今后研究的重点之一,面向监视视频的视频摘要技术具有很大的商业应用前景。
(本文作者现任杭州海康威视系统技术有限公司图像处理与智能分析部工程师)