从技术到产品应用，深度解析IVS - 安防知识网

纵观国内市场形形色色的IVS宣传中，我们遗憾的是核心技术缺乏，而声称拥有自我知识产权的厂家也屈指可数。IVS的基本原理如何，其应用情况如何，其产品形式有哪些，未来可能存在的产品形式等，本文将围绕以上问题对IVS做一次全面的阐述，并借此抛砖引玉。

IVS（IntelligentVideoSurveillance智能视频监控）起源于CV（ComputerVision计算机视觉），而CV则是AI（ArtificialIntelligence人工智能）的一部分。从科学的角度来讲，CV的目的是了解自然，寻找和开发能够从影像源中提取有效信息的方法。从技术的角度，CV的目的则是构建计算视觉系统，能够辅助人类完成控制、监测、组织信息、建模和交互等功能。作为CV的一个重要的分支，IVS涉及了图像处理、建模、物体跟踪、识别等等诸多领域，以下将逐一论述。

IVS基本原理
IVS的基本原理是利用计算机视觉技术，对视频画面进行分析、处理、应用的过程，IVS的实现一般包含以下几个层次。

移动目标提取
移动目标提取的目的是有效地排除外界干扰，找到并抽取画面中移动的物体。换句话说，它是一个取证的过程，取得我们视频分析所需要的依据。正是因为如此，它的稳定性与鲁棒性直接决定了后面跟踪、识别，以及行为分析的表现，可以说它是IVS的最基础数据分析的来源。从技术实现的角度讲，它可以分成三个层次。

视频画面的变化分析
第一层是对原始视频流（压缩或非压缩）进行简单的视频分析，得到一些随着时间发生相对变化的区域。通常采用的算法包括相邻帧做差或建立背景模型做差，以及光流法等等。

过滤噪声
过滤噪声的目的在于排除光线变化以及自然与非自然环境变化的扰动。毫不夸张地说，噪音可以给后面的视频分析过程带来灾难性的影响。例如图2A中靠左侧正在向右行走的人已经很难在辨认出他的形状。如何消除这些噪声的干扰是有效抽取移动目标的一项重要任务。

大体上，噪声出现的原因可以分为三种。其一，摄像机自噪声，信号干扰，摄像机抖动，如前景图中的一些细小而又不很连续的亮点基本属于这一类。

其二，光线变化包括室内、外光线的变化。室外的光线变化包括天气变化（由阴天转晴天，晴转阴，太阳位置移动）、昼夜变化、阴影（云，建筑等）的移动；室内光线变化包括灯光的明暗变化、光源的位置及方向的变化。而光线变化所造成的噪音往往比较明显，在前景图中会表现成大片面积的误报。

其三，自然环境干扰。它包括树叶的摇动、水面的波纹、海浪、浮动的云朵、雨、雪；还有一些非自然环境的干扰包括旗子、条幅、窗帘的飘动，以及建筑物玻璃墙的反射等等。靠上方水面的波动就是个很好的例子。

区域提取
一方面，由上两个环节处理过所得到的前景图往往是以像素为单位的，没有一个“物体”的整体概念。另一方面，这样处理过的前景图区域内部很可能存在许多空隙，给描述物体的形状带来不便。在这一环节，区域提取的主要目的就是利用一些基本的二值图像（黑与白）的处理算法对得到的前景图进行加工，填补空隙，并将连接好的区域区分开，最后作为一个个整体返回给系统。返回给系统的内容可以包括区域大小、位置、形状、颜色、图案等等关键特征描述信息，供下一步有针对性的分析。可以看到物体里面包含的大部分空隙已经被添上，而且物体的整体形状变得更加平滑。有了这样的结果，我们就能进入下一步的处理。[nextpage]

移动目标的跟踪
对目标的跟踪是实现任何一项智能视频分析功能（越界、入侵、遗留、盗窃、徘徊、流量统计等等）所需要的前提，因为我们必须要知道是哪个物体，在什么时间，什么地点出现过，出现了多久，运动的方向怎样，等等信息，而这些都只能通过跟踪得到。

目标的表示
通过上一节“区域提取”我们得到了移动目标的一系列与表象相关的静态描述，如形状、颜色等等。然而，要跟踪目标以及了解他们的运动信息，我们必须利用这些描述建立运动模型。

目标跟踪
移动目标的提取与跟踪其实是两个互利互惠的过程。一方面，如果提取做得很精确，跟踪就会变得很简单，只要选择目标的中心就可以了；另一方面，如果跟踪做得很理想，我们就可以在移动目标在下一个时间点可能出现的地方着重提取，这样得到的结果会更精确。然而，正是由于这两方面都存在很大的不确定性，我们需要权衡双方以得到最好的表现。当然，一个稳定的跟踪算法是得到最好表现的必要前提。

跟踪的算法有很多，有基于物体颜色位置的，有根据物体运动方程的，有级连其它物体辅助跟踪的，还有采用模板的等等。但言而总之，目的只有一个，那就是根据移动物体以前的运动状态（包括速度，加速度，方向等）来推测它可能的下一个位置。再通过前面提取到的移动区域信息进行更正补偿，然后确认最终位置并更新物体的运动状态以供下个时间点处理。

显示的是截取的一帧行人跟踪画面。在这里，移动物体（行人）用简单的矩形框表示，过去5秒钟内矩形框的中心被连成一条轨迹。图中存在很多噪音，包括树叶的大幅摆动和遮阳伞的飘动，这些都被成功地过滤掉了。

复杂情况处理
以上所述的只是一些跟踪的简单情况，往往只涉及到对一个或者几个独立目标的跟踪。然而，现实情况要复杂很多。这包括单个目标的遮挡、消失、重现、以及多个目标的聚合、分离等等。我们不仅需要实现个体的稳定跟踪，而且需要对这些复杂情况做出判断，从而采取相应的措施以保证不会出现混淆、遗漏、重复等错误现象。

在显示的是一个移动目标被部分遮挡的跟踪情况。图中行人身体的下半部被遮挡住，也就是说，我们所得到的提取出来的移动物体只有原来的一部分，然而，稳定的跟踪算法能够正确地推算出物体的实际大小并判断出该物体被遮挡。

高级跟踪技术
前面所涉及到的视频监控的大前提是单个的静止摄像机，另外，把视频分析技术应用于多个或者是PTZ摄像机也是一个很热门的方向。其中，自主式PTZ跟踪能够实现对感兴趣目标的自主对焦、移动和拉伸，而不需要其它摄像机的辅助，这样的一个例子。其中的画面被编辑过以显示全景图以及PTZ摄像机所关注的区域。用到的算法与前面我们所介绍的非常类似，只是需要额外地调节PTZ参数以及考虑PTZ马达移动需要的延时等等。此外，还有多个摄像机的接力式跟踪和主从式摄像机跟踪等等，这里不再一一赘述。

目标的识别
对移动目标的识别是个很重要的过程，它不仅可以增强系统稳定性、减少误报率、提高效率，而且为下一步的行为分析打下基础。识别包括两个过程，一个是机器学习的过程，另一个是基于学习后的结果对新出现目标的辨识过程。 [nextpage]

机器学习
机器学习包括训练和测试。训练是指利用已经知道的信息来指导机器，使其具有分辨物体的能力。而测试是利用已知的结果测试学习好的机器，评价其表现并在必要时经过调整后再重新学习。

例如对车和人的识别（归类），首先我们需要车和人的样本集，从样本中再分出训练集和测试集分别做训练和测试。机器学习的方法有很多，包括神经网络、支撑向量机、数据分类（线性的和非线性的）、概率（贝叶斯，贝叶斯网络，马可夫模型，CRF，graphicalmodel等等）。

分类的依据可以是目标物体的形状、大小、颜色、图案、对称性，也可以是目标物体的运动方向、速度、加速度，运动的刚性、周期性。经过学习的机器会构建出相应的模型、模板、分布或子空间以供辨识使用。图14是一个分辨车和人的空间示意图，其中车和人以一些特定的属性（例如形状）被映射到一个高维的空间中，图中一个绿色的平面能够根据他们在这些属性上的差异把车和人的样本集分开。

辨识
给定一个新的物体，系统将它与已经建立好的模型进行比对，选择最接近的匹配作为它的标签（人、车等）。或者可以把它映射到学好的空间或者分布之中，选择概率最大或者距离最近的类别做标签。类似图14的例子，我们把新的物体以同样的方式映射到这个空间中，再通过判断它与这个分割平面的关系我们给它做标记。图15是一个视频监控加了物体辨识功能的画面，可以清楚的看到图中的车与人都被正确地打上了标签。

行为分析
行为分析的目的是利用识别的结果，对于不同的目标（人，车等），进行有针对性的行为判断。

它是依照一个或者多个目标的出现时间、方向、位置、速度、大小、目标间距离与相对方向等，通过不同的规则实现不同的功能。其可以实现的基本功能包括越界，潜伏，超速，遗失，遗留，滞留等等；高级功能包括流量统计，人的个体行为例如摔倒，弯腰，坐下；以及一些人与其他人或物体的交互，例如交接物品、交通事故、上下车等。行为分析没有一个固定的实现模式。简单的可以是一条规则，如速度上限、方向限制；复杂的可以是一个模型，如人的肢体模型，多人交互模型。

IVS产品存在形式
从产业链角度分析，IVS产品从上游到下游可以分成几个层次：核心技术层、解决方案层（软件解决方案、硬件解决方案）、最终产品层。未来很可能会出现芯片级的产品。

在核心技术层，目前在国内还没听说有核心技术转让的消息，国外也鲜有耳闻，一般以公司收购为主要表现形式。

解决方案层则以OV为典型代表，他们的全套解决方案基本上代表了目前全球IVS技术的第一梯队，具备从软件到硬件的全套解决方案，而且以此为主要产品进行销售，以至于目前全球有不少的IVS产品系出同门，技术来源都是OV；产品形式主要是以OV为代表的ObjectVideoOnBoard类产品。

最终产品这一层呈现出百花齐放的态势，各厂家根据细分市场的需求开发出很多类新的产品，但从产品实现方式上又可以分为“模—数”和“纯数字”两个类型。目前主要产品还是以单路和多路IVS视频服务器为主流产品，如WPG的ivBox，以及IP摄像机整合产品，如SONY的IPELA-DEPA系列中的SNC摄像机。[nextpage]

IVS在国外应用情况
市场需求以及科研进展的差异决定了世界上其它国家在应用和研究IVS上的不均衡分布。其中，走在最前沿的要数美国和以色列。从1997年以来，在美国涌现了一大批专业从事智能监控产品研发和生产的公司，其中包括ObjectVideo、Aimetis、Verint、Cieffe、Cernium等等。他们的产品被广泛应用于港口（Mobile，Jacksonville，Houston港等）、机场（Memphis，Miami机场等）、铁路（Madrid，Barcelona，SanDiego等）和国家安全单位（HSARPA，NFS，CBP，DHS，ONR，DARPA等）。举例来说，佛罗里达洲的Jacksonville港使用该系统监控Blount等岛屿的周边码头；迈阿密国际机场通过智能监控提升监控系统性能；美国海关及边防局使用IVS布防北方及南方边境；美国国土安全局安装IVS在加州的美加边境以及在亚利桑那州的墨西哥边境以监控非法闯入；美国海军陆战队第二远征军在伊拉克的Fallujah采用IVS布防等等。

由于以色列军方的迫切需求，在以色列也出现了一些做得比较好的公司，如NICE、IOImage、Mate。他们的产品主要用在边界布防以及商业调查分析领域。成功的案例有很多，像美国纽约警局和加利福尼亚警局使用IVS加强对紧急事件（包括恐怖袭击）的预防和有序反应；美联邦快递通过分析交互过程以提高用户和司机的效率；以色列国会边界安全采用智能监控系统加强防范等等。

除此之外，澳大利亚的Iomniscient和Clearity也是其中的佼佼者。其中，Iomniscient的IQ系列产品被用到了悉尼海港桥体的保护以及2006英联邦运动会的运动会村安全防范。

IVS在国内现状
IVS产品高调亮相中国市场是在2006年，到目前国内已经有大大小小数十个代理商，这些代理商有的是国外厂家如OV、NICE、Verint、SONY、IOIamge等的一二级代理，有的则是国外代理的中国代理或者合作伙伴，转折进入中国。由于产品本身是国外生产的，国外生产和知识产权成本都较高，因此目前国内的零售价格也基本上和国外持平，甚至更高。据笔者了解，国内曾有过1路产品的最高售价达数十万的纪录。而宣称有自我知识产权的几家要么处于学术领域或研发阶段，离产品化产业化尚有距离；要么与国外某些产品从界面到功能相似，价格也与国外产品无太大差异。总的来看，高居不下的成本给最终用户带来了太大的压力，直接导致IVS产品在国内销售都集中在高端市场，无法批量化销售。另外，目前的资料表明，国内已经有了少量的IVS应用，集中在高端的行业应用领域，且基本上属于试点性质，还没有到大规模应用的程度，价格是其中不可忽视的因素之一。

其实，各类展会从去年开始就已经有IVS的身影了，市场反应看似火爆，但销售情况依然压力颇大，除了刚才说到的价格因素，还有系统集成和技术支持服务的问题。目前国外产品虽然说都提供二次开发的接口，但是由于安防项目的个性化需求较强，很多项目的后台软件自身都存在一定量的二次开发，而再要将一个新的系统很好地整合到现有的安防平台中来，也是个不小的问题。更何况还有一些代理连最基本的软件汉化都没有能力做，又怎么可能对系统集成进行良好的支持呢？

此外，IVS产品在安装阶段需要专业人员对摄像机安排最佳位置，或针对已有摄像机位进行参数调整，以达到最佳的效果。有的代理商受自身技术实力限制，短时间无法掌握这么多的专业技能，这对于IVS的推广也是一个不小的障碍。

而值得关注的是，用户方由于对技术缺乏了解，会产生很多基于人的思维方式的想法（在人潮汹涌的步行街发现扒窃等），这需要行业界全体同仁和媒体进行正确的教育与引导；否则当客户的期望远远高于实际产品功能，而产生巨大的心理落差时，客户只会认为该技术尚不实用，并在一个时期内放弃上马IVS的想法，这也许对于IVS这样的朝阳产业将是致命的打击。因此，在IVS起步阶段更需行业自律，业内人士在销售环节不应以销售为唯一目的，对IVS功能进行夸大，而应该进行务实的宣传和正确的引导，大家共同营造好IVS的市场环境和氛围，把市场份额做大。[nextpage]

理性看待IVS的智能
IVS到底有多智能，是否能取代人进行各种复杂、精确的监控是很多人关心的问题。对于这类问题，我们需要以一种积极、辩证的态度来对待。

人工智能到现在为止还不能取代人的作用，就是因为人思考方式的特殊性，人的思维有许多是目前无法使用计算机语言描述和再现的。如：我们能轻而易举的区别步行街上一个小孩是在尾随扒窃，还是拉着母亲挎包在走，这些判断来自许多生活经验和细节观察，而这样的行为如果让IVS分析就很难快速准确区分——尽管IVS可以对特殊行为模式进行建模和分析识别。

类似的问题还有很多，有的由于行为特点太微观，现有的视频技术根本无法获取细节信息；有的则行为特点无法与其它行为区分等等。我们不能强求IVS全能，也不能对IVS的“智能”期望过高，盲目地认为它可以做到人类监控员所能做到的一切。

IVS产业化的时间还很短，技术发展过程中出现的问题和障碍都是正常的。进一步来讲，IVS有很多在学术界用得很好的算法却不能产业化，原因很多，或算法的效率不高，花费太多的计算时间而无法实时工作；或算法的稳定性不够或者无法和其它模块整合等等。不过，我们有理由相信IVS的智能化程度将不断提高，这需要学术界和产业界以及用户方共同长期努力。

目前IVS能够做到一些人类所无法完成的功能，它是一个非常良好的辅助监控手段，虽然实现完全无人值守尚需时日，但是值得我们关注的是，IVS已经能够对相当多的基本行为进行识别和判断，对减轻监控人员的工作强度，提高监控质量已经起到了革命性的变化。从目前国外的应用情况来看，短短几年时间，IVS的用户数量迅速增加，市场的认可度持续上升，因此我们相信IVS将成为未来监控系统不可或缺的必选组件之一。

至此，还有一个重要话题需要提及，那就是活动图像专家组(MovingPictureExportsGroup简称MPEG)于1998年10月提出，于2001年最终完成并公布的MPEG-7标准。

1996年10月，运动图像专家组开始着手一项新的研究课题来解决多媒体内容描述的问题，即多媒体内容描述接口（简称MPEG-7）。MPEG-7将扩大现今在识别内容方面存在的能力限制，将包括更多的数据类型。换言之，MPEG-7将规定用于描述各种类型的多媒体信息的一组标准描述符集、描述符的结构和反映它们之间关系的描述图。

从整体上看MPEG-7的标准在功能方面几乎包含了IVS的全部定义，如：在MPEG-7中对于视觉信息的描述将包括颜色、视觉对象、纹理、草图、形状、体积、空间关系、运动及变形等。除此之外，MPEG-7的标准还支持多种音频和视觉的描述，包括自由文本、N维时空结构、统计信息、客观属性、主观属性、生产属性和组合信息等。虽然从应用角度看两者是存在一定的差异化，但显然MPEG-7更加宏观和全面，在MPEG宣布的应用领域中就包含了“监控”这一项，而且目前国外已经有公司在依据MPEG-7的标准在开发IVS系统。那么，今后IVS技术会不会归为一统都遵循MPEG-7的标准，成为MPEG-7的一个补充或者一个子集；还是自成一派独立成为一个标准，现在似乎没有人敢下此断言。

数字化和智能化是视频监控的必然趋势，IVS时代的到来势不可挡，IVS芯片化的可能亦存在；IVS产品究竟是百花齐放，还是走向一统形成一个全新的监控标准，让我们拭目以待、共同见证。