平安城市进入了一轮新的建设高峰,尤其是在一些一线城市,平安城市覆盖面越来越广,不仅仅是传统的视频监控和报警管理等治安管理系统,还将交通电子警察、应急系统、停车管理等城市管理纳入,提升了数字城市、智慧城市的高度。
由于视频监控属于带宽密集型应用,在如火如荼的建设大潮背后,是大批的IT系统进入,这包括城域网建设、视频存储系统建设、视频流转发服务器建设等等,同时,这些系统的建设又带来了庞大、繁杂的系统维护问题。从2010年的世博会首次大范围建设高清监控系统,到2011年的重庆大规模高清监控系统投入使用,给视频监控系统带来越来越大的压力。这些压力主要体现在:
· 实时高清图像清晰度和网络带宽之间的矛盾;
· 高清录像回放清晰度和录像存储容量之间的矛盾;
· 高清录像回放用户数量和录像存储系统吞吐能力之间的矛盾。
这一系列的矛盾直接对系统建设成本和复杂性提出了更高的要求,无论是政府直接建设还是电信运营商或视频监控厂商BT模式,在当前国际金融危机和国内通胀压力形势下,要从财政中拨出巨款投入城市治安管理建设,对于尚处于发展中阶段的各级政府,不亚于一个沉重的经济负担。
笔者有过多年的通信、图像处理的工作经验,本文中提出了个人技术见解, 希望能够借此推动高清监控系统推进和完善。
方案一:借助于最新视频编码技术
当前平安城市中的高清监控采用编码、传输、解码、存储等一系列数据流程,为了节省投资,很多采用了分布式存储,也就是说将前端的高清视频数据通过NVR、H-DVR、NAS和IP-SAN 等存储设备在分控中心进行集中存储,分布式存储的优势在于将数据集中于各分中心,在较大规模的系统中,管理便利,可靠性好。集中存储是将前端的高清视频数据通过NAS、IP-SAN等集中在存储中心,安全性好,但是投入成本与规模相关。
当前的高清编码主要采用H.264编码,一路1080p的码流一般为8Mb/s,存储一天需要的硬盘容量为8*3600*24/8/1024=84.4GB,一个月就是84.4*30/1024=2.5TB。如果部署40个1080p的监控点,一个月的录像文件达到100TB!目前48盘位的磁盘阵列,全部接2T的硬盘,做完RAID5后,可用空间也不够。所以,高清监控势必会增加存储设备上的成本投入。
所以,无论是分布式存储还是集中式存储,都不可避免需要建设庞大的录像存储系统。
IPTV视频点播实现低码流高质量
但是,当前电信IPTV视频点播应用已经做到了2Mbps@720P,4Mbps@1080P,甚至有些私有编码算法已经能够做到512Kbps@720P,1Mbps@1080P的超低码流级别,这甚至要比2013年才能真正发布的h.265编码算法(2Mbps@1080P)还要低。而且这些视频点播是全动感(full motion)的电影视频,画面复杂度要远远高于监控画面(监控一般为30%动感画面),那么,是否两者之间有可借鉴之处呢?
诚然,超低码流的电信IPTV应用的视频点播数据一般是经过多次压缩(multi pass)后,从而获得的低码流、高画质的小体积视频文件,这些工作都是离线、非实时完成的。
而实时转码一般是指将电视台的高清节目实时转码为私有格式,以便获得高质量、低码流,通过现有ADSL等网络传递到用户家中。在以上表格中,全高清1080P实时转码后的码流仅为2.2Mbps,这个码流对于我们监控行业动辄4Mbps的码流来讲,也是非常低的。考虑到监控行业的30%动态画面,笔者相信1Mbps的实时转码码流应该是能够做得到的。当然,对于交通卡口等全动感画面,2.2Mbps的码流也是相当不错的成绩了。
当然,以上电信级的视频压缩算法可能根本无法跑在当前的TI压缩处理芯片上,要么是跑在专门设计的ASIC压缩芯片上,要么是直接运行在PC服务器上,来实现低码流编码。
基于电信设计思路,增设视频转码层
基于以上技术发展,笔者建议采用电信系统的设计思路,对于当前的平安城市系统进行分层设计。
传统的平安城市视频监控一般是编码、传输到分控中心进行实时码流浏览和录像存储。从系统层次上划分,可分为视频接入层、视频录像层、视频实时显示层、视频转发层。
笔者提出的新设计是,相对于传统的4层规划,建议增加一个独立的视频转码层。视频转码层的工作是将视频接入层的视频进行解码,然后进行二次编码,在保持画面质量的同时,获得更小的码流,以便于节省存储空间。
按照传统的设计,视频编码层一般输出2个h.264码流,第一个h.264码流为高码流(6~8Mbps),一般用于实时显示;第2个h.264码流一般为中等码流(3~5Mbps),用于录像,主要是为了降低存储空间。
在新设计中,视频编码层直接输出MJPEG码流,MJPEG码流相对较大,1080P能够达到50Mbps,但是MJPEG基本上没有图像损失,在分控中心可以做到无延迟实时显示,清晰度最好。而且解码占用CPU极低。视频转码层收到MJPEG码流后,进行二次图像压缩,利用最先进的视频编码技术,进行二次编码,从而在保持画面质量的情况下,获得极低的压缩码流,然后将此码流送往视频录像层进行保存。
在新设计中,视频转发层将视频录像层的低码流录像转发至录像回放工作站或其他远程工作站,并利用标准的h.264解码器进行解码。
在以上设计中,新的视频编码层也可以支持HD-CCTV摄像机,直接接入SDI视频信号。按照电信行业的设计标准,实时编码需要的PC处理能力将是延迟编码的PC处理能力的2倍。所以,如果采用实时编码,那么大概一台I5 2.8GHZ的PC服务器可以处理2路1080P视频转码。按照摩尔定律,CPU每隔18个月性能翻一番(价格不变),那么考虑到Intel很快就要释放最新采用3D晶体管技术的CPU系列,那么如果采用i7系列的PC服务器,将可以转码8路左右的高清视频。和降低的存储成本相比,总体成本应该还是要降下许多。[nextpage]
但是,由于直接采用了MJPEG码流,这会大大提高对网络带宽的要求,对于政府自建公安专网,最便宜的光纤收发器也是百兆以太网,所以主要网络压力还是在于核心交换机,在这里,为了适应新的转码层需要,建议采用多个千兆汇聚层交换机,分为多个网段,实现转码后再连接到录像存储层。
如果采用了电信BT建设模式,建议直接采用嵌入式低码流高清编码器模块,加装在高清网络摄像机和接入网络中间。如果采用HD-CCTV摄像机,则可以直接用嵌入式低码流高清编码器直接通过SDI接口接入进行编码。
高清网络摄像机需要新一代的编码压缩算法,但是h.265是以电影、电视行业为核心利益的,其技术核心是各种算法兼容性、播放安全性,保证不同专利厂家之间的利益,其技术发展、技术应用对于安防行业来讲,都有一定的局限性。与其等待新标准的完善,还不如勇于创新,采用先进的私有算法,为广大安防用户提供低成本解决方案。
方案二:借助于智能视频分析技术
在上文中,笔者已经提出,监控行业的视频画面特点是,30%的画面为动感画面(人/车运动),其他70%基本上都是次要画面(背景树、花草、小动物)。对于录像存储来讲,如果只录制人/车的画面,那将大大节省存储空间。
识别重要画面
而在30%的动感画面中,可能只有20%的运动画面是我们所关注的(兴趣区内),其他80%的人/车运动并不影响我们的安全(兴趣区外)。所以,如果利用智能视频分析将重要画面识别出来,那么我们就可以节省94%的高码流空间,考虑到智能视频分析算法识别的准确性,对于这94%的次要画面,我们可以采用低帧速率+高码流来进行录像(视场景不同而定,对于实时性画面要求高的应用,可考虑低码流+高帧速率)。
当然,当前大部分的摄像机都具有移动侦测功能,那是不是应用免费的移动侦测功能就可以完成以上功能了呢?在笔者看来,不仅摄像机自带的移动侦测功能无法实现笔者提出的以上设想,就连市面上大部分的智能视频分析产品也无法达到以上的设计目的,这是为什么呢?
谈智能视频分析就不得不回顾一下智能视频分析的技术核心,智能视频分析一般是由画面分割(目标探测)、前背景分离(目标跟踪)、目标分类、目标辨识4大部分组成的。当前的VMD移动侦测只能做到画面分割这一层,而且无法抑制大量的误报。高级VMD移动侦测,能够实现目标跟踪,从而大大降低室外环境引起的误报。通过手工标定景深,利用目标像素大小,从而过滤掉一些不符合现实的目标,如小昆虫在镜头上快速爬行等;更高级一些的VMD移动侦测,利用多种规则如目标的最小移动速度、目标的最小移动像素、目标出现的时间、目标的对比度、目标的最小像素等等多种参数,将目标进行简单分类,如过大的像素、过快的速度的目标,则是车辆。
有些先进的VMD移动侦测算法通过繁杂的设置,确实可以得到很好的效果,但是无法自动适应天气、环境的变化,所以每到季节变化,则需要重新设置,这对系统维护带来了挑战。
其实画面分割、前背景分离、目标分类并不是单向的数据流,目标分类反过来会影响画面分割的好坏。毕竟只要有像素运动,画面分割就会把这些像素隔离出来,前背景分离就需要运算量来跟踪这些像素团的运动,以辨确实是噪点,还是晃动的树枝,还是人目标在运动。
另外对于传统的智能视频图像分割算法,在DSP上是一种简单的高运算量工作,如(图1)所示,如此大的数量需要强大的DSP来完成,这就是为何当前市场上大部分的智能视频分析算法都只是运算352x288的CIF格式画面了,因为一旦运算4CIF画面,那么DSP就没有运算能力来进行视频编码工作了。
而对于高清来讲,1080P全高清画面的视频数据将高达500Mbps,这对于采用传统智能视频分析算法的厂商来讲,是无法逾越的。
当前最新智能视频分析算法是模拟人脑的识别模式,人眼并不是靠目标的大小来判断目标类别,而是靠目标的特征来判断。例如,假设人眼看到了一个人的下半身被车遮挡,仅凭上半身,人眼完全可以判断这是一个人目标隐藏在车后,而普通的高级VMD移动侦测靠如此少的像素则断定这不是人目标。
通过图像分割实现目标分类
笔者了解到,美国VideoIQ公司最新基于神经元人工智能算法的智能视频分析技术,通过内置20多万种目标模式,利用强大人工智能神经学习算法,可以大大抑制自然界引起的误报,如雨、雪、大风、小动物、飞鸟、光影变化、树枝晃动等。高级移动侦测简单根据像素大小来判定目标,而不考虑目标的外表纹理、颜色、形体几何组合、步伐等人体/车辆模式,必将导致很高的误报。如夏天飞虫、昆虫在摄像机前面飞动,露水、雨滴滑过镜头表面,这些都会导致依据像素大小来做目标分类错误,从而出现大量误报,浪费录像空间。
在图像分割阶段就利用初始的目标分类技术,互相补充,这样大大降低了图像分割的DSP运算量,从而采用一块达芬奇DSP就足可以实现1080P分辨率的智能视频分析和1080P图像编码压缩。
一旦拥有了这种先进的目标分类算法,那么高清摄像机就有能力只回传重要的高清码流来录像;而没有重要画面时,则回传低帧速率码流,保证1080P画面清晰度。采用这种算法最好的方法是直接将算法内置在前端智能摄像机内,这样简化系统的管理。
如果前端摄像机是普通的网络高清摄像机,那么也可以在后端利用PC机来实现智能视频分析,从而获得同样的录像效果。
结语
平安城市建设是一个新事物,甚至在欧美等国也没有太多的案例可以参考,我们国产监控厂商应该携手共进,创造中国自有的技术和标准,从而能够在我国的平安城市建设过程中开发出新的技术能力,推向全世界。