存储感知世界的视频编码分析与评测

智慧城市发展有目共睹，作为一个生态系统，感知是重要一部，通过以视频监控等为基础搭建的感知物联网是数据收集的重要环节，而对数据进行存储、分析则成为种种之中。那么在万物联网的世界，视频监控编码分析、存储有何挑战?又如何解决?

　　视频编码与分析的技术挑战

　　在编码效率方面，大家可能知道，到现在为止，所有视频系统里面用的都是非常常规的，通用的视频编码的算法和芯片。这个用法对不对呢?实际上这是不对的，但是现在已经形成这种习惯了，都是这么用的，你不这么用，人家反倒会质疑你。当然从市场化、从减小成本这个角度来说它是对的。但是从视频监控的目的来看，实际上是不对的。因为那个通用的编码技术，它是为电视服务的，本身它这个出发点就是错的。

　　目前视频的自动分析做得不好。因为它在系统设计的时候，不是为了视频自动分析这个目的，而是为了视频存储和以人为核心的视频跟踪，就是一定要有一个人坐在那里看那个大的显示屏。靠这样的一套指导思想来设计现有的智慧城市里面的视频系统，用这样的一个架构去做自动分析，是根本无法实现的。

　　随着时间的推移，监控视频的数据占整个大数据的比重基本上都在一半或者一半以上这样一个数量级。所以数据的存储和处理做好了，大数据的问题就解决了大部分。现在这些大数据之所以没有有效的利用起来，里面很多知识还没有归纳总结出来，也是和现有的数据积累过程，以及这个系统设计的出发点是有关联的。

　　针对这些问题，我们要找到一个技术上的切入点来处理。这个切入点，要更多的看目前智慧城市里急需的到底是什么。实际上就是急需事件的追踪。例如说，有一个人报案，说某家银行被抢了，劫匪坐了一辆白色的车跑掉了，你有没有办法在比较短的时间内查到这辆车的位置。

　　智慧城市中视频技术面临的挑战，就是我们现在面临的三大问题，一个是监控视频的数据存不下，一个是查不准，一个是挡不住。如果我们把这三个问题梳理一下，从技术上来说就是，一个是编码的问题，一个是视频分析与跟踪的问题，融合起来还有跟GPS、音视频结合起来使用的问题。

　　如果我们把它归纳为技术挑战，那就是两个挑战，一个是高效视频编码的挑战，当然是面向监控视频的。第二个就是如何对分析和检索进行支持。如果大家对视频编码和视频分析稍微熟悉一点的话，你会发现一个很奇特的现象，就是做视频编码的人对视频分析不感兴趣，或者说不太做。反过来，做视频分析的人对编码怎么编，基本上做的也不多。为什么会出现这样的情况?做编码的人处理的对象是像素和块，而做分析的人面对的是特征。这两个一个是踩在地面上，一个是在山头上，所以这两伙人很难交汇。我们现在是希望解决这个问题，因为必须把这两个事一起来做，你才可能做成一个面向智慧城市的技术。

　　高效视频编码标准

　　从标准的历史上来看，实际上前30年中，基本上所有的贡献、所有的技术都是围绕着通信领域的视频编码和广播里面的视频编码做的，前期主要是面向广播的视频编码。当然也有面向通信的视频编码，后来也出现了兼顾通信和广播的视频编码，但是所有这些编码都不是面向监控的。你可能会说，视频通信不就是监控的一种吗?有的专家就说，如果你要看现在的视频监控，实际上它是发展了三代，第一代是模拟，第二代是数字，第三代是IP监控。这个IP监控是在网络上，但是不是和编码有针对性的，所以面向监控的编码，目前国际上没有人做这样的标准，只有中国人在做。

　　目前的编码框架一个是变换编码，一个是预测编码，还有一个是商务编码，把这三块组合起来，称为混合编码框架结构。这种编码技术已经使用了30多年。中国从2002年开始，也组织了一个自己的标准，2006年第一版出来之后被ITUT接受为IPTV的一个格式。再后来被广电和工信部联合接受为我们国家地面数字电视机顶盒和地面数字电视一体机的标准，去年AVS的增强档成了我们国家广电的行业标准。去年我们为了把这个标准国际化，也专门在IEEE的标准化协会下面成立了一个AVS的工作组，目前这个工作组已经把第一版编码所有的流程走完了。

　　到现在为止，监控档次实际上是AVS若干个档次当中的一个。AVS的监控档次引入了一个背景建模技术，这是目前其它的标准里面还没有非常明确的事情。我们做了一些数据分析发现，对于监控而言，它看的场景是比较固定的，不管摄像头是固定不动的还是旋转的，这都不要紧，实际上它的场景是固定的，一旦这个摄像头安在这个地方，它就在这个场景下，如果你有办法把这个场景学习下来，用它参与编码，可以提高编码效率。如果你用场景建模，它就可以降低以前的码率，这样就可以提高它的编码效率。场景模型这方面就没有太大的难度，就是我给你一个视频，把视频分为前景和后景，前景是场景没有的东西，背景是原来的场景，如果能这样有效的分开，任何一个视频就可以分为前景和背景的组合，就可以分开进行编码，对前景可以多用一点比特，使它几乎没有损失，对于背景，可以用相当的参数代替它的场景，减少它的比特。

　　整个系统工作起来，需要对整个码流进行定义，这些定义会告诉你现在参考的是背景模型，还是实际码流。通常我们编码的时候，它的参考帧都是固定给你的。我们现在就变成需要换参考帧的时候，你可以用模型，也可以用实际的帧，哪个效果更好，就用哪个。这样我们就从语法上把这个机制建立起来了，而且这个机制可以允许你在原来的框架中增加背景建模。有了这样一个机制，我们利用背景建模技术，不单在AVS上可以提高一倍的编码效率，还可以把它嵌到H.264和HEVC里面，结果是一样的，都可以提高原来一倍以上的编码的效率。这是面向视频监控，面向背景建模的编码技术。

　　关于视频分析

　　现在的分析技术都是基于把原来的编码图象解开了以后来做。现在的问题是有没有办法不用解码就进行分析。这个也是我们需要做实时响应的要点。现在的系统设计，完全不是面向视频分析的，因为它是存在那里，要用的时候把它解开，然后再进行分析的。我们现在试图找一种方法，就是不用解开，或者不用全解，就来进行分析。

　　AVS有一个监控档次，就可以支持这件事。为了说明这件事可以支持，它可以从帧、区域、对象、事件等不同层面对这个东西进行描述。这里最关键的一个就是ROI区域，你要对它进行描述和表达，将来编码进行阐述的时候，是对这一块单独来做的，当进行视频的时候，你只需要对前景，或者说对ROI来分析。

　　这种思路其实不仅仅是可以用在AVS上，我有几个学生专门把这种思路嵌到HEVC、H.264里面，不但编码可以提高1倍以上，还可以把感兴趣的区域定位出来。从处理速度上来讲，不同的算法可能有的时间长一点，有的时间短一点。HEVC的块的结构组合更灵活，利用它的块的组合的特点，也可以做很多ROI的描述，也可以根据这种可变块结构描述，做很高的编码和识别的工作。

　　人脸识别是非常重要的，我们也有一个专门的课题做人脸识别的工作。人脸识别最理想的分辨率是100×100，最低的也要50×50，如果再小的话，识别效率就会差。编码压缩的力度越大，识别率就会降低得越快。

　　我们现在追求的目标不是光用人脸，实际是人脸和身体组合在一起去做跟踪，这样才会比较有效。因为光看人脸的话，如果分辨率不够，你很难完成跟踪的任务，特别是有时候他是背过身来的。我们要把这个对象从头到脚跟踪下来，然后找到他正面的图象，看看是不是你要找的人，如果是的话，你就可以全部回溯，如果不是的话，你就把它丢掉。

　　现在智慧城市当中的视频系统的设计，并不是面向智能分析和识别的，所以我们有必要去对这个系统设计进行一些影响，在高效的视频编码，我们应该可以有一些改进。另外基于感兴趣区域的表达，我们也可以有所作为。如果把这两者联合起来，将会是一个很好的创新。

无线成主流高清视频监控传输方式点评

存储感知世界的视频编码 分析与评测