视频数字编解码技术标准及其发展趋势(上) - 安防知识网

近十年来，视频编解码技术不断的进步，依 McCann 定律所指的规律，压缩率平均每年会以 15%的速率增加，尤其近年的发展更是迅速，并引起业界及其相关行业的广泛重视。本文主要介绍在进入二十一世纪前后，视频编解码标准方面已经取得的成绩，目前让各界震惊的新视频编解码技术与标准，以及预估未来压缩技术可能的发展趋势，供读者参考。
文/董春利

在互联网日新月异发展的今天，异质网络日益进入和影响人们的日常生活和工作，影音多媒体等相关产业受到各界重视，尤其是像手机及数字相机等的手持式装置加入了影音功能之后又进入网络的互联，更加促使人们研究如何将影音的压缩与传输做到更快更好。

2007年全球彩色手机占全部手机市场份额的92.3%，其中内建相机模块的约占71.5%。预估2008年彩色手机将占98.1%，其中内建相机模块将占88.7%。这个趋势说明了影音多媒体应用已成为手机服务的主流。为了促进消费者能够使用更多高质量之影音应用服务，无论是手机大厂或是电信业者都希望随着第三代手机的来临，能够进一步提供消费者高质量的影音服务。

因此，如何能够将数字影音信号有效地压缩并传送，是设计影音多媒体相关产品所需重视的问题。我们知道影音数据量非常庞大，例如，以大约320×240大小的分辨率，24位／像素，每秒30帧的形式传输时，其数据量高达 56 M bit／s。而以这个速率保存的1分钟未压缩影像将占用 3.3G bit的储存空间，显然这样的要求即便对千兆网的带宽也是难以接受的。

对于现有的无线网络和窄带频宽来说更是难以接受。尤其运用在手机、可视电话等上，频宽仍过于狭窄，接收质量不佳，所以想要在手机上传输高画质视频，需要有更好的压缩技术。

成熟的视频编解码技术标准
MPEG系列视频编解码技术标准
MPEG的全称是“Motion Picture Expert Group”（运动图像专家组），隶属于国际标准化组织ISO/IEC的一个专家工作组，主要负责为数字音视频编码算法开发和制定标准。

该组织始建于1988年，并于1992年制定出MPEG-1标准，它是将视频数据压缩成1-2Mb/s的标准数据流，工业产品VCD机和MP3播放器都是以该标准为基础衍生出来的。

随后的1994年，制定出MPEG-2标准，它是为了获得更高的分辨率（720×486），提供广播级视频和CD品质的音频而产生的高质量音视频编码标准，传输速率在3-10Mbit/s之间，它也是数字电视、DVB和DVD所遵循的压缩标准。

随着研究工作的深入发展，又公布了“超低比特率活动图像和语音压缩标准”，排序MPEG-4,它是一种新型的多媒体标准，与前标准一个重要区别就在于它是一个基于对象的视频编码压缩标准，它所定义的码率控制的目标就是获得在给定码率下的最优质量，它为互联网上传输高质量的多媒体视频提供了很好的技术平台。

MPEG-1视频编解码技术标准
MPEG-1为数字存储媒体的视频和伴音编码（Coding of moving pictures and associated audio for digital storage media）。它是低分辨率的数字视频编码标准，1992年11月成为国际标准ISO/IEC 11172。标准名称为“信息技术—用于数据速率约1.5Mbit/s的数字存储媒体的视频和伴音编码”。

MPEG-1广泛的应用在VCD的制作和一些视频片段下载的网络应用上面，可以说99%的VCD都是用MPEG1格式压缩的。MPEG-1的像质等同于VHS，存储媒体为CD-ROM，图像尺寸为320×240，音质等同于CD。压缩后的输出速率定义在1.5 Mbit/s以下。这个标准主要是针对当时具有这种数据传输率的CD-ROM和网络而开发的，用于在CD-ROM上存储数字影视（即VCD）和在网络上传输数字影视。

MPEG-2视频编解码技术标准
MPEG-2为运动图像和伴音信息的通用编码(Generic coding of moving pictures and associated audio information )，为高分辨率数字视频编码标准，1994年11月成为国际标准ISO/IEC 13818。

MPEG-2主要应用在 DVD 的制作（压缩）方面，同时在一些 HDTV（高清晰电视广播）和一些高要求视频编辑、处理上面也有相当多的应用。
MPEG-2与MPEG-1的区别在于：
·除了对帧(frame)进行搜索，还对场(field)进行搜索；
·色度格式还可为4:2:2、4:4:4；
·帧尺寸最大可为16383×16383；
·可分级(Scalable)：时域(Temporal)等等；
·非线性MB量化因子。

此间，MPEG组曾经起草过MPEG-3，原本针对于HDTV(1920×1080)，后来被MPEG-2代替。

MPEG-4视频编解码技术标准
MPEG-1主要是为VCD设计的，MPEG-2最初是为HDTV设计的，后来也用于DVD。但是它们都不太适合于网络传输，特别是在低码率和异构网络环境下的音视频信号通信。MPEG-4的目标就是为视听(audio-visual)数据的编码和交互播放开发算法和工具，最初是一个数据速率很低的多媒体通信标准，后来的目标是要在异构网络环境下能够高度可靠地工作（传输的码率可变、图像的分辨率可变、画面的内容可选），并且具有很强的交互功能。

为了达到低码率的目标，必须大幅度提高视频数据的压缩比，而MPEG-1/2所采用的基于像象素的的压缩方法，在压缩40到50倍后就几乎达到算法的极限，必须另辟蹊径。

为此，MPEG-4引入了基于对象表达(object-based representation)的概念，用来表达视听对象(audio/visual objects，AVO)；MPEG-4扩充了编码的数据类型，由自然数据对象扩展到计算机生成的合成数据对象，采用合成对象/自然对象混合编码(Synthetic/ Natural Hybrid Coding，SNHC)算法；在实现交互功能和重用对象中引入了组合、合成和编排等重要概念。MPEG-4系统结构示意如图1所示。MPEG-4接收端的构造部件如图3所示。

MPEG-4中制定了一个称为传输多媒体集成框架(Delivery Multimedia Integration Framework，DMIF)的会话协议，它用来管理多媒体数据流。该协议在原则上与文件传输协议FTP(File Transfer Protocol)类似，其差别是：FTP返回的是数据，而DMIF返回的是指向到何处获取数据流的指针。DMIF覆盖了三种主要技术：广播技术，交互网络技术和光盘技术，如图2所示。

MPEG-4为视听对象编码（Coding of audio-visual objects），是针对多媒体应用的图像编码标准。1999年1月成为国际标准ISO/IEC DIS 14496-1。

MPEG-4是分辨率可变的视听对象编码标准，使用的是一种新的压缩算法，使用这种算法的 ASF 格式可以把一部 120 分钟长的电影（未视频文件）压缩到 300M 左右的视频流，可供在网上观看。其它的 DivX 格式也可以压缩到 600M 左右，但其图像质量比 ASF 要好很多。

MPEG-4将应用在移动通信和公用电话交换网(public switched telephone network，PSTN)上，并支持可视电话(videophone)、电视邮件(video mail)、电子报纸(electronic newspapers)和其他低数据传输速率场合下的应用，如电视会议、网络流媒体、移动视频通信、IPTV等流媒体方面。
·编码：视音频对象、分块/分级/分层、基于内容和对象的编码；
·格式：支持各种不同的分辨率；
·音频：支持多种码率2-64kb/s。

MPEG-7视频编解码技术标准
MPEG-7为多媒体内容描述接口（Multimedia content description interface），是基于内容表示的多媒体内容描述标准。2001年9月成为国际标准ISO/IEC 15938-1。
目的是制定一套描述符标准，用来描述各种类型的多媒体信息及它们之间的关系，以便更快更有效地检索信息。这些媒体材料可包括静态图像、图形、3D模型、声音、话音、电视以及在多媒体演示中它们之间的组合关系。在某些情况下，数据类型还可包括面部特性和个人特性的表达。

MPEG-7致力于视听数据信息编码的表达（表达内容的信息，而不是内容本身）。这一点与目标集中在视频/音频数据的压缩与编码的MPEG-1/2/4不同，MPEG-7所表达的不是内容/信息本身，而是表示信息的信息。

MPEG-7聚焦于多媒体材料的通用接口的标准化，关注数据资源的交互性与全球化、数据管理的灵活性。MPEG-7只关心描述本身，而将描述的生成、特征的提取、索引的处理等都排除在标准之外。

MPEG-7提供了可视内容的标准结构和联接机制、以及对可视内容表述的标准化，为实现基于内容的检索提供了应用框架，并使对多媒体数据的创建、交换、检索和重用更加有效。

MPEG-21视频编解码技术标准
由于多媒体标准层出不穷，但各个标准之间还存在缺漏，不能真正做到配套衔接，还需要一个综合性标准来协调；随着网络技术和应用的发展，基于多媒体的电子商务需要一个其结构可以理解的共享模式——多媒体框架的支持。

有鉴于此，MPEG于1996年10月提出制定多媒体框架标准的设想，2000年6月正式批准制定MPEG-21标准的计划。MPEG-21又叫多媒体框架（ISO/IEC TR 21000-1:2001 Information technology -- Multimedia framework (MPEG-21)），2001年12月成为标准，功能是多媒体框架标准，基于多媒体的电子商务需要发展的共享模式，应用于不同多媒体系统的集成和应用。

H.26X系列视频编解码技术标准
ITU-T国际电信同盟-电信标准化部门（International Telecommunications Union - Telecommunication Standardization Sector）及其前身国际无线电咨询委员会CCIR（International Radio Consultative Committee）制定了一系列音视频压缩编码和通信技术标准。其中的ITU-T H.26x是与MPEG类似的视频编码系列标准，参见表1。

H.261视频编解码技术标准
H.261—P×64kb/s码率音像服务的视频编码(Video codec for audiovisual services at p x 64 kbit/s)，1993年3月制定，为可视电话与视频会议的编码标准。
采用的格式为：
·CIF格式：288×360；
·QCIF格式：144×180、29.97帧/秒；
·其编码为：DCT + 运动补偿 + 视觉加权量化 + 熵编码。

H.262视频编解码技术标准
H.262—运动图像和伴音信息的通用编码(Information technology - Generic coding of moving pictures and associated audio information: Video)，1995年7月通过，与MPEG-2共同作为ISO/IEC 13818标准（HDTV、DVD）
·格式为：25或29.97帧/秒；
·主—720×480或576；
·编码：同H.261。

H.263视频编解码技术标准
H.263—低比特率通信的视频编码(Video coding for low bit rate communication)，1998年2月制定，为低比特率/可变比特率视频编码标准（PSTN网、无线网、因特网）
格式为：
·CIF与QCIF格式同H.261；
·Sub-QCIF格式：128×96；
·4CIF格式：704×576；
·16CIF格式：1408×1152；
·编码：H.261+ 非限制运动矢量模式 + 基于语法的算术编码 + 高级预测 + PB帧。

H.264视频编解码技术标准
H.264—针对通用音视频服务的先进[高级]视频编码（Advanced video coding for generic audiovisual services），2003年5月批准，H.264是由ISO/IEC的MPEG与ITU-T的VCEG（Video Coding Experts Group视频编码专家组）联合组成的JVT（Joint Video Team联合视频组）共同制定的，MPEG的对应标准为MPEG-4的第10部分MPEG-4/AVC。
格式：同H.263
编码：采用先进视频编码（AVC）= H.263 + 多参考帧和变块尺寸运动补偿 + 1/4像素精度的运动估值 + 基于上下文的二元算数和变长编码 + 冗余条带 + 补充增强信息和视频可用信息 + 辅助图层 + 图像顺序计数 + 柔性宏块 + 排序 + 整数DCT变换 + 分层编码 + 错误约束机制 + 错误掩盖技术 + 高效比特流切换技术。

通过引入多种先进的编码技术，使得H.264（MPEG-4/AVC）编码的码率只有H.263（MPEG-4）的一半。当然，提高压缩比的代价，是同时也增加了编解码的复杂性。一般情况下，编码难度增加了2倍，解码难度增加了1倍。

与MPEG标准主要用于光存储、广播和流媒体不同，H.26x标准主要用于网络和通信。除了视频编码标准本身之外，H.26x还有配套的系统、音频、控制等相关标准。参见表2和图4。
(未完待续)