H.264 标准简介

2023-11-12

JVT（Joint Video Team，视频联合工作组）于2001年12月在泰国Pattaya成立。它由ITU-T和ISO两个国际标准化组织的有关视频编码的专家联合组成。JVT的工作目标是制定一个新的视频编码标准，以实现视频的高压缩比、高图像质量、良好的网络适应性等目标。目前JVT的工作已被ITU-T接纳，新的视频压缩编码标准称为H.264标准，该标准也被ISO接纳，称为AVC（Advanced VideoCoding）标准，是MPEG-4的第10部分。

H.264标准可分为三档：

　　基本档次（其简单版本，应用面广）；

　　主要档次（采用了多项提高图像质量和增加压缩比的技术措施，可用于SDTV、HDTV和DVD等）；

　　扩展档次（可用于各种网络的视频流传输）。

H.264不仅比H.263和MPEG-4节约了50％的码率，而且对网络传输具有更好的支持功能。它引入了面向IP包的编码机制，有利于网络中的分组传输，支持网络中视频的流媒体传输。H.264具有较强的抗误码特性，可适应丢包率高、干扰严重的无线信道中的视频传输。H.264支持不同网络资源下的分级编码传输，从而获得平稳的图像质量。H.264能适应于不同网络中的视频传输，网络亲和性好。

H.264标准的主要目标是：与其它现有的视频编码标准相比，在相同的带宽下提供更加优秀的图象质量。H.264与以前的国际标准如H.263和MPEG-4相比，技术上最大的优势体现在以下四个方面：

　　1．将每个视频帧分离成由像素组成的块，因此视频帧的编码处理的过程可以达到块的级别。

　　2．采用空间冗余的方法，对视频帧的一些原始块进行空间预测、转换、优化和熵编码（可变长编码）。

　　3．对连续帧的不同块采用临时存放的方法，这样，只需对连续帧中有改变的部分进行编码。该算法采用运动预测和运动补偿来完成。对某些特定的块，在一个或多个已经进行了编码的帧执行搜索来决定块的运动向量，并由此在后面的编码和解码中预测主块。

　　4．采用剩余空间冗余技术，对视频帧里的残留块进行编码。例如：对于源块和相应预测块的不同，再次采用转换、优化和熵编码。

H.264既保留了以往压缩技术的优点和精华又具有其他压缩技术无法比拟的许多优点，H.264的特征和高级优势：

　　1．低码流（Low Bit Rate）：和MPEG2和MPEG4 ASP等压缩技术相比，在同等图像质量下，采用H.264技术压缩后的数据量只有MPEG2的1/8，MPEG4的1/3。显然，H.264压缩技术的采用将大大节省用户的下载时间和数据流量收费。

　　2．高质量的图象：H.264能提供连续、流畅的高质量图象（DVD质量）。

　　3．容错能力强：H.264提供了解决在不稳定网络环境下容易发生的丢包等错误的必要工具。

　　4．网络适应性强：H.264提供了网络适应层（Network Adaptation Layer，是否是Network Abstraction Layer网络抽象层?）, 使得H.264的文件能容易地在不同网络上传输（例如互联网，CDMA，GPRS，WCDMA，CDMA2000等）。

一、H.264视频压缩系统

H.264标准压缩系统由视频编码层（Video Coding Layer, VCL）和网络提取层（Network Abstraction Layer，NAL）两部分组成。VCL中包括VCL编码器与VCL解码器，主要功能是视频数据压缩编码和解码，它包括运动补偿、变换编码、熵编码等压缩单元。NAL则用于为VCL提供一个与网络无关的统一接口，它负责对视频数据进行封装打包后使其在网络中传送，它采用统一的数据格式，包括单个字节的包头信息、多个字节的视频数据与组帧、逻辑信道信令、定时信息、序列结束信号等。包头中包含存储标志和类型标志。存储标志用于指示当前数据不属于被参考的帧。类型标志用于指示图像数据的类型。

VCL可以传输按当前的网络情况调整的编码参数。

二、H.264的特点

H.264和H.261、H.263一样，也是采用DCT变换编码加DPCM的差分编码，即混合编码结构。同时，H.264在混合编码的框架下引入了新的编码方式，提高了编码效率，更贴近实际应用。

H.264 没有繁琐的选项，而是力求简洁的 “ 回归基本 ” ，它具有比 H.263++ 更好的压缩性能，又具有适应多种信道的能力。

H.264 的应用目标广泛，可满足各种不同速率、不同场合的视频应用，具有较好的抗误码和抗丢包的处理能力。

H.264的基本系统无需使用版权，具有开放的性质，能很好地适应IP和无线网络的使用，这对目前因特网传输多媒体信息、移动网中传输宽带信息等都具有重要意义。

在系统层面上，H.264提出了一个新的概念，在视频编码层(Video Coding Layer, VCL)和网络提取层(Network Abstraction Layer, NAL)之间进行概念性分割，前者是视频内容的核心压缩内容之表述，后者是通过特定类型网络进行递送的表述，这样的结构便于信息的封装和对信息进行更好的优先级控制。H.264的系统编码框图如下图所示：

　　尽管 H.264 编码基本结构与 H.261 、 H.263 是类似的，但它在很多环节做了改进，现列举如下。

1．多种更好的运动估计

　　高精度估计

　　在 H.263 中采用了半像素估计，在 H.264 中则进一步采用 1/4 像素甚至 1/8 像素的运动估计。即真正的运动矢量的位移可能是以 1/4 甚至 1/8 像素为基本单位的。显然，运动矢量位移的精度越高，则帧间剩余误差越小，传输码率越低，即压缩比越高。

　　在 H.264 中采用了 6 阶 FIR 滤波器的内插获得 1/2 像素位置的值。当 1/2 像素值获得后， 1/4 像素值可通过线性内插获得，

　　对于 4:1:1 的视频格式，亮度信号的 1/4 像素精度对应于色度部分的 1/8 像素的运动矢量，因此需要对色度信号进行 1/8 像素的内插运算。

　　理论上，如果将运动补偿的精度增加一倍（例如从整像素精度提高到 1/2 像素精度），可有 0.5bit/Sample 的编码增益，但实际验证发现在运动矢量精度超过 1/8 像素后，系统基本上就没有明显增益了，因此，在 H.264 中，只采用了 1/4 像素精度的运动矢量模式，而不是采用 1/8 像素的精度。

　　多宏块划分模式估计

　　在 H.264 的预测模式中，一个宏块（ MB ）可划分成 7 种不同模式的尺寸，这种多模式的灵活、细微的宏块划分，更切合图像中的实际运动物体的形状，于是，在每个宏块中可包含有 1 、 2 、 4 、 8 或 16 个运动矢量。

　　多参数帧估计

　　在 H.264 中，可采用多个参数帧的运动估计，即在编码器的缓存中存有多个刚刚编码好的参数帧，编码器从其中选择一个给出更好的编码效果的作为参数帧，并指出是哪个帧被用于预测，这样就可获得比只用上一个刚编码好的帧作为预测帧的更好的编码效果。

2．小尺寸4*4的整数变换

　　视频压缩编码中以往的常用单位为 8*8块。在H.264中却采用小尺寸的4*4 块，由于变换块的尺寸变小了，运动物体的划分就更为精确。这种情况下，图像变换过程中的计算量小了，而且在运动物体边缘的衔接误差也大为减少。

　　当图像中有较大面积的平滑区域时，为了不产生因小尺寸变换带来的块间灰度差异， H.264 可对帧内宏块亮度数据的 16 个 4*4 块的 DCT 系数进行第二次 4*4 块的变换，对色度数据的 4 个 4*4 块的 DC 系数（每个小块一个，共 4 个 DC 系数）进行 2*2 块的变换。

H.263 不仅使图像变换块尺寸变小，而且这个变换是整数操作，而不是实数运算，即编码器和解码器的变换和反变换的精度相同，没有 “ 反变换误差 ” 。

3．更精确的帧内预测

　　在H.264中，每个4*4块中的每个像素都可用17个最接近先前已编码的像素的不同加权和来进行帧内预测。

帧内编码用来缩减图像的空间冗余。为了提高H.264帧内编码的效率，在给定帧中充分利用相邻宏块的空间相关性，相邻的宏块通常含有相似的属性。因此，在对一给定宏块编码时，首先可以根据周围的宏块预测（典型的是根据左上角的宏块，因为此宏块已经被编码处理），然后对预测值与实际值的差值进行编码，这样，相对于直接对该帧编码而言，可以大大减小码率。

　　H.264提供6种模式进行4×4像素宏块预测，包括1种直流预测和5种方向预测，如下图所示。在图中，相邻块的A到I共9个像素均已经被编码，可以被用以预测，如果我们选择模式4，那么，a、b、c、d4个像素被预测为与E相等的值，e、f、g、h4个像素被预测为与F相等的值，对于图像中含有很少空间信息的平坦区，H.264也支持16×16的帧内编码。

4、帧间预测编码

　　帧间预测编码利用连续帧中的时间冗余来进行运动估计和补偿。H.264的运动补偿支持以往的视频编码标准中的大部分关键特性，而且灵活地添加了更多的功能，除了支持P帧、B帧外，H.264还支持一种新的流间传送帧——SP帧。码流中包含SP帧后，能在有类似内容但有不同码率的码流之间快速切换，同时支持随机接入和快速回放模式。

　　H.264的运动估计有以下4个特性。

　　(1) 不同大小和形状的宏块分割

　　对每一个16×16像素宏块的运动补偿可以采用不同的大小和形状，H.264支持7种模式，如图4所示。小块模式的运动补偿为运动详细信息的处理提高了性能，减少了方块效应，提高了图像的质量。

　　(2) 高精度的亚像素运动补偿

　　在H.263中采用的是半像素精度的运动估计，而在H.264中可以采用1/4或者1/8像素精度的运动估值。在要求相同精度的情况下，H.264使用1/4或者1/8像素精度的运动估计后的残差要比H.263采用半像素精度运动估计后的残差来得小。这样在相同精度下，H.264在帧间编码中所需的码率更小。

　　(3) 多帧预测

　　H.264提供可选的多帧预测功能，在帧间编码时，可选5个不同的参考帧，提供了更好的纠错性能，这样更可以改善视频图像质量。这一特性主要应用于以下场合：周期性的运动、平移运动、在两个不同的场景之间来回变换摄像机的镜头。

　　(4) 去块滤波器

　　H.264定义了自适应去除块效应的滤波器，这可以处理预测环路中的水平和垂直块边缘，大大减少了方块效应。

5、量化

　　H.264中可选32种不同的量化步长，这与H.263中有31个量化步长很相似，但是在H.264中，步长是以12.5%的复合率递进的，而不是一个固定常数。
在H.264中，变换系数的读出方式也有两种：之字形(Zigzag)扫描和双扫描。大多数情况下使用简单的之字形扫描；双扫描仅用于使用较小量化级的块内，有助于提高编码效率。

6．统一的VLC

视频编码处理的最后一步就是熵编码，H.264中关于熵编码有两种方法。

　　1、统一的VLC（即UVLC：Universal VLC）。UVLC使用一个相同的码表进行编码，而解码器很容易识别码字的前缀，UVLC在发生比特错误时能快速获得重同步。

在H.263等标准中，根据要编码的数据类型如变换系数、运动矢量等，采用不同的VLC码表。H.264中的UVLC码表提供了一个简单的方法，不管符号表述什么类型的数据，都使用统一变字长编码表。其优点是简单；缺点是单一的码表是从概率统计分布模型得出的，没有考虑编码符号间的相关性，在中高码率时效果不是很好。

　　2、内容自适应二进制算术编码（CABAC：Context Adaptive Binary Arithmetic Coding）。其编码性能比UVLC稍好，但复杂度较高。

算术编码使编码和解码两边都能使用所有句法元素(变换系数、运动矢量)的概率模型。为了提高算术编码的效率，通过内容建模的过程，使基本概率模型能适应随视频帧而改变的统计特性。内容建模提供了编码符号的条件概率估计，利用合适的内容模型，存在于符号间的相关性可以通过选择目前要编码符号邻近的已编码符号的相应概率模型来去除，不同的句法元素通常保持不同的模型。

三、性能优势

H.264与MPEG-4、H.263++编码性能对比采用了以下6个测试速率：32kbit/s、10F/s和QCIF；64kbit/s、15F/s和QCIF；128kbit/s、15F/s和CIF；256kbit/s、15F/s和QCIF；512kbit/s、30F/s和CIF；1024kbit/s、30F/s和CIF。测试结果标明，H.264具有比MPEG和H.263++更优秀的PSNR性能。

H.264 的 PSNR 比 MPEG-4 平均要高 2dB ，比 H.263++ 平均要高 3dB 。

四、新的快速运动估值算法

　　新的快速运动估值算法 UMHexagonS （中国专利）是一种运算量相对于 H.264 中原有的快速全搜索算法可节约 90 ％以上的新算法，全名叫 “ 非对称十字型多层次六边形格点搜索算法 ” （ Unsymmetrical-CrossMuti-Hexagon Search ） ” ，这是一种整像素运动估值算法。由于它在高码率大运动图像序列编码时，在保持较好率失真性能的条件下，运算量十分低，已被 H.264 标准正式采纳。

ITU 和 ISO 合作发展的 H.264 （ MPEG-4 Part 10 ）有可能被广播、通信和存储媒体（ CD DVD ）接受成为统一的标准，最有可能成为宽带交互新媒体的标准。我国的信源编码标准尚未制定，密切关注 H.264 的发展，制定我国的信源编码标准的工作正在加紧进行。

H264标准使运动图像压缩技术上升到了一个更高的阶段，在较低带宽上提供高质量的图像传输是H.264的应用亮点。H.264的推广应用对视频终端、网守、网关、MCU等系统的要求较高，将有力地推动视频会议软、硬件设备在各个方面的不断完善。

http://kb.cnblogs.com/page/168157/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

音视频与图像