MPEG-1中I、B、P帧的基本编码原理

2023-11-13

在上篇文章中，我们对MPEG-1有了一个轮廓性的介绍，知道视像序列中的图像类型有三种，分别为I帧、P帧、和B帧。但是我们并没有更深入的去了解，编码这三种类型的图像数据时所采用的不同方式，只知道它们都是把图像分为以16x16像素的宏块、8x8像素的图块为基本单元进行处理的。而实际上，编码I、P、B三种类型的图像数据的方式并不相同，不过在进一步展开之前，我们先来讲讲为什么要在这个时候讲这个。

我们都知道MPEG标准的制定，是一步一步来的，有了MPEG-1之后，才有MPEG-2、-4和H.264/AVC。而在这一步又一步的拓展和优化中，后者总是继承前者，并对前者的不足进行改善和加强。而对于MPEG-2也是这样，它的编码原理来自MPEG-1，而又在MPEG-1的基础上，做了一些加强。所以如果想要了解MPEG-2，就必须要对MPEG-1的编码原理，有个基本的认识。

我想这就是自底向上的本质，也是我们不谋而合，在这个系列所采取的方法。所以下面我们开始介绍I、B、P帧的基本编码原理，注意是基本，说明我们并不会深入去探讨某一个方法，如DCT变换、量化、DPCM、RLE、霍夫曼编码、算术编码。只需要掌握以下两点即可：

1、对编码流程有一定的了解
2、了解I、B、P帧三者编码的不同

1、I帧的基本编码原理

上篇说过，MPEG-1主要在时间冗余和空间冗余两个方向上，去除冗余数据。时间冗余是帧与帧之间产生的冗余数据，而空间冗余则是单帧图像中，相邻像素间产生的冗余数据。对于I帧来说，因为它是关键帧，既不需要参考过去的帧，也不需要参考将来的帧。所以对I帧的编码，是为了消除空间冗余数据，而且它采用的压缩算法，和JPEG类似。如下图：

在这里插入图片描述
I帧的压缩编码算法

从图中可以看到，如果图像是用RGB颜色空间表示的，则首先把它转换成用YCbCr空间表示的图像。然后每个图像平面分成8x8像素的图块，并对每个图块进行离散余弦变换（DCT）。

这里DCT的作用非常大，看它的名字可能会觉得非常高大上，其实它就是一个矩阵变换。关于它其实都可以专门写一篇文章出来，不过这里我们只需要知道它的作用即可。DCT简单点来说，它就是将前面8x8像素图块的颜色空间数据，分为高频数据和低频数据，所以我们也常说，DCT是把数据从空间域转换到频率域。

那什么是高频和低频呢？这里的高频数据是指，图像颜色的变化比较强烈的地方，比如人像画的轮廓与背景的交叉处，在这里的色值变化很快，所以称为高频。相对的低频就是指，颜色变化比较缓和的地方。所以DCT的作用并不是对数据进行压缩，而是为了方便后面的操作，比如量化、RLE行程编码、以及霍夫曼编码。

下一步就是量化，因为人眼对高频区域其实并不敏感，所以利用这一点，可以将高频部分数据进行压缩。这样一来，图块的数据就会呈现两部分，一部分是变化平滑的低频数据，另一部分是刚压缩过的高频部分，数值也变得差不多。而后再经过Zig-zig编排，数据就会呈现出连续几个值相同的的形式，比如23334551550000。这样一来，再经过RLE行程编码，就可以去掉连续值相同的冗余数据。

因为RLE在编码时，对相同的数值只编码一次，同时计算相同数值重复的次数，因此称为行程编码。而与RLE处于同级的DPCM，则主要是对图块与图块之间的差值进行编码。这样一来可以再次压缩数据，之后再通过霍夫曼编码或者算术编码，编码操作也就完成了。同样霍夫曼编码和算术编码，也可以单独写一篇文章出来。

2、P帧的基本编码原理

P帧也就是预测图像P，与I帧不同的是，它不仅要从空间上去除冗余数据，还要从时间冗余方面上着手，因为它是以在它之前出现的I帧作为参考对象来编码的。与I帧不同的是，预测图像P的编码是以16x16像素的宏块为基本编码单元的。对于P帧，为了表示它与前面I帧的关系，我们会一直用预测图像和参考图像这两个词。

其实很好想象，因为对预测图像编码，就是对它和参考图像直接的差值进行编码。所以我们只需要做到以下两点即可：

1、算出当前要编码的图像宏块，与参考图像宏块之间的差值
2、计算出宏块的移动矢量

比如下图：
在这里插入图片描述

这张图应该一目了然，时刻1中的人像，在时刻2移动到了图像右侧。这个过程中变化的，不只是人像的位置，因为人在移动的时候，会有其他的动作，比如低头、转头、仰头等动作。所以我们并不仅仅要计算出人像变化之后的位置，也就是移动矢量，还要计算出两个宏块之间的差值。

当然这两者在编码过程中，是有个先后关系的。比如我要计算出宏块的移动矢量，那我得找到参考图像中的宏块，在预测图像中的位置吧。而更进一步，那我怎么找到预测图像相对于参考图像中，图块的位置呢？答案是预测图像中的某个宏块，与参考图像中的这个宏块的差值最小，也即最佳匹配宏块。

这就引起了一系列的搜索算法，去预测图像中去找这个宏块，比如二维对数搜索法、三步搜索法、对偶搜索法。而对预测图像P的编码所引起的时间，则主要是执行这个搜索算法所占用的时间。

等找到最佳匹配宏块后，计算出差值和移动矢量，剩下的操作就和对I帧的编码一致了。

在这里插入图片描述
预测图像P的压缩编码算法

3、B帧的基本编码原理

B帧也是双向预测图像B，对它的编码，即是对它前后帧的像素值之差进行编码，具体的方法和对预测图像P的算法类似。

在这里插入图片描述
双向预测图像B的压缩编码算法

总结

从以上介绍就可以看出，I帧是对视频最重要的图像帧，P帧其次，B帧更次。所以B帧的压缩比也是最高的，P帧其次，I帧压缩比最小。在实际应用中，对于快速运动的图像，I帧的频率可以高一些，B帧的数目可以少一些。而对于慢速运动的图像，则相反。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)