SGVideoSource
原始视频数据获取类,底层用的是AVFoundation框架来实现.对外提供原始未经编码的的视频数据,同时提供图像预览功能.如果需要添加美颜,摄像头切换,翻转,闪光灯等操作,也是在这里处理的.
原始视频帧
: 原始视频数据其实就是一帧一帧的数据,它们没有经过压缩编码,每一帧包含了图像信息和时间信息,我们通过代码提取出图片.
fps
:1s中包含的帧数就是帧速(fps),一般fps的范围是15~30帧,帧速越高画面越流畅,带宽消耗量越大.实际直播中,大部分采用15到20就可以了.
分辨率
: 一帧的图像的大小,iOS原生的有352*288,640*480,1280*720等,一般直播采用640 *480,然后裁剪为640 *360.
码率
: 也叫比特率,数据传输时单位时间传送的数据位数. 可以理解为码率决定一帧图像的显示精细程度.在一定范围内,码率越大,图像越清晰,消耗带宽或者文件体积就越大.超过一定范围后,清晰度不变.一般640 * 480分辨率的,码率512kbps就能够保证清晰度.
SGH264Encoder
这个类是编码器,主要功能是对原始的视频帧进行编码压缩处理,这里采用的是硬编码
,编码输出格式为H264格式.
编码
: 编码是指将原始的帧数据编码压缩,编码后数据更小,方便在网络上传输.原始数据体积较大,网络传输十分不方便,因此需要将数据压缩,视频压缩算法当前比较主流的是H264,这里我们压缩格式是H264格式.H264有不同的压缩等级,压缩等级不同,压缩比也不同.常见的压缩等级有:baseline
, main
, high
.
硬编码
: 硬编码是相对软编码而言的,一般软编码是通过cpu来运算,比较消耗cpu性能,耗时大,但是兼容性好,软编码一般采用ffmpeg或者x264.相对而言,硬编码使用gpu来编码,速度效率很高.这里采用的是iOS自带的硬解码,只支持iOS8以后的系统.
压缩后的视频帧
: 压缩后的视频有三种帧类型:I ,B ,P帧,I帧也叫关键帧.经过解码后能够独立展示出一幅图像,P帧是前向预测帧,参考前一帧才能解码显示出一幅完整的图像.B 为双向预测帧,必须参考前一帧和后一帧才能解码出图像.因此,I帧的压缩比最低,大约为0.7,它只能采用帧内压缩,P帧压缩比次之,大概能达到0.5,B帧压缩比则更高,达到了0.3~0.5,B帧和P帧采用的是帧内压缩和帧间压缩技术(也就是运动估计,原理是相邻帧的图像有一部分是一样的,专业术语叫空间冗余).实际上,视频压缩等级不同,帧种类也不同,比如baseline等级
压缩后的视频只有I帧 和 P帧.main等级
和 high等级
则三种帧都包含,它们的整体压缩比要比baseline
要高.但是因为B帧需要参考前一帧和后一帧才能显示,很容易造成卡顿情况,因为万一后面的帧没有获取到,导致前一帧已也不能显示,所以在实际应用中(直播app),一般压缩等级采用baseline
.
gop
: 这个我试着描述一下:因为除了I帧,其它帧都不能独立渲染显示,理论上只需要一个I帧其它全部是非I帧,这样压缩比最高,但是因为(B帧和P帧)参考其他帧
的原因会有一定的误差,当一段时间后,累计误差会原来越大,导致图像失真.解决办法就是以一小段为一个单元,每个单元第一帧都是I帧;这样,即使前面某一小段出了问题也不会影响后面的一小段,每一个小段我们称作一个关gop.每个gop的第一帧一定是关键帧,因为你的没得参考;通常我们设置gop的大小为1s到3s,因此关键帧与关键帧之间的间隔就是1s的帧数(对应gop为1s)到3s的帧数(对应gop为3s),根据上面的定义,1s的帧数为fps,因此关键帧间隔为1*fps 到 3*fps.秒开的优化点之一就是减小gop大小,因为gop第一帧是关键帧,能独立渲染出来,用户进入直播间的时间是随机的,为确保用户尽快拿到关键帧,尽快渲染出图像;同时gop越小,关键帧数量就越多,带宽消耗量就越大.