目标检测网络可以分成如图的5个部分
input image:输入图像的大小对整个网络推断耗时有最直接的影响,小的图像,自然整个网络推断时间就会大大减少。一般来说,输入图像大小与网络深度正相关,即:大图像需要更深的网络提取更好的特征
backbone:是网络主结构的表达,由convolution、normalization、activation这3种层堆叠而成,如resnet50.
feature for detection:即最后用于目标检测的特征层,比如常用的有conv4(C4)、conv5(C5),对于fpn有P2~P6等
rpn/detection head:对于one-stage detector来说,这个是最终的目标检测的输出层,对于two-stagedetector来说,这个是用来为第二个阶段提供proposal的输出层
rcnn head:这个出现在two-stagedetector方法中的第二个阶段,一般包括roi pooling、feature extract、classification、bbox regression这4个部分。是两阶