我们提出了一种基于注意力尺度序列融合的You Only Look Once(YOLO)框架(ASF-YOLO),该框架结合了空间和尺度特征,用于准确快速的细胞实例分割。在YOLO分割框架的基础上,我们采用尺度序列特征融合(SSFF)模块增强网络的多尺度信息提取能力,并采用三重特征编码器(TPE)模块融合不同尺度的特征图以增加详细信息。我们进一步引入通道和位置注意力机制(CPAM),将SSFF和TPE模块集成在一起,专注于信息通道和与空间位置相关的小对象,以提高检测和分割性能。在两个细胞数据集上的实验验证表明,所提出的ASF-YOLO模型具有显著的分割精度和速度。它在2018年数据科学碗数据集上实现了0.91的box mAP、0.887的mask mAP和47.3 FPS的推理速度,优于最先进的方法。源代码可在https://github.com/mkang315/ASF-YOLO上获得。
关键词:医学图像分析、小对象分割、You Only Look Once(YOLO)、序列特征融合、注意力机制
1、简介
随着样本制备技术和显微成像技术的快速发展,细胞图像的定量处理和分析在医学、细胞生物学等领域发挥着重要作用。基于卷积神经网络(CNN),可以通过神经网络训练学习不同细胞图像的特征信息,具有很强的泛化性能。两阶段的R-CNN系列[1,2,3]及其一阶段变体[4,5]是实例分割任务的经典CNN基础框架。在最近的研究中,You Only Look Once(YOLO)系列[6,7,8,9]已经成为实时实例分割中速度最快、最准确的模型之一。由于一阶段的设计理念和特征提取能力,YOLO实例分割模型相比两阶段分割模型具有更好的精度和速度。然而,细胞实例分割的困难在于细胞小、密集、重叠以及边界模糊,导致细胞分割精度较差。细胞实例分割需要对细胞图像中的不同类型的对象进行准确细致的分割。如图1所示,不同类型的细胞图像在颜色、形态、纹理等特征信息上存在很大的差异,这是由于细胞形态、制备方法和成像技术的差异造成的。
本文提出了一种针对细胞图像的一阶段实例分割模型,该模型在You Only Look Once(YOLO)框架中集成了注意力尺度序列融合(ASF-YOLO)。首先,利用CSPDarknet53 backbone网络在特征提取阶段从细胞图像中提取多维特征信息。针对细胞实例分割问题,我们在neck部分提出了新颖的网络设计。本文的贡献总结如下:
图3显示了提出的ASF-YOLO框架的概述,该框架结合了空间和多尺度特征用于细胞图像实例分割。我们开发了一种新颖的特征融合网络架构,由两个主要组件网络组成,可以为小对象分割提供互补信息:(1) SSFF模块,它结合了来自多个尺度的图像的全局或高级语义信息,以及(2) TFE模块,它可以捕获小目标对象的局部精细细节。局部和全局特征信息的集成可以产生更准确的分割图。我们执行从骨干网络中提取的
P
3
、
P
4
\mathrm{P}_{3}、\mathrm{P}_{4}
P
3
、
P
4
和
P
5
\mathrm{P}_{5}
P
5
的输出特征的融合。首先,SSFF模块被设计为有效地融合
P
3
、
P
4
\mathrm{P}_{3}、\mathrm{P}_{4}
P
3
、
P
4
和
P
5
\mathrm{P}_{5}
P
5
的特征图,这些特征图捕获了覆盖不同细胞类型的各种大小和形状的不同空间尺度。在
S
S
F
F
\mathrm{SSFF}
SSFF
中,
P
3
、
P
4
\mathrm{P}_{3}、\mathrm{P}_{4}
P
3
、
P
4
和
P
5
\mathrm{P}_{5}
P
5
特征图被归一化为相同的大小,进行上采样,然后堆叠在一起作为输入到
3
D
3 \mathrm{D}
3
D
卷积以结合多尺度特征。其次,开发TFE模块以增强对密集细胞的小目标检测,通过在空间维度上拼接三种不同大小(大、中、小)的特征来捕获有关小对象的详细信息。TFE模块的详细特征信息然后通过PANet结构集成到每个特征分支中,然后与SSFF模块的多尺度信息结合到
P
3
\mathrm{P}_{3}
P
3
分支中。我们在
P
3
\mathrm{P}_{3}
P
3
分支中进一步引入了通道和位置注意机制(CPAM),以利用高级多尺度特征和详细特征。CPAM中的通道和位置注意机制可以分别捕获信息通道并细化与小对象(如细胞)相关的空间定位,从而提高其检测和分割精度。
3.2、尺度序列特征融合模块
对于细胞图像的多尺度问题,在现有文献中,特征金字塔结构被用于特征融合,其中仅使用求和或拼接来融合金字塔特征。然而,各种特征金字塔网络的结构不能有效地利用所有金字塔特征图之间的相关性。我们提出了一种新颖的尺度序列特征融合方法,可以更好地将深层特征图的高维信息与浅层特征图的详细信息相结合,其中在图像下采样过程中图像的大小发生变化,但尺度不变特征保持不变。尺度空间是沿着图像的尺度轴构建的,它不仅代表一个尺度,而且代表一个对象可以具有的各种尺度的范围[40]。尺度意味着图像的细节。模糊的图像可能会丢失细节,但可以保留其图像的结构特征。通过
F
o
(
w
,
h
)
=
G
o
(
w
,
h
)
×
f
(
w
,
h
)
(1)
F_{o}(w, h)=G_{o}(w, h) \times f(w, h) \tag{1}
F
o
(
w
,
h
)
=
G
o
(
w
,
h
)
×
f
(
w
,
h
)
(
1
)
G
o
(
w
,
h
)
=
1
2
π
σ
2
e
−
(
w
2
+
h
2
)
/
2
σ
2
(2)
G_{o}(w, h)=\frac{1}{2 \pi \sigma^{2}} e^{-\left(w^{2}+h^{2}\right) / 2 \sigma^{2}} \tag{2}
G
o
(
w
,
h
)
=
2
π
σ
2
1
e
−
(
w
2
+
h
2
)
/2
σ
2
(
2
)
其中
f
(
w
,
h
)
f(w,h)
f
(
w
,
h
)
表示宽度为w、高度为h的二维输入图像。
F
o
(
w
,
h
)
F_{o}(w,h)
F
o
(
w
,
h
)
是由一系列卷积使用二维高斯滤波器
G
0
(
w
,
h
)
G_{0}(w,h)
G
0
(
w
,
h
)
进行平滑处理生成的。σ是用于卷积的二维高斯滤波器的标准差缩放参数。
这些生成的图像具有相同的分辨率和不同的尺度。因此,不同大小的特征图可以看作是尺度空间,不同分辨率的有效特征图可以调整到相同的分辨率进行拼接。受二维和三维卷积操作对多个视频帧的启发[41],我们将不同尺度的特征图水平堆叠,并使用三维卷积提取它们的尺度序列特征。由于高分辨率特征图级别
P
3
\mathrm{P}_{3}
P
3
包含大部分对于小目标检测和分割至关重要的信息,SSFF模块是基于
P
3
\mathrm{P}_{3}
P
3
级别设计的。如图3所示,提出的SSFF模块由以下组件组成:
使用1x卷积改变
P
4
\mathrm{P}_{4}
P
4
和
P
5
\mathrm{P}_{5}
P
5
特征级别的通道数为256。
使用最近邻插值方法[42]将其大小调整为
P
3
\mathrm{P}_{3}
P
3
级别的大小。
图4展示了TFE模块的结构。在特征编码之前,首先调整特征通道的数量,使其与主尺度特征一致。在对大尺寸特征图(Large)进行处理后,其通道数调整为 1C ,然后使用最大池化+平均池化的混合结构进行下采样,这有助于保留高分辨率特征和细胞图像的有效性和多样性。对于小尺寸特征图(Small),也使用卷积模块来调整通道数,然后使用最近邻插值方法进行上采样。这有助于保持低分辨率图像的局部特征的丰富性,并防止小目标特征信息的丢失。最后,将三个大小相同的大、中、小尺寸的特征图进行一次卷积,然后在通道维度上进行拼接,如下所示。
F
T
F
E
=
Concat
(
F
l
,
F
m
,
F
s
)
(3)
F_{T F E}=\operatorname{Concat}\left(F_{l}, F_{m}, F_{s}\right) \tag{3}
F
TFE
=
Concat
(
F
l
,
F
m
,
F
s
)
(
3
)
其中
F
T
F
E
F_{T F E}
F
TFE
表示TFE模块输出的特征图。
F
l
、
F
m
F_{l}、F_{m}
F
l
、
F
m
和
F
s
F_{s}
F
s
分别表示大、中和小尺寸的特征图。
F
T
F
E
F_{T F E}
F
TFE
由
F
l
、
F
m
F_{l}、F_{m}
F
l
、
F
m
和
F
s
F_{s}
F
s
的拼接得到。
F
T
F
E
F_{T F E}
F
TFE
具有与
F
m
F_{m}
F
m
相同的分辨率,并且通道数是
F
m
F_{m}
F
m
的三倍。
其中 w 和 h 分别是输入特征图的宽度和高度。
E
(
w
,
j
)
E(w, j)
E
(
w
,
j
)
和
E
(
i
,
h
)
E(i, h)
E
(
i
,
h
)
是位置
(
i
,
j
)
(i, j)
(
i
,
j
)
在输入特征图中的值。
在生成位置注意力坐标时,对水平和垂直轴应用连接和卷积操作:
P
(
a
w
,
a
h
)
=
Conv
[
Concat
(
p
w
,
p
h
)
]
(8)
P\left(a_{w}, a_{h}\right)=\operatorname{Conv}\left[\operatorname{Concat}\left(p_{w}, p_{h}\right)\right] \tag{8}
P
(
a
w
,
a
h
)
=
Conv
[
Concat
(
p
w
,
p
h
)
]
(
8
)
其中
P
(
a
w
,
a
h
)
P(a_w, a_h)
P
(
a
w
,
a
h
)
表示位置注意力坐标的输出,Conv 表示
1
×
1
1 \times 1
1
×
1
卷积,Concat 表示连接。
在分割注意力特征时,会产生位置依赖性特征映射的配对,如下所示:
s
w
=
Split
(
a
w
)
(9)
s_{w} = \text{Split}(a_{w}) \tag{9}
s
w
=
Split
(
a
w
)
(
9
)
s
h
=
Split
(
a
h
)
s_{h} = \text{Split}(a_{h})
s
h
=
Split
(
a
h
)
其中
s
w
s_{w}
s
w
和
s
h
s_{h}
s
h
分别是分割输出的宽度和高度。
CPAM的最终输出由以下公式定义:
F
C
P
A
M
=
E
×
s
w
×
s
h
(10)
F_{CPAM} = E \times s_{w} \times s_{h} \tag{10}
F
CP
A
M
=
E
×
s
w
×
s
h
(
10
)
其中 E 代表通道注意力和位置注意力的权重。
交并比(IoU)通常用作锚框损失函数,通过计算标记边界框和预测框的重叠程度来确定收敛。然而,传统的IoU损失无法反映目标框和锚框之间的距离和重叠。为了解决这些问题,提出了GIoU [44]、DIoU和CIoU [45]。CIoU引入了基于DIoU Loss的影响因子,被YOLOv5和YOLOv8使用。在考虑重叠面积和中心点距离对损失函数的影响的同时,还考虑了标记框和预测框的宽度与高度(即纵横比)对损失函数的影响。然而,它只反映了纵横比的不同,而不是标记框和预测框宽度与高度之间的真实关系。EIoU [14]最小化了目标框和锚框在宽度和高度的差异,这可以改善小物体的定位效果。EIoU损失可以分为3部分:IoU损失函数L_{I 0 U}、距离损失函数L_{d i s}和纵横比损失函数L_{a s p},其公式如下:
L
E
I
o
U
=
L
I
o
U
+
L
d
i
s
+
L
a
s
p
=
1
−
I
o
U
+
ρ
2
(
b
,
b
g
t
)
w
c
2
+
h
c
2
+
ρ
2
(
w
,
w
g
t
)
w
c
2
+
ρ
2
(
h
,
h
g
t
)
h
c
2
(12)
L_{E I o U}=L_{I o U}+L_{d i s}+L_{a s p}=1-I o U+\frac{\rho^{2}\left(b, b_{g t}\right)}{w_{c}^{2}+h_{c}^{2}}+\frac{\rho^{2}\left(w, w_{g t}\right)}{w_{c}^{2}}+\frac{\rho^{2}\left(h, h_{g t}\right)}{h_{c}^{2}} \tag{12}
L
E
I
o
U
=
L
I
o
U
+
L
d
i
s
+
L
a
s
p
=
1
−
I
o
U
+
w
c
2
+
h
c
2
ρ
2
(
b
,
b
g
t
)
+
w
c
2
ρ
2
(
w
,
w
g
t
)
+
h
c
2
ρ
2
(
h
,
h
g
t
)
(
12
)
其中
ρ
(
⋅
)
=
∥
b
−
b
g
t
∥
2
\rho(\cdot)=\left\|b-b_{g t}\right\|_{2}
ρ
(
⋅
)
=
∥
b
−
b
g
t
∥
2
表示欧几里得距离,
b
b
b
和
b
g
t
b_{g t}
b
g
t
分别表示 B 和
B
g
t
B_{g t}
B
g
t
的中心点;
b
g
t
b_{g} t
b
g
t
,
w
g
t
w_{g} t
w
g
t
, 和
h
g
t
h_{g} t
h
g
t
是真实框的中心点 b、宽度和高度;
w
c
w_{c}
w
c
和
h
c
h_{c}
h
c
表示覆盖两个框的最小包围盒的宽度和高度。与 CIoU 相比,EIoU 不仅加快了预测框的收敛速度,而且提高了回归精度。因此,我们在头部部分选择 EIoU 来代替 CIoU。
我们的模型参数数量为46.18M,达到了最高的准确性,Box
m
A
P
50
mAP_{50}
m
A
P
50
为0.91,Mask
m
A
P
50
mAP_{50}
m
A
P
50
为0.887,推理速度达到了47.3帧每秒(FPS),这是最佳性能。由于图像输入大小为800×1200,使用Swin Transformer骨干网络的Mask R-CNN的准确性和速度都不高。我们的模型还超过了经典的单阶段算法SOLO和YOLACT。
表3显示了每个提出模块在提高分割性能方面的贡献。使用YOLOv5l-seg中的Soft-NMS可以克服由于密集小对象的相互遮挡而导致的错误抑制问题,并提供性能改进。EIoU损失函数提高了小目标边界框的效果,提高了1.8%的
m
A
P
50
:
95
mAP_{50:95}
m
A
P
50
:
95
。SSFF、TFC和CPAM模块通过解决细胞图像的小目标实例分割问题,有效地提高了模型性能。