UNeXT

2023-11-15

论文链接:https://link.springer.com/chapter/10.1007/978-3-031-16443-9_3

源码链接:https://github.com/jeya-maria-jose/UNeXt-pytorch

论文摘要

摘要近年来,UNet及其最新扩展(如TransUNet)已成为医学图像分割的主要方法。然而,这些网络不能有效地用于即时护理应用中的快速图像分割,因为它们参数量大,计算复杂,使用速度慢。为此,我们提出了一种基于卷积多层感知器(MLP)的图像分割网络UNeXt。我们有效地设计了UNeXt,早期是卷积阶段,潜伏阶段(latent stage)是MLP。我们提出了一个标记化的MLP块,其中我们有效地标记和投影卷积特征,并使用MLP来建模表示。为了进一步提高性能,我们建议在输入到mlp时改变输入的通道,以便专注于学习局部依赖。在潜在空间中使用标记化的mlp减少了参数的数量和计算复杂性,同时能够产生更好的表示来帮助分割。该网络还包括各级编码器和解码器之间的跳越连接(skip connection)。我们在多个医学图像分割数据集上测试了UNeXt,结果表明,我们将参数数量减少了72倍,计算复杂度降低了68倍,推理速度提高了10倍,同时还获得了比最先进的医学图像分割架构更好的分割性能。

结构详解

UNeXt是一个编码器-解码器架构,有两个阶段:

1)卷积阶段(convolutional stage)

2)标记化MLP阶段( Tokenized MLP stage)

-输入图像通过编码器传递,其中前3个块是卷积块,接下来的2个是标记化MLP块。解码器有2个标记化MLP块和3个卷积块。每个编码器块将特征分辨率降低2,每个解码器块将特征分辨率提高2。

-在编码器和解码器之间存在残差链接(Skip connections)

-每个块上的通道数量是一个超参数,表示为C1到C5

-对于使用UNeXt架构,我们遵循C1 = 32, C2 = 64, C3 = 128, C4 = 160,和除非另有说明,C5 = 256。请注意,这些数字实际上小于UNet的过滤器数量及其变体的数量,以减少参数和计算量。

卷积阶段Convolutional Stage:

每个卷积块都配有卷积层、批规范化层(batch normalization)和ReLU激活。我们使用的内核大小为3 × 3,步幅为1,填充为1。编码器中的conv块使用池窗口为2 × 2的最大池化层,而解码器中的conv块由双线性插值层组成,对特征映射进行上采样。我们使用双线性插值(bilinear interpolation)代替转置卷积,因为转置卷积基本上是可学习的上采样,可学习的参数更多。

*Shifted MLP:

在shifted MLP中,我们首先移位conv的通道轴标记之前的特性。这有助于MLP只关注conv特征的特定位置,从而诱导块的局部性。这里的直觉(intuition)是类似于Swin transformer,其中引入了基于窗口的注意力( window-based attention),为一个完全全局的模型添加更多的局部性Tokenized MLP块有2个MLP,我们在其中一个上面通过宽度移动特征,另一个通过高度移动特征,就如 axial-attention一样。我们把特征分成h个不同的分区,并根据指定的轴按j个位置移动它们。这有助于我们创建随机窗口,并沿轴引入局部性。

Tokenized MLP Stage:

在标记化的MLP块中,我们首先转移特性并将它们投射到标记(token)中。为了标记化,我们首先使用内核大小为3,并将通道数量更改为E,其中E是嵌入维度( embedding dimension)(token数量),这是一个超参数。然后,我们将这些标记传递给一个shifted MLP(跨宽度),其中MLP的隐藏维度是一个超参数h。接下来,特征通过深度卷积层(DWConv)传递。

我们在这个块中使用DWConv有两个原因:

1)它有助于编码MLP特征的位置信息。MLP块中的Conv层足以对位置信息进行编码,并且它实际上比标准的位置编码技术性能更好。像ViT中的位置编码技术需要在测试和训练分辨率不相同时进行插值,这通常会导致性能降低。

2) DWConv使用较少的参数,从而提高了效率。然后我们使用GELU激活层。GELU是RELU更流畅的替代品,并且被发现性能更好。此外,最近的架构如ViT[10]和BERT[9]已经成功地使用GELU获得了改进的结果

然后,我们将特征传递给另一个shifted MLP(跨高度),它将维度从H转换为o。我们在这里使用残差连接(residual connection),并将原始标记作为残差添加。然后我们应用 层归一化(layer normalization)(LN)并将输出特征传递给下一个块。LN优于BN,因为在标记化MLP块中沿着标记进行归一化比在批处理中进行归一化更有意义。

在Tokenized MLP的计算可以总结为

其中T表示token,H表示高度,W表示宽度,DW Conv表示深度卷积,LN表示层归一化。请注意,所有这些计算都是在嵌入维度( embedding dimension)H上执行的,H明显小于特征映射H/N × H/N的维度,其中N是2的因子,取决于块。在我们的实验中,除非另有说明,否则我们将H设为768。这种设计Tokenized MLP块的方法有助于编码有意义的特征信息,并且在计算或参数方面没有太多贡献。

训练过程

数据集:

International Skin Imaging Collaboration (ISIC 2018)

resize所有图像到512*512

Breast UltraSound Images (BUSI)

resize所有图像到256*256

实现细节:

损失函数:binary cross entropy (BCE) 和 dice loss

优化器(optimizer): Adam

学习率:0.0001,运用余弦退火学习率调度器,最小学习率可达0.00001

动量(momentum):0.9

batch size: 8

训练轮次(epoch):400

数据集划分比例:0.8:0.2

实验结果

总结

我们提出了一种新的深度网络架构UNeXt,用于医疗图像分割,专注于护理点应用。UNeXt是一种卷积和基于mlp的架构,其中有一个初始的conv阶段,然后是潜在空间中的mlp。具体来说,我们提出了一个带有移位MLP的标记化MLP块,以最小的复杂性和参数有效地建模表示。我们在多个数据集上验证了UNeXt,我们实现了更快的推理,降低了复杂性和更少的参数,同时还实现了最先进的性能。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

UNeXT 的相关文章

随机推荐

  • 配置跳转指定_http自动跳转https的配置方法

    这篇文章主要介绍了http自动跳转https的配置方法 需要的朋友可以参考下 IIs中实现Http自动转换到Https方法介绍 403跳转对SEO有一定影响 1 下载安装URL重写模块 Microsoft URL Rewrite Modul
  • Llama-1|Alpaca-LoRA 微调模型下载以及安装推理教程

    Llama 1 Alpaca LoRA 微调模型下载以及安装推理教程 经常玩AI的人应该对LoRA这一词并不陌生 尤其是在SD绘画领域 各种角色的LoRA模型层出不穷 那么语言领域是否存在LoRA呢 存在 且繁荣 LoRA你可以理解为语言模
  • c++随机数加随机种子(用时间为随机种子)随机每次运行都不同

    srand 功能 初始化随机数发生器 用法 srand unsigned int seed 需要头文件 stdlib h 返回值 void无返回值 rand 产生的随机数在每次运行的时候都是与上一次相同的 若要不同 用函数 srand 初始
  • [软考笔记]存储管理——页式,段式,段页式

    页式存储 4kb为1页 考点 逻辑地址和物理地址之间的转换 1 先区分逻辑地址哪一部分是页号 哪一部分是页内地址 2 根据页内地址确定物理地址 后面那块 3 再根据页号查找块号 4 拼接起来就是物理地址 解题过程 1 将页面大小转化为二进制
  • 网络工程师课程---7、网络通信综合实验(做网络基础综合实验 用什么软件)...

    网络工程师课程 7 网络通信综合实验 做网络基础综合实验 用什么软件 一 总结 一句话总结 cisco packet p k t tracer tre s packet 英 p k t 美 p k t n 数据包 信息包 小包 小捆 vt
  • 【区块链】万向区块链罗荣阁:为什么区块链是解决汽车供应链金融痛点最优雅的方案?

    本文整理自万向区块链CTO罗荣阁在万向区块链实验室主办的第三届区块链全球峰会 2017 9 14 16 上的演讲速记稿 点击阅读原文可观看完整演讲视频 罗荣阁在第三届区块链全球峰会演讲 区块链是一个伟大的创新 能够解决一些传统技术难以解决的
  • 【转载】【stm32】一键下载电路

    原创Nerute 2018 11 18 01 11 10 2361 首先感谢正点原子的开源资料 下面贴上正点原子一键下载电路的原理图 很显然 核心是一块CH340芯片 什么是CH 请看手册 再来就是引脚说明 了解一键之前 我们还得知道 st
  • BERT论文阅读笔记

    文章题目 BERT Pre training of Deep Bidirectional Transformers for Language Understanding Pre training指的是在一个数据集上训练好一个模型 然后这个模
  • 字符串分割

    题目描述 给定一个非空字符串S 其被N个 分隔成N 1的子串 给定正整数K 要求除第一个子串外 其余的子串每K个字符组成新的子串 并用 分隔 对于新组成的每一个子串 如果它含有的小写字母比大写字母多 则将这个子串的所有大写字母转换为小写字母
  • 小游戏:推箱子与推箱子简化版

    在第一版的代码中 将人在目标点上以及箱子在目标点上另外输出 在后续的获取方向键并处理时 只需减去人和箱子的数字就可以刷新目标点的显示 不会出现 吃 目标点的情况 而在第二版的代码中 使用偏移值的改变来简化代码 只需通过方向键的按键活动来改变
  • STL--set容器

    目录 一 set容器基本概念 二 set构造和赋值 三 set 大小和交换 四 set 插入和删除 五 set 查找和统计 六 set 和 multiset 的区别 七 set 容器排序 八 set 容器自定义类型数据排序 一 set容器基
  • chatgpt赋能python:用Python计算数学题,速度快效果好!

    用Python计算数学题 速度快效果好 在现代化的信息时代 计算机已经成为了我们生活中不可缺少的工具之一 而对于数学爱好者来说 用计算机进行数学计算已经变得非常普遍 因为使用计算机能够快速解决数学难题 同时也将复杂的计算变得更加简单易行 P
  • 分页组件

    分页组件是web开发中常见的组件 请完成pagination函数 在id为jsPagination的DOM元素中完成分页的显示部分 需求如下 1 最多连续显示5页 居中高亮显示current页 如demo1所示 2 total为0时 隐藏整
  • Java无法通过形参设置为null改变实参

    文章目录 问题描述 问题例子 问题分析 问题描述 在实际业务开发过程中 我们会把实参传递给形参 在方法体内对引用对象进行构建或者修改 从而改变实参 因为对形参对象属性修改时 实参对象也会随着改变 详情请看 Java是值传递还是引用传递 区别
  • Csharp: 阴历年甲子干支算法錯誤問題

  • 探索OLED透明屏的优缺点:引领科技未来的革命性突破

    OLED透明屏作为一项革命性的创新技术 其令人惊叹的透明度和柔性性能引起了全球范围内的关注 然而 了解OLED透明屏的优缺点对于我们全面认识其在科技未来中的地位至关重要 今天 尼伽将深入探讨OLED透明屏的优势和限制 并借助相关数据 报告和
  • 什么是802.11无线局域网(WLAN)标准?

    Wireless technologies are the center of daily life Wireless networks are used to transfer data between different devices
  • 再见 Xshell ,这款开源的终端工具逼格更高

    再见 Xshell 这款开源的终端工具逼格更高 作为一名后端开发 我们经常需要和Linux系统打交道 免不了要使用Xshell这类终端工具来进行远程管理 最近发现一款更炫酷的终端工具Tabby 主题丰富 功能强大 推荐给大家 SpringB
  • Java NIO——通道Channel:网络Channel通信(重点)

    目录 IO的阻塞与非阻塞 NIO网络通信 没有使用Selector的阻塞NIO通信 非阻塞NIO通信 重点 Selector Channel 注册到 Selector 选择键 SelectionKey Selector的使用方法 IO的阻塞
  • UNeXT

    论文链接 https link springer com chapter 10 1007 978 3 031 16443 9 3 源码链接 https github com jeya maria jose UNeXt pytorch 论文摘