【论文阅读笔记】A Recent Survey of Vision Transformers for Medical Image Segmentation

2023-12-18

Khan A, Rauf Z, Khan A R, et al. A Recent Survey of Vision Transformers for Medical Image Segmentation[J]. arXiv preprint arXiv:2312.00634, 2023.

【论文概述】

本文是关于医学图像分割中视觉变换器(Vision Transformers,ViTs)的最新综述。文中详细回顾了ViTs及其与卷积神经网络(CNNs)结合形成的混合视觉Transformers(Hybrid Vision Transformers,HVTs)在医学图像分割方面的最新进展。文中讨论了这些技术如何通过模拟图像中的长距离关系来提高诊断、治疗计划和疾病监测的准确性。同时,还探讨了这些方法在不同医学图像模态(如CT、MRI、X射线等)中的实际应用,以及它们面临的挑战和未来的发展方向。

本文中规中矩,对涉及到的方法只是简单陈列,并没有细致的优缺点探讨,可以作为寻找对应方向论文的一个参考,笔记中对涉及到的方法根据之前读文经历进行简单的优缺点归纳。

【本文模型的分类方法】

  1. 本文首先对基于ViT的医学图像分割方法进行了全面综述,将其分为两大类:基于ViT的方法(ViT-based methods)和混合视觉Transformers的方法(HVT-based methods)。
  2. 对于基于ViT的方法,进一步将其细分为以下四类:
  • ViT在编码器(encoder)中的应用。

  • ViT在解码器(decoder)中的应用。

  • ViT在编码器-解码器之间(in between encoder-decoder)的应用。

  • 编码器和解码器都采用基于ViT的架构(both the encoder and decoder are ViT-based architectures)。

    3.对于混合视觉Transformers(HVT)的方法,提出了一个分类法:

  • 基于编码器的集成(encoder-based integration)。

  • 基于解码器的集成(decoder-based integration)。

【医学图像分割存在的一些挑战】

1.在医学图像中的对象内发现的尺寸范围很广

2.结构轮廓的模糊性,加上它们的不同纹理变化和复杂形状,这很容易产生不准确的结果

3.当将感兴趣的对象与背景隔离时,低强度对比度带来的挑战

4.没有足够的训练数据集

【4.1 ViT-based Medical Image Segmentation Approaches】

这一部分从四个方面探讨了ViTs在医学图像分割中的应用,包括ViT在编码器(Encoder)、解码器(Decoder)、编码器-解码器中的应用,以及ViT在编码器和解码器之间的应用。以下是对这些部分的总结:

  1. ViT in Encoder

    image-20231218083803640
    • 优点 :通过在编码器中使用ViT,模型能有效捕获全局信息和多尺度特征,从而增强特征提取能力。
    • 代表模型 :例如UNETR(UNet Transformer),利用ViT作为编码器来有效捕获输入体积的多尺度全球信息。
    • 缺点 :可能会增加模型的计算复杂性和训练难度。
  2. ViT in Decoder

    image-20231218083930090
    • 优点 :将ViT应用于解码器可以提高预测边界精度,并区分背景和兴趣对象。
    • 代表模型 :如ConvTransSeg,采用CNN编码器和基于ViT的解码器。
    • 缺点 :解码阶段的全局信息处理可能不如编码阶段有效。
  3. ViT in both Encoder-Decoder

    image-20231218084202901
    • 优点 :在编码器和解码器都使用ViT的架构能全面利用ViT的长距离关注机制。
    • 代表模型 :例如Swin-Unet和、nnFormer、MISSFormer、TransDeepLab,这些模型在编码器和解码器中都使用ViT结构,以捕获图像的全局和局部特征。
    • 缺点 :这种方法可能导致更高的计算成本和更复杂的模型结构。
  4. ViT in between Encoder-Decoder

    image-20231218084439447
    • 优点 :此方法通过在编码器和解码器之间引入ViT,可以在局部和全局特征之间建立更有效的连接。
    • 代表模型 :例如ATTransUNet和DCA(Dual Cross-Attention)、ViT-V-Net,它们在编码器和解码器之间使用ViT,以改善特征融合和上下文建模。
    • 缺点 :可能需要更复杂的训练策略来优化特征融合。

【4.2. Hybrid ViT-Based Medical Image Segmentation Approaches】

探讨了混合视觉Transformers(Hybrid Vision Transformers, HVTs)在医学图像分割中的应用。这些方法结合了卷积神经网络(CNNs)和视觉变换器(ViTs)的优势,以提高分割性能。以下是对这一部分内容的总结,包括三个主要方面:

  1. Hybrid ViT in Encoder

    image-20231218084947421
    • 优点 :通过在编码器中结合HVT,模型能够同时捕获全局和局部特征,提高特征表示的丰富性。
    • 代表模型 :例如TransUNet,结合了ViT的全局感知能力和U-Net的局部特征提取能力;TransBTS,结合了ViT和3D CNN,用于处理3D医学体积数据。
    • 缺点 :混合模型可能会增加模型复杂度,需要更多的计算资源。
  2. Hybrid ViT in Decoder

    image-20231218085028808
    • 优点 :在解码器中应用HVT可以提高分割边界的准确性,特别是在处理复杂的医学图像时。
    • 代表模型 :例如UNetFormer,结合了3D Swin Transformer和CNN,以及基于变换器的解码器。
    • 缺点 :这种方法可能导致解码阶段的计算负担加重。
  3. Hybrid ViT in both Encoder-Decoder

    image-20231218085135604
    • 优点 :在编码器和解码器中都使用HVT可以充分利用ViT和CNN的优势,实现全面的特征提取和细节捕获。
    • 代表模型 :例如MaxViT-UNet、SwinBTS,利用3D Swin Transformer和卷积操作来学习局部和全局级别的特征。
    • 缺点 :这种结构可能导致模型过于复杂,难以训练和优化。

【5. ViT-based Medical Image Segmentation Applications】

作者详细讨论了基于视觉Transformers(Vision Transformers, ViTs)的医学图像分割应用,覆盖了从CT图像到X射线图像的多种医学成像方式。以下是对这一部分内容的概括总结:

  1. CT图像(CT Images)
    • 应用了ViT的方法能有效地处理CT图像,提高了病灶检测的准确性。
    • 代表模型:如TransBTS,利用ViT与3D CNN相结合,以处理3D CT数据。
  2. 病理学图像(Histopathological Images)
    • 在病理学图像分析中,ViT有助于细胞结构的精准分割和识别。
    • 代表模型:如TransPath,它将ViT与传统的CNN技术结合,以提高细胞和组织的分割效果。
  3. 显微镜图像(Microscopy Images)
    • ViT在处理显微镜图像时展现了提高分割准确性的潜力,特别是在复杂的细胞结构分割方面。
    • 代表模型:例如使用ViT的各种混合方法,它们结合CNN的局部特征识别能力和ViT的全局信息处理能力。
  4. MRI图像(MRI Images)
    • ViT在MRI图像分割中特别有效,能够处理复杂的脑部结构。
    • 代表模型:如Swin UNETR和TransBTS,它们在处理脑肿瘤分割等高复杂度任务中表现出色。
  5. 超声图像(Ultrasound Images)
    • ViT在超声图像分割中有助于提高边界检测的准确性,特别是在不规则形状的肿瘤识别方面。
    • 代表模型:例如结合ViT和CNN技术的混合模型,用于提高超声图像中特定组织或病变的识别能力。
  6. X射线图像(X-Ray Images)
    • ViT在X射线图像分割中表现出对细节的高敏感性,特别是在骨骼和其他硬组织的分割方面。
    • 代表模型:如结合CNN和ViT的模型,用于提高诸如肺部疾病识别和骨折检测的准确性。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【论文阅读笔记】A Recent Survey of Vision Transformers for Medical Image Segmentation 的相关文章

  • HONEYWELL 05701-A-0302 单通道控制卡

    HONEYWELL 05701 A 0302 单通道控制卡 HONEYWELL 05701 A 0302 单通道控制卡产品详情 HONEYWELL 05701 A 030 单通道控制卡可能应用于工业自动化 过程控制 监控系统等领域 以下是一
  • Windows7系统powercfg.exe文件丢失问题

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题 如果是新手第一时间会认为是软件或游戏出错了 其实并不是这样 其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库 这时你可以下载这个powercf

随机推荐

  • Java代码世界的神奇技巧与魔法艺术

    目录 前言 1 Java的独特优势 1 1 跨平台性 1 2 面向对象 1 3 强大的生态系统 2 Java的应用场景 2 1 企业级应用开发 2 2 移动应用开发
  • 吴恩达机器学习笔记七 逻辑回归的梯度下降 过拟合及解决方法

    两个偏导数 逻辑回归的梯度下降 泛化 generalization 对全新的示例也能做出良好的预测 解决过拟合的方法 1 收集更多的测试数据 2 特征选择 feature selection 使用更少的特征 3 正则化 regulariza
  • 题解 | #火车进站#

    解约的同学看过来 提供一份解约思路 题解 火车进站 include
  • Linux性能优化常做的一些事情

    Linux性能优化是一个广泛的主题 涉及多个方面 以下是一些常见的Linux性能优化建议 硬件和系统配置 使用SSD替代HDD 确保系统有足够的RAM 使用多核CPU 配置合适的网络硬件和带宽 磁盘I O性能 使用RAID来提高I O性能
  • Win7系统提示找不到dmvscres.dll文件的解决办法

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题 如果是新手第一时间会认为是软件或游戏出错了 其实并不是这样 其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库 这时你可以下载这个dmvscre
  • Win7系统提示找不到dmsynth.dll文件的解决办法

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题 如果是新手第一时间会认为是软件或游戏出错了 其实并不是这样 其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库 这时你可以下载这个dmsynth
  • 目标检测深度学习的anchor

    在目标检测深度学习中 Anchor是一种预定义的框 用于在图像中采样不同位置 尺度和长宽比例的区域 作为目标检测模型的候选区域 Anchor是Faster R CNN等基于Anchor的目标检测算法的核心概念 具体来说 Anchor有以下几
  • 深度学习目标检测全连接层什么意思

    在深度学习目标检测中 通常我们使用卷积神经网络 Convolutional Neural Network CNN 进行特征提取 CNN 的主要结构包括卷积层和池化层 用于从输入图像中提取特征 然而 为了最终输出目标的类别和位置信息 通常在网
  • 题解 | #平均活跃天数和月活人数#

    金融科技岗分享 欢聚shopline 凉 又遇毁到offer 爱奇艺互动产品运营实习面经 百度大搜2024校招补录 搜索时效性团队工作职责 1 通过query理解 召回 排序全链路的优化 持续优化百度搜索时效排序效果2 持续探索落地最前沿的
  • WMS系统出库扫描:提升仓储管理效率与准确性

    WMS系统中的出库扫描功能是关键环节之一 它通过扫描物料或货物的条形码或二维码 实现实时 准确地记录和更新库存信息 一 WMS系统出库扫描的重要性 1 实现库存准确性 通过出库扫描 WMS系统能够准确记录物料或货物的出库信息 实时更新库存数
  • 持续集成交付CICD:Jenkins使用GitLab共享库实现前端项目镜像构建

    目录 一 实验 1 GitLab修改项目文件与Harbor环境确认 2 Jenkins使用GitLab共享库实现前端项目镜像构建 3 优化CI流水线封装Harbor账户密码 4 Jenkins再次使用GitLab共享库实现前端项目镜像构建
  • 精通Nginx(25)-Nginx Plus增强功能之缓存清除、复杂媒体流支持、安全防护

    Nginx Plus在缓存清除 复杂媒体流支持 安全防护也做了增强 缓存清除 NGINX Plus 可手工指定清除缓存项 配置示例如下 http 请求是PURGE缓存清除方法 map request method purge method
  • 题解 | #浙江大学用户题目回答情况#

    快手测开二面面经 国企面经 多家 得物 测开 一面 中国联通陕西省分公司薪资待遇 京东健康前端实习一面凉经 求java推荐项目 面经回馈 秋招及实习历程中笔经 面经 时间梳理 国企银行 秒杀项目常见问题 终焉篇 双非本产品经理35w 终于来
  • 24届还有在看工作机会的吗,求求大家看下小米吧,HC非常多

    一定要反问HR的六个问题 offer比较 华为 vs OPPO 离谱的一周 百度裁应届 拼多多 非必要就别去了吧 阿里云25k gt 美团29k 实习转正啦 进来看耍猴 12 17更新 25届实习招聘信息汇总走起 策论 设计产出 Learn
  • Win7系统提示找不到dmutil.dll文件的解决办法

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题 如果是新手第一时间会认为是软件或游戏出错了 其实并不是这样 其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库 这时你可以下载这个dmutil
  • 永新光学:用纷享销客打造高效管理平台,实现产销一体快速运转

    一方面 随着科技的进步和应用领域的扩大 光学仪器的需求不断增加 从医疗 教育 工业 军事 各个领域对光学仪器的需求都在不断增长 另一方面 数字化技术的应用也在光学仪器行业得到广泛推广 从设计制造到销售服务 数字化管理提供了更高效 精细化的方
  • 设计与算法:全排列

    描述 给定一个由不同的小写字母组成的字符串 输出这个字符串的所有全排列 我们假设对于小写字母有 a lt b lt lt y lt z 而且给定的字符串中的字母已经按照从小到大的顺序排列 输入 输入只有一行 是一个由不同的小写字母组成的字符
  • 2023 英特尔On技术创新大会中国站,最佳“游览指南”来了!

    CSDN IntelEdgeComputing 渠道注册链接 添加我为微信好友 2023英特尔On技术创新大会中国站即将上线 12 月 19 日 09 00 助力开发者 让AI无处不在 CSDN IntelEdgeComputing专属福利
  • 如何清空电脑所有数据?3个方法,快速释放空间!

    大家快帮帮我 我的电脑内存严重不足了 使用的时候非常卡顿 我想把所有的数据都清除了 但是不知道如何操作 有快速的数据删除方法吗 随着我们电脑使用时间的变长 电脑的内存也会渐渐不足 部分用户可能需要将所有数据都清空 以此来保存电脑的可持续运行
  • 【论文阅读笔记】A Recent Survey of Vision Transformers for Medical Image Segmentation

    Khan A Rauf Z Khan A R et al A Recent Survey of Vision Transformers for Medical Image Segmentation J arXiv preprint arXi