【计算机视觉

2023-10-31

一、Co-Scale Conv-attentional Image Transformer(CoaT)

Co-Scale Conv-Attentional Image Transformer (CoaT) 是一种基于 Transformer 的图像分类器,配备了 co-scale 和 conv-attention 机制。 首先,共尺度机制保持了 Transformers 编码器分支在各个尺度上的完整性,同时允许在不同尺度上学习的表示有效地相互通信。 其次,通过在因子化注意力模块中实现相对位置嵌入公式来设计卷积注意力机制,并采用高效的类似卷积的实现。 CoaT 为图像 Transformers 提供了丰富的多尺度和上下文建模功能。

在这里插入图片描述

二、Pyramid Vision Transformer v2(PVTv2)

Pyramid Vision Transformer v2 (PVTv2) 是一种用于检测和分割任务的 Vision Transformer。 它通过多项设计改进对 PVTv1 进行了改进:(1) 重叠补丁嵌入,(2) 卷积前馈网络,以及 (3) 与 PVTv1 框架正交的线性复杂性注意层。

在这里插入图片描述

三、Class-Attention in Image Transformers(CaiT)

CaiT(图像变换器中的类注意力)是一种视觉变换器,在原始 ViT 的基础上进行了一些设计更改。 首先使用一种称为 LayerScale 的新层缩放方法,在每个残差块的输出上添加可学习的对角矩阵,初始化为接近(但不是)0,从而提高了训练动态。 其次,该架构中引入了类注意层。 这创建了一个架构,其中涉及补丁之间自注意力的变换器层与类注意力层明确分离——类注意力层致力于将处理后的补丁的内容提取到单个向量中,以便可以将其馈送到线性分类器。

在这里插入图片描述

四、PoolFormer

PoolFormer 是通过将令牌混合器指定为极其简单的运算符(池)从 MetaFormer 实例化的。 PoolFormer 被用作验证 MetaFormer 假设“MetaFormer 实际上是您所需要的”(相对于“注意力就是您所需要的”)的工具。

在这里插入图片描述

五、ScaleNet

ScaleNet(或称尺度聚合网络)是一种卷积神经网络,它学习神经元分配以聚合深度网络的不同构建块中的多尺度信息。 每个块中信息最丰富的输出神经元被保留,而其他神经元被丢弃,因此多个尺度的神经元被竞争性和自适应地分配。 尺度聚合(SA)块连接各种尺度的特征图。 每个尺度的特征图是通过一堆下采样、卷积和上采样操作生成的。

在这里插入图片描述

六、VoVNet

VoVNet 是一种卷积神经网络,旨在通过在最后一个特征图中仅连接一次所有特征来提高 DenseNet 的效率,这使得输入大小恒定并能够扩大新的输出通道。 在右图中,代表一个卷积层并且表示串联。

在这里插入图片描述

七、Siamese U-Net

Siamese U-Net 模型采用预训练的 ResNet34 架构作为编码器,用于数据高效的变化检测

在这里插入图片描述

八、Single-path NAS

Single-Path NAS 是通过单路径神经架构搜索方法发现的卷积神经网络架构。 NAS 使用单路径搜索空间。 具体来说,与之前的可微分 NAS 方法相比,单路径 NAS 使用一个单路径过参数化 ConvNet 通过共享卷积核参数对所有架构决策进行编码。 该方法基于这样的观察:NAS 中的不同候选卷积操作可以被视为单个超级内核的子集。 不必像多路径方法中那样在不同的路径/操作之间进行选择,我们而是将 NAS 问题解决为找到在每个 ConvNet 层中使用哪个内核权重子集。 通过共享卷积核权重,我们将所有候选 NAS 操作编码到单个超级内核中。

该架构本身使用 MobileNetV2 的反向残差块作为其基本构建块。

在这里插入图片描述

九、XCiT

交叉协方差图像变换器(XCiT)是一种视觉变换器,旨在将传统变换器的准确性与卷积架构的可扩展性结合起来。

变压器底层的自注意力操作产生所有标记(即单词或图像块)之间的全局交互,并且能够对超出卷积局部交互的图像数据进行灵活建模。 然而,这种灵活性伴随着时间和内存的二次复杂性,阻碍了长序列和高分辨率图像的应用。 作者提出了一种称为交叉协方差注意力的自注意力“转置”版本,它跨特征通道而不是令牌进行操作,其中交互基于键和查询之间的交叉协方差矩阵。

在这里插入图片描述

十、CrossViT

CrossViT 是一种视觉转换器,它使用双分支架构来提取多尺度特征表示以进行图像分类。 该架构结合了不同大小的图像块(即变压器中的标记),以产生更强的图像分类视觉特征。 它使用不同计算复杂度的两个独立分支处理小型和大型补丁令牌,并且这些令牌多次融合在一起以相互补充。

融合是通过高效的交叉注意力模块实现的,其中每个变压器分支创建一个非补丁令牌作为代理,通过注意力与其他分支交换信息。 这允许在融合中线性时间生成注意力图,而不是二次时间。

在这里插入图片描述

十一、PeleeNet

PeleeNet 是一种卷积神经网络和对象检测主干网,是 DenseNet 的变体,并进行了优化以满足内存和计算预算。 与竞争网络不同,它不使用深度卷积,而是依赖于常规卷积。

在这里插入图片描述

十二、ConViT

ConViT 是一种视觉变换器,它使用门控位置自注意力模块(GPSA),这是一种位置自注意力形式,可以配备“软”卷积归纳偏置。 GPSA 层被初始化为模仿卷积层的局部性,然后通过调整控制对位置与内容信息的注意力的门控参数,使每个注意力头可以自由地逃避局部性。

在这里插入图片描述

十三、CrossTransformers

CrossTransformers 是一种基于 Transformer 的神经网络架构,它可以采用少量标记图像和未标记查询,找到查询和标记图像之间的粗略空间对应关系,然后通过计算空间对应特征之间的距离来推断类成员关系。

在这里插入图片描述

十四、SKNet

SKNet 是一种卷积神经网络,在其架构中采用选择性内核单元和选择性内核卷积。 这允许一种注意力类型,网络可以学习关注不同的感受野。

在这里插入图片描述

十五、SqueezeNeXt

SqueezeNeXt 是一种卷积神经网络,它使用 SqueezeNet 架构作为基线,但进行了一些更改。 首先,通过合并两级挤压模块来更积极地减少通道。 这显着减少了 3×3 卷积使用的参数总数。 其次,它使用可分离的3×3卷积来进一步减小模型尺寸,并去除了squeeze模块之后额外的1×1分支。 第三,该网络使用类似于 ResNet 架构的逐元素加法跳跃连接。

在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【计算机视觉 的相关文章

随机推荐

  • 友情链接检查工具

    友链检测工具 它是一款 完全免费 的软件 用以检测友情链接没有掉链 与网页版对比 具有 多线程检测 实时检测 速度快 高效 操作 步骤 输入网址 点击查询按钮 等待完成返回查询结果 友链检测工具 zip
  • python简单的学习方式04

    python学习 一 嵌套循坏 二 break和continue关键字 三 for else和while else 四 列表的性质 五 列表的增删查改 1 增加 2 修改 3 删除 一 嵌套循坏 引入模块 作用 直接借用别人实现好的功能来解
  • 实例化和初始化的区别

    实例化一般是由类创建的对象 在构造一个实例的时候需要在内存中开辟空间 即 Student s new Student 初始化 实例化的基础上 并且对 对象中的值进行赋一下初始值
  • 面试题--Git与设计模式

    面试题 Git与设计模式 Git 1 Git和SVN有什么区别 2 什么是Git 3 在 Git 中提交的命令是什么 4 什么是 Git 中的 裸存储库 5 Git 是用什么语言编写的 6 在Git中 你如何还原已经 push 并公开的提交
  • WSL启动Ubuntu时报错“参考的对象类型不支持尝试的操作”

    最近要用到微软的WSL了 打开以后发现hyper v之前因为用virtual box虚拟机给关了 导致报错 打开相关的虚拟化功能以后 又遇到了新的问题 参考的对象类型不支持尝试的操作 电脑系统 WIN11 我会给大家介绍三种方法 打游戏的朋
  • 队列的使用注意点

    队列通常使用链表或数组作为元素的基础存储 队列的大小需要约束 如果允许内存中的队列不受限制 那么对于许多类别的问题 它可以不受限制地增长 直到它达到灾难性失败的地步 因为它耗尽了内存 这发生在生产者超过消费者的时候 无界队列在系统中可能很有
  • leecode26题删除排序数组中的重复项

    双指针法的介绍 下面内容转载自代码随想录 点击进入代码随想录 双指针法 快慢指针法 通过一个快指针和慢指针在一个for循环下完成两个for循环的工作 定义快慢指针 快指针 寻找新数组的元素 新数组就是不含有目标元素的数组 慢指针 指向更新
  • 华为OD机试 - 计算误码率(Java)

    题目描述 误码率是最常用的数据通信传输质量指标 它可以理解为 在多少位数据中出现一位差错 移动通信网络中的误码率主要是指比特误码率 其计算公式如下 比特误码率 错误比特数 传输总比特数 为了简单 我们使用字符串来标识通信的信息 一个字符错误
  • 解决libtorch安装编译链接时出错

    cmake build config Release Scanning dependencies of target example app 50 Building CXX object CMakeFiles example app dir
  • SQL注入漏洞(postgresql注入)

    以前孤陋寡闻对postgresql这个数据库少有了解 后来与几个目前在企业实习的朋友聊天才得知他们有的公司项目用的是postgresql 有的公司是正在将原本的数据库迁移到postgresql 可见postgresql比较热 毕竟免费且功能
  • idea:idea自定义注释模板自动生成方法注释

    idea的类注释 可以通过自己添加模板的方式来生成 在Live Templates里 添加一个分组MyGroup 下面添加一组数据 如下图 Abbreviation为 Expand with选择tab 我个人喜换用tab 主要是跟系统的回车
  • uni-app使用scroll-view实现锚点定位和滚动监听功能

    1 html代码
  • ubuntu实现有线连接拨号上网(本文使用版本ubuntu18.04 )

    1 第一步 cd usr share applications 找到下面的应用 上图中的 NetworkConnections 双击打开 如果没有的话 命令运行 sudo apt install net tools 之后就有了 2 选择以太
  • maven本地仓库jar注册

    mvn install install file Dfile name 包名称 jar DgroupId groupId DartifactId artifactId Dversion version Dpackaging jar 例
  • 《网络建设与运维》大赛试题解析

    网络建设与运维 大赛试题解析资源 CSDN文库 https download csdn net download weixin 41687096 87799021
  • Spring 中AspectJ框架简介说明

    转自 Spring 中AspectJ框架简介说明 在以前的章节中 我们学习了使用代理类实现AOP Spring 2 0 以后 Spring 新增了对 AspectJ 的支持 所以笔者建议大家在Spring 框架中 尽量使用AspectJ方式
  • 2.4总线操作和定时

    文章目录 一 引子 二 介绍 1 总线周期 2 总线定时规范 三 同步定时方式 1 过程 2 特点 3 优缺点 优点 缺点 四 异步定时方式 1 介绍 2 三种方式 1 不互锁方式 2 半互锁方式 3 全互锁方式 3 优缺点 优点 缺点 五
  • 《操作系统》 实验1_unix——io参考

    任务1 在当前用户目录下创建数据文件student txt 文件的内部信息存储格式为Sname S Sdept Sage Ssex 即 姓名 学号 学院 年龄 性别 每行一条记录 输入不少于10条学生记录 其中包括学生本人记录 编写程序ta
  • vscode 输入 npm install 报错: node-sass@8.0.0 install: `node scripts/install.js`

    1 报错信息描述 报错的原因及解决方案 自身入的坑 第一种 看一下这里是否有中文目录 有的话有可能会报错 第二种 管理员身份运行vscode 第三种 node sass版本问题 解决版本问题方案 1 报错信息描述 当我们在vscode中输入
  • 【计算机视觉

    文章目录 一 Co Scale Conv attentional Image Transformer CoaT 二 Pyramid Vision Transformer v2 PVTv2 三 Class Attention in Image