ACMix:清华提出融合卷积与自注意力机制的模块

2023-11-16

在这里插入图片描述
前几天看了一篇由清华大学发表的融合卷积与自注意力机制的文章,其中将融合模块称为 ACMix。本文主要就其中的融合细节进行讲述。

paper:http://arxiv.org/abs/2111.14556
code:https://github.com/LeapLabTHU/ACmix

\quad

介绍(文章贡献)


有两个方面:(1) 揭示了自注意力和卷积之间的强大潜在关系,为理解两个模块之间的联系提供了新的视角,并为设计新的学习范式提供了灵感。 (2) 提出了自注意力和卷积模块的优雅集成,它享有两个世界的好处。经验证据表明,混合模型始终优于其纯卷积或自注意力模型。

\quad

相关工作


这部分主要针对 Self-Attention onlyAttention enhanced ConvolutionConvolution enhanced Attention 的不同现有网络进行了介绍,感兴趣的可以看看原文。

\quad

方法


回顾 Convolution

在这里插入图片描述
上图所示是一个3x3的卷积核对一个6x6大小的特征图 f i n f_{in} fin进行卷积,实现方式就是用该卷积核在特征图上滑动,将特征图核原图重叠的像素块进行乘积,然后进行加和得到输出特征图 f o u t f_{out} fout对应像素的值。
\quad

因此标准卷积层的理论计算可以定义如下,即输出卷积图中 ( i , j ) (i,j) (i,j)像素点的值是卷积核与前一层特征图的乘积加和,如下

在这里插入图片描述

为了方便可以重写为

a
在这里插入图片描述

为了进一步简化,定义 S h i f t Shift Shift 算子
在这里插入图片描述
在这里插入图片描述
\quad

依照ACMix论文,我们完全可以换一下上面的逻辑,卷积就可以抽象成两个阶段:

  • 阶段一:先用卷积核的中的一个 pixel 生成整个特征图,比如就考虑 3x3 卷积核的左上角像素,和前一张特征图做卷积,得到只属于该卷积核像素的特征图
    在这里插入图片描述

  • 阶段二:在我们获取输出特征图的时候,我们如果要求在 ( i , j ) (i,j) (i,j)像素的输出特征图的值,就直接提取每张卷积核特征图对应偏移量的像素值,然后进行加和
    在这里插入图片描述

\quad

回顾 Self-Attention

总计算式子如下,即想要求 ( i , j ) (i,j) (i,j)像素的输出特征图的值,则需要当前 ( i , j ) (i,j) (i,j)像素的特征在这里插入图片描述,与其周围区域在这里插入图片描述
内其他特征进行权重计算在这里插入图片描述
,然后再用权重求和

在这里插入图片描述
在这里插入图片描述
拆分成两阶段
在这里插入图片描述

ACMix

ACMix 合并 convolution 和 self-attention 的共有模块,首先在第一阶段先用1x1的卷积核扩充通道,生成 ( q , k , v ) (q,k,v) (q,k,v),而这将被第二阶段共用。

  • 卷积分支:这里并不考虑将 ( q , k , v ) (q,k,v) (q,k,v)分开看待,而是concat之后一起输入到全连接层。根据上面卷积重写的思想,先生成每个卷积核像素对应的特征图,如大小为 k k k的卷积核就有 k 2 k^2 k2个特征图,然后再通过 S h i f t Shift Shift 算子去融合特征图的输出
  • 自注意力分支:直接就是正常的自注意力机制计算

最后将 convolution 和 self-attention 获得的特征通过超参数 α 、 β \alpha、\beta αβ进行加权融合,得到最终的特征图
在这里插入图片描述
\quad

S h i f t Shift Shift 算子的实现

作者是采用了卷积核不同位置设为1的常量进行初始化,然后通过 depth-wise convolution 实现。
在这里插入图片描述

更多细节请看源码和原文。
paper:http://arxiv.org/abs/2111.14556
code:https://github.com/LeapLabTHU/ACmix

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

ACMix:清华提出融合卷积与自注意力机制的模块 的相关文章

随机推荐

  • Java基础-一些容易被人忽视却重要的Java基础知识(二)

    文章目录 一 重载和重写 1 重载 2 重写 一 重载和重写 1 重载 被重载的方法必须改变参数列表 参数个数或者类型 顺序不一样 被重载的方法可以改变返回类型 被重载的方法可以改变访问修饰符 可以使用新的或更广的检查异常 方法能够在同一类
  • java动态生成pdf文件的方法

    java动态生成pdf文件 文章目录 java动态生成pdf文件 前言 一 生成pdf模板 二 使用步骤 1 使用jar包 2 pdf实现方法 总结 前言 java开发过程中难免会遇到生成文件的需求 这里简单介绍一下关于pdf格式的文件的动
  • python常见的面试题,看你都掌握了吗

    前言 Python是目前编程领域最受欢迎的语言 在本文中 我将总结Python面试中最常见的50个问题 每道题都提供参考答案 希望能够帮助你在2019年求职面试中脱颖而出 找到一份高薪工作 这些面试题涉及Python基础知识 Python编
  • usb转网口转换器经常自动断网

    问题 最近使用一个usb转网口的扩展坞 发现和其它机器通信时 经常会自动断网 原因 和设备的电源管理策略有关 USB设备的 允许计算机自动关闭此设备以节约电源 选项默认是选中的 而网络设备的此选项默认值是未选中 解决办法 打开设备管理器 找
  • MATLAB基本语法详解

    MATLAB基本语法详解 下面内容 变量 M Files 决策 循环容易掌握 命令 数据类型 运算符不需要记住 用了再查 变量 每个MatLab变量可以是数组或者矩阵 最简单的方法指定变量 x 3 定义并初始化 赋值 变量x MATLAB上
  • 搭建redis主从服务 :master_link_status:down 主从无法连接问题汇总

    1 问题描述 主从无法连接问题 2 搭建 https blog csdn net ling811 article details 53637257 https blog csdn net qq 24113267 article detail
  • 双机热备 ip地址_SBC双机热备方案

    概述 随着通信全IP化的进程 现代企业中基于IP的语音 视频 会议 融合通信已广泛应用 同时企业通信也面临着新挑战 包括安全攻击 跨网NAT穿越以及业务稳定运行 高可靠方案尤为重要 因此在组网中部署SBC Session Border Co
  • NPN和PNP三极管原理以及应用电路设计

    一 基本概念与原理 三极管最主要的功能是电流放大 模拟电路 和开关作用 数字电路 常用的三极管有 S9014 S8550等型号 三极管由两个PN结构成 共用的一个电极成为三极管的基极 用字母b表示 其他的两个电极成为集电极 用字母c表示 和
  • 安卓加固基础(二)

    4 反调试 4 1 思路一 一个进程最多只能被一个进程ptrace 本文章主要针对安卓so反调试和最初的加壳方法进行了一下总结 在处于调试状态时 Linux会向 proc pid status写入一些进程状态信息 比如TracerPid字段
  • 【leetcode 力扣刷题】删除字符串中的子串or字符以满足要求

    删除字符串中的子串或者字符以满足题意要求 1234 替换子串得到平衡字符串 680 验证回文串 917 仅仅反转字母 1234 替换子串得到平衡字符串 题目链接 1234 替换子串得到平衡字符串 题目内容 题目中给出了平衡字符串的定义 只有
  • TypeScript 初识笔记

    目录 一 基础静态类型和对象类型 二 类型注解和类型推断 三 元组的使用和类型约束 四 接口 五 类 六 联合类型和类型保护 七 枚举 八 泛型 九 tsconfig json文件 TypeScript 其实就是 JavaScript 的超
  • 教程:在Vivado中指定VSCode作为文本编辑器

    教程 在Vivado中指定VSCode作为文本编辑器 更新历史 20190325 首次发布 20201027 对本文第三步中需要填写的内容做了修改 使得VSCode能够实现光标的自动定位 该修改的做法是 HK Journalist 在评论中
  • Vue组件间通信方式都有哪些?

    一 组件间通信的概念 组件间通信这个词进行拆分 组件 通信 都知道组件是vue最强大的功能之一 vue中每一个 vue可以视之为一个组件通信指的是发送者通过某种媒体以某种格式来传递信息到收信者以达到某个目的 广义上 任何信息的交通都是通信组
  • 一个方案提升Flutter内存利用率(干货)

    背景 我们闲鱼使用的图片方案是自研的外接纹理方案 Android侧创建SurfaceTexture 通过FlutterJNI注册到Flutter engine里 最后返回texture id给Flutter应用层 应用层使用Texture
  • 前端系列之CSS(布局)

    1 行布局 2 多列布局 3 混合布局 4 圣杯布局 5 双飞翼布局
  • 大数据项目实战——基于某招聘网站进行数据采集及数据分析(六)

    大数据项目实战 第六章 数据可视化 学习目标 掌握 Sqoop 数据迁移工具的迁移工具的使用 熟悉关系型数据库 MySQL 掌握 SSM JavaEE 开发框架的整合及应用 掌握 ECharts 前端框架的使用 本篇将应用 Sqoop 将
  • TCGA各种肿瘤数据的20多种不同玩法/挖掘方法

    肿瘤基因组图谱 The Cancer Genome Atlas TCGA 计划是由美国国家癌症研究院 National Cancer Institute NCI 和美国国家人类基因组研究所 National Human Genome Res
  • C语言基础入门48篇_46_malloc与free(malloc申请堆返回void要指针强转、free释放堆,只需堆内存首地址、malloc配合sizeof增加可读性、注意出{}作用域导致无法释放)

    从上篇C语言基础入门48篇 45 内存的分区 全局区 栈区 堆 全局区main执行前分配好 存储程序代码及全局变量 栈区M级别随着函数调用返回自动分配回收 存储局部变量 堆大量内存动态分配 回收的内存区域 知道 不管是全局区还是栈区的内存
  • IP地址、子网掩码、网络号、主机号、网络地址、主机地址以及ip段/数字-如192.168.0.1/24是什么意思?

    背景知识 IP地址 IP地址被用来给Internet上的电脑一个编号 大家日常见到的情况是每台联网的PC上都需要有IP地址 才能正常通信 我们可以把 个人电脑 比作 一台电话 那么 IP地址 就相当于 电话号码 而Internet中的路由器
  • ACMix:清华提出融合卷积与自注意力机制的模块

    前几天看了一篇由清华大学发表的融合卷积与自注意力机制的文章 其中将融合模块称为 ACMix 本文主要就其中的融合细节进行讲述 paper http arxiv org abs 2111 14556 code https github com