文章目录
- 摘要
- 1、简介
- 2、相关工作
-
- 2.1、卷积神经网络
- 2.2、Vision Transformers
- 2.3、其他方法
- 3、模型设计
-
- 3.1、架构
- 3.2、卷积调制块
- 3.3、Micro设计
- 4、实验
-
- 4.1 实验设置
- 4.2、与其他方法的比较
- 4.3、方法分析
- 4.4、ViTs各向同性模型的结果
- 4.5、下游任务的结果
- 5、结论与讨论
摘要
本文并没有试图设计一种最先进的视觉识别方法,而是研究了一种更有效的方法,利用卷积来编码空间特征。通过比较最近的卷积神经网络(ConvNets)和Vision transformer的设计原理,我们提出利用卷积调制操作来简化自注意。我们证明了这样一
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)