文章目录
- 摘要
- 1、简介
- 2、相关工作
- 3、我们的方法:BiFormer
-
- 3.1、预备知识:注意力
- 3.2、双层路由注意(BRA)
- 3.3、BRA的复杂性分析
- 4、实验
-
- 4.1、ImageNet-1K图像分类
- 4.2. 目标检测与实例分割
- 4.3. 基于ADE20K的语义分割
- 4.4、消融研究
- 4.5、注意图可视化
- 5、局限性和未来工作
- 6、结论
摘要
论文链接:https://arxiv.org/abs/2303.08810
代码链接:https://github.com/rayleizhu/BiFormer
作为视觉transformer的核心构建模块,注意力是捕捉长程依赖关系的强大工具。然而,这种能力是有代价的:它会带来巨大的计算负担和内存占用,因为要计算所有空间
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)