经典/最新计算机视觉论文及代码推荐

2023-10-30

今日推荐几篇最新/经典计算机视觉方向的论文,涉及诸多方面,都是CVPR2022录用的文章,具体内容详见论文原文和代码链接。

Convnet新活力

-  论文题目:A ConvNet for the 2020s

- 论文链接:https://arxiv.org/abs/2201.03545

-  代码链接:https://github.com/facebookresearch/ConvNeXt

      

“文艺复兴”,ConvNet卷土重来,压过Transformer。本文是FAIR的Zhuang Liu(DenseNet的作者)与Saining Xie(ResNeXt的作者)关于ConvNet的最新探索,以ResNet为出发点,逐步引入近来ViT架构的一些设计理念而得到的纯ConvNet新架构ConvNeXt,取得了优于SwinT的性能,让ConvNet再次性能焕发。

从上图可以看到网络架构每一次进化所能取得的性能(ConvNeXt-T取得了82%,超越了Swin-T的81.3%),由于模型复杂度与最终性能相关,故FLOPs进行了一定程度的控制。

卷积核越大越涨点

  • 论文题目:Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNN

  • 论文链接:https://arxiv.org/abs/2203.06717

  • 代码链接:https://github.com/MegEngine/RepLKNet

我们发表于CVPR 2022的工作表明,CNN中的kernel size是一个非常重要但总是被人忽略的设计维度,在现代模型设计的加持下,卷积核越大越暴力,既涨点又高效,甚至大到31x31都非常work(如下表所示,左边一栏表示模型四个stage各自的kernel size)!即便在大体量下游任务上,我们提出的超大卷积核模型RepLKNet与Swin等Transformer相比,性能也更好或相当!

新主干!MPViT:用于密集预测的多路径视觉Transformer

  • 论文题目:MPViT: Multi-Path Vision Transformer for Dense Prediction

  • 论文链接:https://arxiv.org/abs/2112.11010

  • 代码链接:https://github.com/youngwanLEE/MPViT

  • 在这项工作中,作者以不同于现有Transformer的视角,探索多尺度path embedding与multi-path结构,提出了Multi-path Vision Transformer(MPViT)

  • 通过使用 overlapping convolutional patch embedding,MPViT同时嵌入相同大小的patch特征。然后,将不同尺度的Token通过多条路径独立地输入Transformer encoders,并对生成的特征进行聚合,从而在同一特征级别上实现精细和粗糙的特征表示。

  • 在特征聚合步骤中,引入了一个global-to-local feature interaction(GLI)过程,该过程将卷积局部特征与Transformer的全局特征连接起来,同时利用了卷积的局部连通性和Transformer的全局上下文。

后续

下一期最新/经典视觉cvpr顶会论文敬请期待!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

经典/最新计算机视觉论文及代码推荐 的相关文章

随机推荐

  • 04_Nginx_从url中获取参数

    04 Nginx 从url中获取参数 1 导读 2 代码示例 3 实验截图 1 导读 需要从url中获取到想要的参数 特此记录方式 2 代码示例 使用的是ngx http request t结构体中的args参数 printf n char
  • 2022年「博客之星」 无知的人_的程序人生

    这是 2022 博客之星 的竞选帖子 请你在这里增加其他内容 包括但不限于 你这一年的收获 感悟 对CSDN 产品的反馈和 2023 年的希望 参考 https blog csdn net SoftwareTeacher article d
  • MYSQL查询当前表存在哪些索引

    查看表存在的索引 show index from table name 表名 结果列表中各字段的含义 Non unique 如果索引不能包括重复词 则为0 如果可以 则为1 Key name 索引名称 Seq in index 索引中的列序
  • TIKTOK视频:视频内容打造需要注意的几点 抓住流量密码

    TIKTOK视频 视频内容打造需要注意的几点 抓住流量密码 大家好 我是项柚 一个专注于讨论TikTok玩法的跨境电商自媒体人 每天不断输出干货给需要的朋友 大家都知道 欧美跨境市场已经被认为是 红海 很多人已经凭着一股冲劲凭着一边做一边学
  • mybatis plus 常用方法

    学习链接 简介 MyBatis Plus 一 分页 创建分页实体 Page
  • 文盘Rust -- 给程序加个日志

    日志是应用程序的重要组成部分 无论是服务端程序还是客户端程序都需要日志做为错误输出或者业务记录 在这篇文章中 我们结合log4rs聊聊rust 程序中如何使用日志 log4rs类似java生态中的log4j 使用方式也很相似 log4rs中
  • 基于SoC FPAG实现手写体识别(HLS编译的全连接算子)

    基于SoC FPAG实现手写体识别 HLS编译的全连接算子 点击操作手册下载 完整代码 1 HLS的代码 2 SoC EDS 中 eclipse 测试代码 由于流程过多 这里采用pdf文件下载的方式 点击操作手册下载 链接 https pa
  • 北京大学肖臻老师《区块链技术与应用》公开课笔记-BTC

    本笔记为学习期间对主要知识和逻辑的记录 根据课程内容分为BTC和ETH两篇 本篇为BTC部分 北京大学肖臻老师 区块链技术与应用 公开课笔记 ETH 文章目录 01 课程简介 02 BTC 密码学原理 03 BTC 数据结构 04 BTC
  • javascript ES5中 foreach()遍历方法

    forcach array forEach function currentValue index arr currentValue 数组当前项的值 index 数组当前项的索引 可选 arr 数组对象本身 filter 方法创建一个新的数
  • Unable to launch the IIS Express Web server 问题之解决 - [Visual Studio 2015]

    背景 Visual Studio 2015 在 Debug 模式下调试失败 报错如下图所示 解决办法 删除解决方案下 vs config 文件夹内的这个配置文件 再关闭并重新运行解决方案即可进行调试
  • 清除SVN版本信息

    echo on color 2f mode con cols 80 lines 25 REM echo Deleting all svn please wait rem Delete svn in current and sub direc
  • LeetCode之Count Binary Substrings(Kotlin)

    问题 Give a string s count the number of non empty contiguous substrings that have the same number of 0 s and 1 s and all
  • 如何搭建C语言环境

    以下文章来源于 公 众 号开源电子网 读取更多技术文章 请扫码关注 如何搭建C语言环境 前言 C语言作为嵌入式开发的必备掌握技能 嵌入式能力的提升速度很大程度在于C语言的掌握能力 正所谓 工欲善其事 必先利其器 学习C语言 第一件动手的事情
  • 【餐厅点餐平台|一】项目描述+需求分析

    餐厅点餐平台导航 餐厅点餐平台 一 项目描述 需求分析 https blog csdn net weixin 46291251 article details 126414430 餐厅点餐平台 二 总体设计 https blog csdn
  • 大数据系列——Redis部署及应用

    Redis有四种部署方式 分别为单机模式 主备模式 哨兵模式 集群模式 其中单机模式比较简单 容量 处理能力有限 没有高可用 主备模式和哨兵模式本质和单机模式一样 只是主备模式保证数据高可用 哨兵模式保证数据和服务的高可用 集群模式是将数据
  • 为什么宏定义和函数定义运行结果不一样?

    函数定义 include
  • JUC-16. CAS

    想了解更多JUC的知识 JUC并发编程合集 1 CAS的概述 CAS的全称为Compare And Swap 比较并交换 它是一条CPU并发原语 比较工作内存值 预期值 和主物理内存的共享值是否相同 相同则执行规定操作 否则继续比较直到主内
  • Python中FIR滤波和小波包滤波对比(MNE脑电数据处理)

    小波变换有信号显微镜之称 在EEG分析中也有广泛的应用 印象中小波算法是来源于地球物理解释的 之前有介绍过小波的一些资料和实现 https blog csdn net zhoudapeng01 article details 1070259
  • srand((unsigned int)time(NULL))的理解(C语言)

    在c语言中 碰到这句函数 srand unsigned int time NULL 的理解 目录 1 srand与rand的关系 2 time函数的用法 3 取任意数 1 srand与rand的关系 在C中srand函数经常跟rand函数一
  • 经典/最新计算机视觉论文及代码推荐

    今日推荐几篇最新 经典计算机视觉方向的论文 涉及诸多方面 都是CVPR2022录用的文章 具体内容详见论文原文和代码链接 Convnet新活力 论文题目 A ConvNet for the 2020s 论文链接 https arxiv or