【Backbone: MLP-Mixer】MLP-Mixer: An all-MLP Architecture for Vision

2023-11-10

Abstract

CNN和attention-based结构很棒，但不是必须的。
本文提出MLP-Mixer，一种基于多层感知机（MLPs）的框架。包含两种layers：（1）channel-mixing MLPs：应用在image patches上，融合某个位置多个通道的特征；（2）token-mixing MLPs：应用在across patches上，融合某个通道多个位置的信息。
效果不错的条件：在大型数据集上训练；或用modern regularization schemes

Introduction

随着计算能力的提升，和更大数据集的出现，通常伴随着CV范式的改变，例如：CNN->ViT。ViT延续了长期的变化趋势：（1）去除去除人工设计的视觉特征和归纳偏置；（2）仅依靠初始数据。
本文提出MLP-Mixer框架，它仅需要（1）矩阵乘法；（2）数据布局（reshape和转置）；（3）放缩和非线性变化。
Mixer的输入是一组经过线性映射的图片快（tokens），输入格式为：patches x channels。Mixer使用两种MLP layers：（1）channel-mixing MLPs和token-mixing MLPs，具体结构如下：

从CNN的角度看：channel mixing MLPs是1x1卷积；token mixing MLPs是单通道、全感受野、共享权重的卷积；CNN需要额外的pooling或特殊设计用于减少计算量，Mixer则相对比较简单。
尽管它和简单，Mixer在大型数据集（~100M图片）上训练取得了sota成绩（在ILSVRC2012 "ImageNet"取得了87.94%）。在一定规模（~1-10M图片）下和modern regularization techniques（[47, 52]），Mixer仍然取得了不错的成绩。

Mixer Architecture

神经网络通常（1）在给定的空间位置；（2）在不同空间位置间，进行特征融合。CNN用N x N（N > 1）的卷积和pooling实现了（2）。深层神经元通常具有更大的感受野。同时，1x1卷积执行了（1），更大的核会同时执行（1-2），在attention-based框架中，self-attention执行（1-2），而MLP-blocks仅执行（1）。Mixer是将（1）和（2）分别执行。
输入是S个不重复的图片块，每一个图片块被共享的线性映射到需要的维度C，input table是(S, C)。Mixer有多个layer，每个layer包含两个MLP blocks，分别是token-mixing MLP block和channel-mixing MLP block，并且每个layer的size是固定的。
toking-mixing mlp block的维度选择和输入图片块的数量无关，因此计算复杂度和数量线性相关。channel-mixing MLP block的维度是和patch size无关的，所以复杂度和图片的像素点数量线性相关。
绑定channel-mixing mlps的参数是个自然选择，因为可以做到位置无关（卷积的显著特征）。
Mixer的每个layer的输入具有相同尺寸，这与特征金字塔设计不同。
不需要positon embeddings，因为token-mixing MLPs对输入tokens的顺序是敏感的，因此可能学到位置表达。

Experiments

在中等、大型数据集上pre-trained，在小型和中型下游分类任务上测试。本文关注：（1）下游任务的准确率；（2）pre-training的计算复杂度；（3）推理时间。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Transformer

【Backbone: MLP-Mixer】MLP-Mixer: An all-MLP Architecture for Vision 的相关文章

transformer模型学习路线

Transformer学习路线完全不懂transformer 最近小白来入门一下下面就是本菜鸟学习路线 Transformer和CNN是两个分支因此要分开学习 Transformer是一个Seq2seq模型而Seq2seq模型用到了
【学习笔记】多模态综述

多模态综述前言 1 CLIP ViLT 2 ALBEF 3 VLMO 4 BLIP 5 CoCa 6 BeiTv3 总结参考链接前言本篇学习笔记虽然是多模态综述本质上是对ViLT后多模态模型的总结时间线为2021年至2022年
【论文阅读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

论文阅读 BERT Pre training of Deep Bidirectional Transformers for Language Understanding 前言 BERT 是 Google 于 2018 年提出的 NLP 预训
【论文精度】Transformer--Attention Is All You Need

沐神论文精度 https www bilibili com video BV1pu411o7BE spm id from pageDriver Paper https arxiv org pdf 1706 03762 pdf Transfo
阿里天池—2022江苏气象预测AI算法挑战赛

文章目录摘要一数据分析二 MAE简介三 Transformer简介四模型搭建还未写摘要 This is a meteorological forecasting competition being held by Ali
大模型：如何利用旧的tokenizer训练出一个新的来？

背景我们在用chatGPT或者SD的时候发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多为什么呢这其中就有一个叫做tokenizer的东西在作怪训练一个合适的tokenizer是训练大模型的基础我们既可以从头开
深度网络架构的设计技巧(三)之ConvNeXt：打破Transformer垄断的纯CNN架构

单位 FAIR DenseNet共同一作曾获CVPR2017 best paper UC伯克利 ArXiv https arxiv org abs 2201 03545 Github https github com facebookre
【AI视野·今日CV 计算机视觉论文速览第215期】Tue, 8 Jun 2021

AI视野今日CS CV 计算机视觉论文速览 Tue 8 Jun 2021 showing first 100 of 133 entries Totally 100 papers 上期速览更多精彩请移步主页 Daily Computer
【Transformer学习笔记】VIT解析

很久以前科学家做过一个生物实验发现视觉神经元同样可以被训练来作听觉神经元之用受此启发不少计算机研究者也在寻找着机器学习领域的大一统将CV任务和NLP任务使用相同或者类似的结构进行建模随着transformer在nlp领域已经杀出了
CVPR-2022- MixFormer: End-to-End Tracking with Iterative Mixed Attention 阅读笔记

目录端到端的MixFormer跟踪整体框架 Mixed attention module MAM 基于角的定位头基于查询的定位头分数预测模块 SPM 论文地址 https arxiv org abs 2203 11082 代码地址 h
ViT（vision transformer）原理快速入门

本专题需要具备的基础了解深度学习分类网络原理了解2017年的transformer Transformer 技术里程碑 ViT简介时间 2020年CVPR 论文全称 An Image is Worth 16 16 Words Tran
基于Pytorch版本的T2T-ViT+ArcFace的人脸识别训练及效果

目录一前言二训练准备 1 T2T ViT的Pytorch版本 2 人脸识别数据和代码架构 3 完整训练代码三训练和结果 1 训练 2 结果一前言最近将transformer在CV领域中新出现的T2T ViT模型修改再加
Transformer 综述 & Transformers in Vision: A Survey

声明因本人课题只涉及图像分类和目标检测且此综述对这两个领域调查的比较多所以此文章只对图像分类和目标检测进行精读若是对中的论文感兴趣到原论文中查阅参考文献即可下图是综述内容涉及的计算机视觉十大领域图像识别目标检测语义和实例
单目标追踪——【Transformer】MixFormer: End-to-End Tracking with Iterative Mixed Attention

目录文章侧重点网络结构 MAM Mixed Attention Module MixFormer 论文代码文章侧重点本文的出发点是认为现有的多阶段Siamese追踪框架特征提取特征融合边界框预测的前两步特征提取特征融合
BMVC 2022 (东京大学)仅需90K参数！实时完成低光增强, 曝光矫正的超轻量级Transformer网络IAT，已开源

本文由 52CV 粉丝投稿作者信息门下奶狗知乎地址 https zhuanlan zhihu com p 535695807 我们提出Illumination Adaptive Transformer IAT 网络用来探索实时的暗光
超越BEV视角 | 新型紧凑占用Transformer助力自动驾驶3D占用预测

作者小书童编辑集智书童点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心占用栅格技术交流群本文只做学术分享如有侵权联系删文自动驾驶社区对3D占用预测表现出显著兴趣这主要得益于
一文图解 Transformer，小白也看得懂（完整版）

原作者 Jay Alammar 原链接 https jalammar github io illustrated transformer 1 导语谷歌推出的 BERT 模型在11项NLP任务中夺得SOTA结果引爆了整个NLP界而BER
【论文阅读笔记】BTS-ST: Swin transformer network for segmentation and classification of multimodality breast

Iqbal A Sharif M BTS ST Swin transformer network for segmentation and classification of multimodality breast cancer imag
基于改进RoI Transformer的遥感图像多尺度旋转目标检测

源自应用光学作者刘敏豪王堃金睿蛟卢天李璋人工智能技术与咨询发布摘要旋转目标检测是遥感图像处理领域中的重要任务其存在的目标尺度变化大和目标方向任意等问题给自动目标检测带来了挑战针对上述问题提出了一种改进的RoI
用通俗易懂的方式讲解：图解 Transformer 架构

文章目录用通俗易懂方式讲解系列 1 导语 2 正文开始现在我们开始编码从宏观视角看自注意力机制从微观视角看自注意力机制通过矩阵运算实现自注意力机制

随机推荐

Docker第二篇-Linux和Windows下安装Docker

文章目录 Docker版本说明 CentOS安装Docker 前提条件安装镜像加速删除Docker CE Windows安装Docker 前提条件安装镜像加速 Docker版本说明 Docker 分为 CE 和 EE 两大版本 C
树莓派烧录

准备工作树莓派一张SD卡 SD尽可能的大不然安装完系统就没什么空间了建议64G 软件准备 1 洗卡软件 SDcard Formatter 2 烧录软件 win32diskimager 3 镜像文件可以从树莓派官网进行下载Rasp
MySQL数据行溢出的深入理解

一从常见的报错说起故事的开头我们先来看一个常见的sql报错信息相信对于这类报错大家一定遇到过很多次了特别对于OMG这种已内容生产为主要工作核心的BG 在内容线的存储中数据大一定是个绕不开的话题这里的数据大远不止存储空间占用多
jenkins搭建自动化部署(Windows)

官网 https jenkins io 选择相应版本下载安装后找到安装目录下jenkins war 可以放在tomcat下运行也可直接运行命令 java jar jenkins war 启动关闭命令 net start jenkins
mysql 5.6压缩安装_mysql5.6zip格式安装过程

第一步到官网下载mysql 5 6 44 winx64的压缩包文件格式第二步在我的电脑 gt 属性 gt 高级 gt 环境变量 path变量中添加mysql bin文件夹的路径第三步配置完环境变量之后先别忙着启动mysql 我们还
08-分布式

1 分布式中接口的幂等性的设计在高并发场景的架构里幂等性是必须得保证的比如说提交作业查询和删除不在幂等讨论范围 1 建唯一索引id 每次操作都根据操作和内容生成唯一的id 在执行之前先判断id是否存在如果不存在则执行后续
rem的使用方式

rem是什么 rem是指相对于根元素的字体大小的单位在日常开发过程中我们通常把根元素 html body 的字体设置为10px 方便于我们计算此时子元素的1rem就相当于10px rem与em的区别各自的优缺点 em子元素字体大小的e
CVPR 2019 论文大盘点—人体姿态篇

CV君盘点了CVPR 2019 中有关人体姿态的论文其中研究 3D人体姿态估计的论文最多有 11 篇研究 2D 姿态估计的 7 篇姿态迁移 2 篇人体图像生成 1 篇人体捕捉 2 篇另外还有2篇创建了新的基准数据集姿态估计是
python云图

安装相关插件 python3 m pip install jieba wordcloud matplotlib import matplotlib pyplot as plt import jieba from wordcloud impo
【Spring Boot】【前后端分离】后端接口返回结果统一封装

文章目录创建 SpringBoot 项目封装返回结果实现返回对象的自动封装处理异常测试最近在尝试使用前后端分离的模式写一个简单的个人博客遇到接口数据返回结构的问题在网上查了一圈发现了一个很好用的方法在复现的过程中也遇到了
算法设计与分析课后总结

算法设计与分析课后总结算法设计与分析第1章算法设计基础课后习题第二章算法分析基础课后习题 1 考虑下面算法回答下列问题算法完成什么功能算法的基本语句时什么基本语句执行了多少次 2 分析以下程序段中基本语句的执行次数要求
100天精通Python（可视化篇）——第92天：Pyecharts绘制炫酷柱状图、条形图实战大全

文章目录专栏导读 1 基础柱状图 2 旋转x轴标签 3 旋转坐标轴 4 添加坐标轴名称 5 添加标记点 6 添加标注线 7 添加数据 8 添加自定义背景图 9 堆叠柱状图 10 柱状图与折线图组合 11 三维柱状图 12 水平滑动鼠标滚
包、模块、函数的关系结构

三者关系 python中程序的结构是由包模块函数类大致构成其关系如下 package module function 模块定义与调用 1 python中一个 py文件都可以是一个module module可以有函数类代码组成如
使用python解决中英混合参考文献中et al 和等的问题

这个代码使用zipfile将docx进行解压然后操作document xml文件找到中文中的et al之后替换为等然后再压缩为docx import zipfile import re import os import shutil
curl服务器文件,curl 向远程服务器传输file文件

public function upload 获取上传文件信息文件名称以自己实际上传文件名称为准 fileinfo FILE filename 请求参数依据商户自己的参数为准 requestParam version requestPa
声网(agora)音视频通话sdk—微信小程序demo

首先需要注册一个声网账号注册成功后创建项目 appid是指声网项目的appid 后续会在小程序的配置文件中用到微信小程序接入视频通话需要声网给开通小程序的权限给声网邮箱发送邮件注明开通微信小程序接入权限并给发送appid app
Python代码扫描：企业级代码代码安全漏洞扫描Bandit

目录什么是Bandit 特点安装配置配置Bandit Pycharm配置外置工具使用实践命令行参数检查单个文件检查整个目录 PyCharm中对单个文件或者项目目录的扫描一个使用案例应用场景总结参考资料注意后续技术
js DOM

DOM Document Object Model HTML 和 XML 文档的编程接口通过 DOM JavaScript 能够访问和改变 HTML 文档的所有元素 1 查找通过 id 查找 HTML 元素 div div 2 通过标签
Paper and Codes Leaderboard

目录介绍模型入选标准 1 目标检测 Paper and Codes for COCO by 2023 3 31 COCO FPS Models by 2023 02 18 Look at Batch Size 2 图像分类 ImageN
【Backbone: MLP-Mixer】MLP-Mixer: An all-MLP Architecture for Vision

Abstract CNN和attention based结构很棒但不是必须的本文提出MLP Mixer 一种基于多层感知机 MLPs 的框架包含两种layers 1 channel mixing MLPs 应用在image patch

【Backbone: MLP-Mixer】MLP-Mixer: An all-MLP Architecture for Vision

Abstract

Introduction

Mixer Architecture

Experiments

【Backbone: MLP-Mixer】MLP-Mixer: An all-MLP Architecture for Vision 的相关文章

随机推荐

热门标签