【Transformer】ViT and TNT（2）

2023-12-18

在这里插入图片描述

文章目录

太…完整了！同济大佬唐宇迪博士终于把【Transformer】入门到精通全套课程分享出来了，最新前沿方向

学习笔记

VIT

在这里插入图片描述

eg，图片分块，10x10x3 的 patch 通过 conv 拉成向量，就无缝对接了

在这里插入图片描述
位置编码可以多种方式，一维序号，二维坐标，无

在这里插入图片描述
位置编码 0 这里的 token，为分类任务设计的，encoder 堆叠后（self-attention），0 位置上的 token 已有了全局信息，最后把 0 位置上的特征向量作为分类特征就行

分类仅用到了 encoder，检测任务中会用到 decoder

CNN 的缺点

在这里插入图片描述

层多，每一层需要设计

在这里插入图片描述
需要的数据比较多，比较难训练

在这里插入图片描述

eg， patch P 为 14*14，C 为 256， D 为 512
Epos 是位置编码
MSA 是 multi-head self-attention
LN 是 layer normalization

在这里插入图片描述

多层共用一个位置编码即可，不用每层都用

仅能反应分类任务的规律，检测可能 2D 位置编码还是更好

在这里插入图片描述

下面跟随数据的维度和代码（我也没有，哈哈）看看整体流程

（1）embedding

输入 [16，3，224，224]

cls token = [16，1，768]

768 超参， hidden size

patch = 16，划分的方式如下。输入通道 3，输出通道 768，kernel size =16, stride = 16 的 conv 把图片分成 patch， [16，768，14，14]

16x14 = 224

拉长一下成向量， [16，768，196] ，transpose 一下成 [16，196，768]

batch 16，每个 batch 196 个 token，每个 token 的特征维度是 768

加上 position embedding，维度为 [16，197，768]

每个 batch 的位置编码一样，所以第一个维度是 1

（2）encoder

LN [16，197，768]

query （fc） [16，197，768]
key （fc） [16，197，768]
value（fc） [16，197，768]

在这里插入图片描述

q，k，v transpose for score [16，197，768]->[16，197，12，64]->[16，12，197，64] ，12 表示共有 12 个 multi-head attention，197 个 token，每个 token 64 维的特征

在这里插入图片描述
q，k 内积 attention score [16，12，197，197] ，197 个 token 间相互的关系

归一化，消除数量的影响

在这里插入图片描述

再接一个 softmax 计算出来权重

权重乘以 v，重构了特征得到 [16，12，197，64] ，还原回去得到 [16，197，768]

再来个 fc 层，和输入来个 res 结构

在这里插入图片描述

[16，197，768]

在这里插入图片描述

继续

在这里插入图片描述
再来个 layer norm + MLP + res

在这里插入图片描述

重复执行 L 次，输出选第 0 个 token 作为预测

接个 fc 得到 logits，eg： [16，197，768]->[16，768]->[16，10] 十分类

在这里插入图片描述

TNT

在这里插入图片描述

conv 是基于每个空间位置进行的，相比于来说 patch 过于大了，可以把patch 进一步细分，

在这里插入图片描述

类似于 focus，eg 16 ∗ 16 ∗ 3 16*16*3 16 ∗ 16 ∗ 3 变成 4 ∗ 4 ∗ 28 4*4*28 4 ∗ 4 ∗ 28

在这里插入图片描述

内部 transformer 得到的结果和外部 transformer 得到的结果相加

在这里插入图片描述

T-SNE 蓝色特征更发散一些（更能分得开）

方差越大，特征越鲜明，越容易区分

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

【Transformer】ViT and TNT（2）的相关文章

【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
用通俗易懂的方式讲解：内容讲解+代码案例，轻松掌握大模型应用框架 LangChain

本文介绍了 LangChain 框架它能够将大型语言模型与其他计算或知识来源相结合从而实现功能更加强大的应用接着对LangChain的关键概念进行了详细说明并基于该框架进行了一些案例尝试旨在帮助读者更轻松地理解 LangChai
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
喜报|华测导航荣获“张江之星”领军型企业称号

近日 2023年度张江之星企业培育名单发布上海华测导航荣获2023年度张江之星领军型企业称号据悉张江之星企业培育是上海科创办为落实关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见张江高新区加快世界领先科技园区
Soul App：年轻人的社交状态，还有多少种可能？

查尔斯狄更斯在双城记的开篇写下这是最好的时代这是最坏的时代这是智慧的时代这是愚蠢的时代这是信仰的时期这是怀疑的时期人们面前有着各样事物人们面前一无所有既然万事万物都和狄更斯所说般好坏参半那又何必执着于过去苦恼于
利用CHAT写实验结论

问CHAT 通过观察放置在玻璃表面上的单个水滴人们可以观察到水滴充当成像系统探究这样一个透镜的放大倍数和分辨率 CHAT回复实验报告标题利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率一实验目的通过对比和测量研究和探索玻
基于java的ssh医院在线挂号系统设计与实现

基于java的ssh医院在线挂号系统设计与实现 I 引言 A 研究背景和动机基于Java的SSH医院在线挂号系统设计与实现的研究背景和动机随着信息技术的迅速发展和应用医院在线挂号系统已成为医院管理的重要组成部分传统的挂号方式存在许多
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
多模态、长文本、智能体，智谱AI推出GLM-4模型全家桶，发布即上线！

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入 2024年01月16日智谱AI首届技术开放日 Zhipu DevDay 在北京中关村国家自主创新示范区展示中心成功举办现场智谱AI团队全面展示了其投身于大模型事业三年多来所
无人机视角、多模态、模型剪枝、国产AI芯片部署

无人机视角多模态模型剪枝国产AI芯片部署是当前无人机技术领域的重要研究方向其原理和应用价值在以下几个方面进行详细讲述一无人机视角无人机视角是指在无人机上搭载摄像头等设备通过航拍图像获取环境信息并进行图像处理和分析这种技术
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
2024 人工智能与大数据专业毕业设计(论文)选题指导

目录前言毕设选题选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
机器学习算法实战案例：BiLSTM实现多变量多步光伏预测

文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
CorelDRAW2024官方中文版重磅发布更新

35年专注于矢量设计始于1988年并不断推陈出新致力为全球设计工作者提供更高效的设计工具 CorelDRAW 滋养并见证了一代设计师的成长在最短的时间内交付作品 CorelDRAW的智能高效会让你一见钟情 CorelDRAW 全称 Co
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据

随机推荐

SCHNNEIDER 140XBP00400 RIO站适配器

SCHNNEIDER 140XBP00400 RIO站适配器 SCHNNEIDER 140XBP00400 RIO站适配器产品详情 Schneider Electric的140XBP00400是一个Remote I O RIO 站适配器
数字化转型数据中台解决方案：PPT全文50页，附下载

关键词数字化转型数据中台解决方案数字化转型对企业的意义数字化转型的核心数据中台技术架构数据中台的作用和意义一数字化转型背景 1 互联网普及和信息技术突破随着互联网的普及和信息技术的突破企业迫切需要适应数字化时代的变革数
Android：想不被挤下去，只能跑的更快

前言近期我们总能听到身边程序员朋友离职的消息无论是工作2 3年的初级程序员还是工作5 6年的高级程序员互联网寒冬的到来使得大批互联网公司倒闭或裁员节流人才需求大幅降低市场迅速达到饱和在这个环境下培训出来的新手往往达不到市
A Survey of Text Watermarking in the Era of Large Language Models

本文是LLM系列文章针对 A Survey of Text Watermarking in the Era of Large Language Models 的翻译大语言模型时代的文本水印综述摘要 1 引言 2 文本水印的前言 3 当
网络安全非常热门，推荐这些网络安全入门级别的书籍

当今网络世界中的安全问题十分严峻网络安全是非常热门的领域之一以下是我为您推荐的网络安全入门级别的书籍 Web安全深度剖析本书由美国网络安全公司IOActive的研究员Peleus Uhley和Wendy Edwards撰写适合初学者
综合工具集锦（批量数据修改JSON数据，批量修改文件名，文本数字增加，批量修改传奇TXT爆率，BMP转PNG去黑底，取得神途怪物表数据，查找TXT文本内容关键字），传奇转换工具集锦

MirTools综合工具集锦批量数据修改JSON数据批量修改文件名文本数字增加批量修改传奇TXT爆率 BMP转PNG去黑底取得神途怪物表数据查找TXT文本内容关键字传奇转换工具集锦 1 打开软件主体界面如下 2 批量数据修改
数据安全传输基础设施平台（一）

1引言 1 1项目简介数据安全传输基础设置平台项目简称数据传输平台是一款基础设施类项目为集团企业信息系统的提供统一标准的信息安全服务解决企业和企业之间集团内部信息数据的传输安全消息安全身份鉴别和认证成功解决了传统的安
程序员怎样为自己工作？每天做的事终身受益。避免产品做完只拿工资走人，绑定客户绑定粉丝。

工作即是创业是所有人为你打工打工什么是自己的首先是跟随你的人才你的小兄弟们带着他们一起发财把你身边的所有人所有的资源调动起来都为你项目服务不管是你的老板你的客户还是你竞争对手客户大家都是同一个目标赚钱人设跟着我有
【Swiss-Model 同源建模】

Swiss Model是一种同源建模方法其基本原理是利用序列的同源性来推断蛋白质的三维结构具体来说就是通过找到与目标蛋白质序列同源且结构已知的模板蛋白质来预测目标蛋白质的结构同源建模的主要步骤包括模板的确定通过搜索数据库找到
计算机毕设ssm医疗健康项目小程序11on99【附源码】

项目运行环境配置 Jdk1 8 Tomcat7 0 Mysql HBuilderX Webstorm也行 Eclispe IntelliJ IDEA Eclispe MyEclispe Sts都支持项目技术 vue mybatis Ma
【Transformer】Transformer and BERT（1）

文章目录 Transformer BERT 太完整了同济大佬唐宇迪博士终于把 Transformer 入门到精通全套课程分享出来了最新前沿方向学习笔记 Transformer 无法并行层数比较少词向量生成之后不会变没有结合语
ASSY 12149 PLC自动化控制模块

ASSY 12149 PLC自动化控制模块 ASSY 12149 PLC自动化控制模块产品详情 ASSY 12149 PLC 可编程逻辑控制器自动化控制模块在工业自动化领域中有广泛的应用这些模块设计用于监测控制和自动化各种工业过程和
Matplotlib快速入门，Python通用的绘图工具库上手

Matplotlib是一个用于Python编程语言的综合性绘图库它可以生成各种类型的图表包括折线图条形图散点图直方图饼图等 Matplotlib支持多种数据格式包括NumPy数组 Pandas DataFrame和CSV文件
Windows7系统prevhost.exe文件丢失问题

其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题如果是新手第一时间会认为是软件或游戏出错了其实并不是这样其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库这时你可以下载这个prevhos
多线程编程与性能优化

引言在上一篇的入门篇中我们对Android线程的基础概念和多线程编程模型有了初步了解本篇将深入探讨多线程编程技术和性能优化策略以提升应用的效率和响应性高级多线程编程技术使用线程池管理线程线程池是一组预先创建的线程用于执行任务
Windows7系统print.exe文件丢失问题

其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题如果是新手第一时间会认为是软件或游戏出错了其实并不是这样其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库这时你可以下载这个print e
用Python完成下列问题。给你一个非空整数列表，除了某个元素只出现一次以外，其余每个元素均出现两次。找出那个只出现了一次的元素。

用Python完成下列问题给你一个非空整数列表除了某个元素只出现一次以外其余每个元素均出现两次找出那个只出现了一次的元素示例 1 输入 nums 2 2 1 输出 1 示例 2 输入 nums 4 1 2 1 2 输出 4 示例
进阶之Kotin协程原理和启动方式详细讲解(优雅使用协程)

协程就是方法调用封装成类线程的API 方法调用当然比线程切换轻量而封装成类线程的API后它形似线程可手动启动有各种运行状态能够协作工作能够并发执行前言 kotlin的协程在初学者看来是一个很神奇的东西居然能做到用同步的代码块
Flutter ShapeBorder 使用总结

Flutter ShapeBorder 使用总结简介 ShapeBorder 用于设置形状和轮廓比如圆形矩形圆角矩形等常用于 Container 中继承结构如下 ShapeBorder abstract BeveledRecta
【Transformer】ViT and TNT（2）

文章目录 VIT TNT 太完整了同济大佬唐宇迪博士终于把 Transformer 入门到精通全套课程分享出来了最新前沿方向学习笔记 VIT eg 图片分块 10x10x3 的 patch 通过 conv 拉成向量就无缝对接了位

【Transformer】ViT and TNT（2）

文章目录

VIT

TNT

【Transformer】ViT and TNT（2） 的相关文章

随机推荐

热门标签

【Transformer】ViT and TNT（2）的相关文章