原视频链接:
https://www.bilibili.com/video/BV1Jh411Y7WQ/?spm_id_from=333.788&vd_source=f04f16dd6fd058b8328c67a3e064abd5
https://www.bilibili.com/video/BV1264y1i7R1/?spm_id_from=333.999.0.0&vd_source=f04f16dd6fd058b8328c67a3e064abd5
*此处query是一个值
K()是衡量x与xi之间距离的函数
怎么说呢,可能有点像k近邻
引入可学习的w
此处query是一个向量
x和xi变成了q和ki
key和value可以是任意长度,可以长得不一样
key和value长度一样,直接进行一个内积
对长度没那么敏感
结果:对每个key(n个)都能得到一个长度为1的向量,得到n*1矩阵
key和value是在编码中对每一个编码rnn的输出
Embedding层
Linear Projection of Flattened Patches(嵌入层)
默认使用1d的embedding↓
每一个位置的位置编码与其他位置上的位置编码求一个余弦相似度↓
Encoder
作用:将图片格式[H, W, C]转化为Transformer输入格式[num_token, token_dim]。
Transformer Encoder 就是把encoder堆叠L次
Encoder Block↓
MLPhead 层
最终用于分类的层结构
一些参数
hybrid混合模型
用传统卷积网络提取特征,最后用vit模型获得最后的结果