【深度学习常见问题——Attention基础知识梳理】

2023-11-06

这里写目录标题

1. 注意力机制计算
2. d k \sqrt{d_k} dk 的意义
3. Multi-Head作用
4. 位置编码
5. Encoder与Decoder
6. LayerNorm
7. Self-attention与Cross-attention

1. 注意力机制计算

注意力机制的计算公式如下：
A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V Attention(Q,K,V)=softmax(dk QKT)V
其基本流程为：将query和key之间两两计算相似度，依据相似度对各个value进行加权；
在这里插入图片描述
在这里，要求Q与K的单个向量是等长的，对这两个向量计算内积，也就是余弦相似度，如果两个向量正交，则内积为0，也就是不相关；反之，如果相关，则二者内积就会很大。
其中，key与query的计算方式不同，决定了这是什么类型的注意力机制。上述为scaled dot-product机制（有加性注意力和乘性注意力）。

2. d k \sqrt{d_k} dk 的意义

由于相似度计算时，如果计算用的向量维度比较长，则计算的值的绝对大小差距会很大，Softmax之后可能会出现有的值极度趋近1，其余值极度趋近0的情况。这会导致梯度比较小，不利于网络的训练。

3. Multi-Head作用

在这里插入图片描述
主要的动机在于：
1）乘性注意力中，没有可学习的参数；
2）用单头注意力获得一个高维向量(512)，不如用多头注意力获得多个低维向量(64/32等)效果好，有些类似于CNN中的多通道数；
因此多头注意力主要进行了如下操作：
1）利用多组可学习的参数矩阵 W q , W k , W v W^q, W^k, W^v Wq,Wk,Wv，将 Q , K , V Q,K,V Q,K,V映射成低维向量；
2）对多组低维 Q , K , V Q,K,V Q,K,V向量进行注意力计算，得到多组注意力结果；
3）将多组注意力结果concat成高维向量并通过MLP，最后输出；

4. 位置编码

注意力机制本身不支持时序运算，所以将各个元素打乱会得到一样的注意力结果。为了增加时序信息，添加了余弦位置编码：
在这里插入图片描述
利用余弦编码的优势在于：
1）通过正余弦的取值，保证不同位置编码的唯一性
2）将位置向量的大小限制在 [ − 1 , 1 ] [-1,1] [−1,1]之间，有利于网络收敛

5. Encoder与Decoder

在这里插入图片描述

二者的主要区别在于：
1）Encoder中只利用的自注意力和MLP，而Decoder还用到了互注意力模块；
2）Encoder的自注意力是不需要mask的，而Decoder的自注意力需要掩膜进行时序上的推理

6. LayerNorm

在这里插入图片描述

BatchNorm主要是对当前batch里的每个特征（通道）进行归一化操作，而LayerNorm主要是对一个样本本身进行归一化操作。
BN与LN的差异主要在计算均值和方差的时候体现：
1）对于BN：句子本身可能是不等长的，对于特征做归一化，有些位置的特征可能是空缺的，就导致每个batch计算的均值、方差波动比较大，而且如果实际推理时出现一个之前从未出现过的超长向量，可能对应位置没有预先计算好的均值、方差
2.）对于LN：由于是对样本进行的归一化计算，则会避免上述波动大、推理训练无法对齐等问题

7. Self-attention与Cross-attention

在这里插入图片描述
自注意力：key, value, query来源均相同
互注意力：query与key, value来源不同

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)