Reformer RoPE,旋转位置编码，关于Transformer当中的位置编码的优化考察

2023-11-11

1. 工作简介
这篇文章是苏剑林的一篇关于Transformer当中的位置编码的优化考察。

众所周知，transformer的attention机制本身是不带有位置信息的，因此对于文本序列，attention机制本身就会丢失掉原文当中的序列信息，造成信息缺失，影响到模型的效果表达，这个应该已经算是面试中常见的八股文问题了。

但是，对于位置编码的具体实现，大概会去考虑这个问题的人就大幅减少了。而苏剑林这里就是对这部分内容进行了详细的考察和优化尝试，这点真心还是很佩服他的。

2. 常见位置编码方式
首先，我们来考察一下现有的一些位置编码的方法。

这部分的内容我们主要参考苏剑林的博客《让研究人员绞尽脑汁的Transformer位置编码》进行一些自己的整理。

1. 绝对位置编码
1. Bert
绝对位置编码的一个典型的例子就是Bert模型。

他的思路非常的简单粗暴，既然attention层本身无法识别位置信息，那么我就在输入当中显式地多加一个序列位置信号，然后让模型自己去学习这个序列位置信号的分布。

具体来说，就是讲原本的输入xi 变成了，其中，表示的就是第i个位置的绝对位置编码。

这种编码方式的好处在于说简单直接，而且模型直接参数拟合的方式也不会产生人为的信号偏差，但是缺点在于说推理阶段只能使用训练中预先定义好的位置编码，比如bert，最大输入句长就是512，超过了512模型就失去了编码能力。

此外，位置编码的训练充分度也会是一个需要考虑的问题。

2. Attention Is All You Need
绝对位置编码的另一个典型例子就是vanilla transformer。

不过，不同于Bert那样直接交给模型去训练position embedding，经典Transformer的位置Embedding的定义是直接通过三角函数的方式进行预先定义好的。

他的出发点在于说参考了三角函数的性质：

=cosα⋅cosβ−sinα⋅sinβ
=sinα⋅cosβ−cosα⋅sinβ

这个性质刚好可以用于描述两个位置之间的相对距离关系。

因此，文中先验地给出一个人工预设的位置编码如下：

其中，表示第个位置，，表示position embedding当中某一个具体维度上的值。

可以看到，这样的情况下位置表征就是先验确定的了，我们无需交由模型进行额外地拟合，而且长度使用上也更加自由，基本没有长度限制，但是代价就是给模型增加了人工的先验限制，学习到的embedding特征不但要满足token本身的信息表征，还要满足三角函数形式的数据分布表达，收缩了解空间的表达域。

2. 相对位置编码
在考察相对位置编码之前，我们首先来看一下位置编码到底做的是一个什么样的事。

它本质上就是在原本的词向量上面额外地加上一个用于标定位置信息的位置向量，从而使得attention层的输入带有位置信息。

我们将attention层的运算进行具体的展开如下：

我们将位置向量p 写入之后可以得到:

因此，事实上位置向量的加入本质上也可以通过加入偏置矩阵的方式直接作用到Attention矩阵A 以及V上面。

1. 经典相对位置编码
相对位置编码的思路来自于文献Self-Attention with Relative Position Representations。

如前所述，位置编码的核心就是给每一个位置添加一个具体的position embedding从而令attention层的输入可以识别出其具体的位置，但是由于句长的无限性所以限制了绝对位置编码的使用方法。

而相对位置编码的核心思路就是说通过一个滑动窗口，换句话来说，就是对于每一个位置i , j i,ji,j，如果它们的相对距离相同，那么他们共享同一个position向量。

而对于句长特别长的输入，如果两个位置i , j i,ji,j的距离特别大，那么我们就对其做一个截断，从而规避掉句长带来的限制。

而关于这部分内容的具体实现，文中首先去除了Query当中包含的位置信息，从而将Attention矩阵和输出Output变成了如下的形式：

然后，文中将两个位置相关的矩阵直接替换成了两个相对位置的偏移矩阵，具体而言：

{ A = s o f t m a x ( Q ⋅ ( K + R K ) T d ) O = A ⋅ ( V + R V ) \left\{ \begin{aligned} A &= softmax(\frac{Q \cdot (K + R_K)^T}{\sqrt{d}}) \\ O &= A \cdot (V + R_V) \end{aligned} \right.
⎩
⎪
⎨
⎪
⎧

A
O

=softmax(
d

Q⋅(K+R
K

)
T

)
=A⋅(V+R
V

)

其中，R i , j R_{i,j}R
i,j

表示第j jj个位置相对于第i ii个位置的位置偏移向量，具体而言：

R i , j = P [ c l i p ( i − j , p m i n , p m a x ) ] R_{i, j} = P[clip(i-j, p_{min}, p_{max})]
R
i,j

=P[clip(i−j,p
min

,p
max

)]

因此，R是一个三维矩阵，即R K , R V ∈ R n × n × d R_K, R_V \in \mathbb{R}^{n \times n \times d}R
K

,R
V

∈R
n×n×d
。

故在计算中会略带一点特殊，具体而言可以表达如下：

Attn = tf.math.softmax(
(tf.einsum("bik,bjk->bij", Q, K) + tf.einsum("bik,ijk->bij", Q, R))/tf.math.sqrt(d)
)
O = tf.einsum("bij,bjk->bik", Attn, V) + tf.einsum("bij,ijk->bik", Attn, R)
1
2
3
4
2. XLNet
XLNet较之经典的相对位置编码进一步移除了V上面的位置信息，所有的位置信息全部都只发生在attention矩阵上面。

因此，我们这里只需要考察attention矩阵在这里的具体形式。

如前所述，Attention权重矩阵事实上就是Query（Q QQ）和Key（K KK）的内积，调整权重之后求一个softmax，因此，我们只需要看Q QQ和K KK的内积部分即可。

事实上，在后续的各种相对位置编码当中，似乎都已经只在Attention矩阵当中加入位置信息来影响权重分布，而不会对value加入权重信息。

言归正传，XLNet的位置编码加入的方式具体如下：

Q ⋅ K T = x W Q ⋅ W K T x T + x W Q ⋅ R T + u W Q ⋅ W K T x T + v W Q ⋅ R T Q \cdot K^T = xW_Q \cdot W_K^T x^T + xW_Q \cdot R^T + uW_Q \cdot W_K^T x^T + vW_Q \cdot R^T
Q⋅K
T
=xW
Q

⋅W
K
T

x
T
+xW
Q

⋅R
T
+uW
Q

⋅W
K
T

x
T
+vW
Q

⋅R
T

其中，R RR的定义和经典相对位置编码中的定义相同，而u , v u,vu,v则是两个可训练的向量。

换成伪代码即：

Attn = tf.math.softmax(
(
tf.einsum("bik,bjk->bij", Q, K) \
+ tf.einsum("bik,ijk->bij", Q, R) \
+ tf.einsum("bik,bjk->bij", tf.matmul(u, W_Q), K) \
+ tf.einsum("bik,ijk->bij", tf.matmul(v, W_Q), R)
)/tf.math.sqrt(d)
)
O = tf.einsum("bij,bjk->bik", Attn, V)
1
2
3
4
5
6
7
8
9
3. T5
T5的位置信息编码则更加暴力一些，都不是使用相对位置的偏置向量，而是直接给出一个偏置矩阵，然后对这个矩阵进行训练。

具体而言：

Q ⋅ K T = x W Q ⋅ W K T x T + B Q \cdot K^T = xW_Q \cdot W_K^T x^T + B
Q⋅K
T
=xW
Q

⋅W
K
T

x
T
+B

其中，B ∈ R n × n B \in \mathbb{R}^{n \times n}B∈R
n×n
就是一个权重矩阵。

Attn = tf.math.softmax(
(tf.einsum("bik,bjk->bij", Q, K) + B)/tf.math.sqrt(d)
)
O = tf.einsum("bij,bjk->bik", Attn, V)
1
2
3
4
4. DeBerta
DeBerta矩阵的定义与T5相反，T5是去除了位置与token的交叉项，只保留相对位置产生的偏移矩阵，而DeBerta与之相反，它去除掉了相对位置产生的偏置矩阵，但是留下了两个位置与token之间的交叉项，并将之用相对位置矩阵的方式进行保留。

具体而言：

Q ⋅ K T = x W Q ⋅ W K T x T + x W Q ⋅ W K T R T + R W Q ⋅ W K T x T Q \cdot K^T = xW_Q \cdot W_K^T x^T + xW_Q \cdot W_K^T R^T + R W_Q \cdot W_K^T x^T
Q⋅K
T
=xW
Q

⋅W
K
T

x
T
+xW
Q

⋅W
K
T

R
T
+RW
Q

⋅W
K
T

x
T

用伪代码表述就是：

Attn = tf.math.softmax(
(
tf.einsum("bik,bjk->bij", tf.matmul(x, W_Q), tf.matmul(x, W_K)) \
+ tf.einsum("bik,ijk->bij", tf.einsum("bil,lk->bik", x, W_Q), tf.einsum("kl,ijk->ijl", W_K, R)) \
+ tf.einsum("ijk,bjk->bij", tf.einsum("ijk,kl->ijl", R, W_Q), tf.einsum("bil,lk->bik", x, W_K))
)/tf.math.sqrt(d)
)
O = tf.einsum("bij,bjk->bik", Attn, V)
1
2
3
4
5
6
7
8
3. RoPE方法介绍
RoPE（Rotary Position Embedding）位置编码是Rofermer这篇文献的核心贡献点。

他的核心想法就是，借用苏剑林自己的话说：

通过绝对位置编码的方式实现相对位置编码。

如前，我们已经注意到了，相对位置编码在实现上是直接作用于attention权重矩阵的，这样的实现方式使得类似Linformer这种直接先对Attention矩阵中间结果进行投影的方式无法实现（关于Linformer相关的内容也可以参考我的博客文献阅读：Linformer: Self-Attention with Linear Complexity）。

因此，苏剑林基于复数相乘的特性设计了如下的位置编码函数：

{ f q ( x m , m ) = ( W Q x m ) ⋅ e i m θ f k ( x n , n ) = ( W K x n ) ⋅ e i n θ g ( x m , x n , m , n ) = R e [ ( W Q x m ) ( W K x n ) e i ( m − n ) θ ] \left\{ \begin{aligned} f_q(x_m, m) &= (W_Q x_m) \cdot e^{im\theta} \\ f_k(x_n, n) &= (W_K x_n) \cdot e^{in\theta} \\ g(x_m, x_n, m, n) &= Re[(W_Q x_m) (W_K x_n) e^{i(m-n) \theta}] \end{aligned} \right.
⎩
⎪
⎪
⎨
⎪
⎪
⎧

f
q

(x
m

,m)
f
k

(x
n

,n)
g(x
m

,x
n

,m,n)

=(W
Q

x
m

)⋅e
imθ

=(W
K

x
n

)⋅e
inθ

=Re[(W
Q

x
m

)(W
K

x
n

)e
i(m−n)θ
]

对于二维情况，我们可以给出一组可行解：

f ( q , m ) = ( c o s m θ − s i n m θ s i n m θ c o s m θ ) ( q 0 q 1 ) f(q, m) = \begin{pmatrix} cos m\theta & -sin m\theta \\ sin m\theta & cos m\theta \end{pmatrix} \begin{pmatrix} q_0 \\ q_1 \end{pmatrix}
f(q,m)=(
cosmθ
sinmθ

−sinmθ
cosmθ

)(
q
0

q
1

)

我们很快可以仿照上述方式给出一组高维情况下的可行解：

此时，由R矩阵的稀疏性，我们可以直接用下述变换来进行替换：

f ( q , m ) = ( c o s m θ 0 c o s m θ 0 c o s m θ d / 2 − 1 c o s m θ d / 2 − 1 ) ⊗ ( q 0 q 1 . . . q d − 2 q d − 1 ) + ( s i n m θ 0 s i n m θ 0 s i n m θ d / 2 − 1 s i n m θ d / 2 − 1 ) ⊗ ( − q 1 q 0 . . . − q d − 1 q d − 2 ) f(q, m) = \begin{pmatrix} cos\ m\theta_0 \\ cos\ m\theta_0 \\ cos\ m\theta_{d/2-1} \\ cos\ m\theta_{d/2-1} \end{pmatrix} \otimes \begin{pmatrix} q_0 \\ q_1 \\ ... \\ q_{d-2} \\ q_{d-1} \end{pmatrix} + \begin{pmatrix} sin\ m\theta_0 \\ sin\ m\theta_0 \\ sin\ m\theta_{d/2-1} \\ sin\ m\theta_{d/2-1} \end{pmatrix} \otimes \begin{pmatrix} -q_1 \\ q_0 \\ ... \\ -q_{d-1} \\ q_{d-2} \end{pmatrix}
f(q,m)=
⎝
⎜
⎜
⎛


cos mθ
0

cos mθ
0

cos mθ
d/2−1

cos mθ
d/2−1


⎠
⎟
⎟
⎞

⊗
⎝
⎜
⎜
⎜
⎜
⎛


q
0

q
1

...
q
d−2

q
d−1


⎠
⎟
⎟
⎟
⎟
⎞

+
⎝
⎜
⎜
⎛


sin mθ
0

sin mθ
0

sin mθ
d/2−1

sin mθ
d/2−1


⎠
⎟
⎟
⎞

⊗
⎝
⎜
⎜
⎜
⎜
⎛


−q
1

q
0

...
−q
d−1

q
d−2


⎠
⎟
⎟
⎟
⎟
⎞

而关于其具体实现，我们摘录苏剑林在他们自己在GitHub上面的伪代码实现如下：

sinusoidal_pos.shape = [1, seq_len, hidden_size] # Sinusoidal position embeddings
qw.shape = [batch_size, seq_len, num_heads, hidden_size] # query hiddens
kw.shape = [batch_size, seq_len, num_heads, hidden_size] # key hiddens

cos_pos = repeat_elements(sinusoidal_pos[..., None, 1::2], rep=2, axis=-1)
sin_pos = repeat_elements(sinusoidal_pos[..., None, ::2], rep=2, axis=-1)
qw2 = stack([-qw[..., 1::2], qw[..., ::2]], 4)
qw2 = reshape(qw2, shape(qw))
qw = qw * cos_pos + qw2 * sin_pos
kw2 = K.stack([-kw[..., 1::2], kw[..., ::2]], 4)
kw2 = K.reshape(kw2, K.shape(kw))
kw = kw * cos_pos + kw2 * sin_pos

# Attention
a = tf.einsum('bjhd,bkhd->bhjk', qw, kw)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
4. 实验效果考察
1. 翻译任务上的表现
RoPE编码方式最直接的一个检验方法就是直接在翻译任务上测试一下，文中也是这么干的，直接在transformer当中将位置编码进行了一下替换，得到结果如下：

可以看到：

RoPE位置编码是可以正常work的。
2. 预训练任务上的表现
然后，文中考察了一下RoPE在预训练任务当中的效果，得到结果如下：

可以看到：

RoPE编码在预训练任务当中也是有效的。
3. GLUE下游Finetune效果
然后，文中还考察了一下与训练得到的模型在GLUE任务当中finetune的效果，得到结果如下：

可以看到：

在STS-B，QQP以及MRPC任务上Roformer效果优于BERT，而在剩余的三个任务当中效果不及BERT。
因此可以认为RoPE编码的效果和经典的方法各有优劣吧。

4. 中文任务中效果表达
最后，文中还在中文语料上面进行了预训练以及下游finetune任务的效果考察，得到的结果和前面基本一致。

5. 总结 & 思考
结论而言，RoPE编码较之传统的几种位置编码方式其实效果上可能难分伯仲，但是其优点在于说既不受句长的限制，又可以被应用于Linformer，这点较之于他的前辈们还是有很大的优势的。

因此，如果是选择长文本处理任务的位置编码，可能RoPE会是一个更好的选择方案。

6. 参考链接
https://kexue.fm/archives/8265
https://kexue.fm/archives/8130

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Reformer RoPE,旋转位置编码，关于Transformer当中的位置编码的优化考察的相关文章

【信道估计】【MIMO】【FBMC】未来移动通信的滤波器组多载波调制方案（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
用CHAT写一份标题为职业教育教师教学能力提升培训总结

CHAT回复标题职业教育教师教学能力提升培训总结一活动概述本次由学校组织的职业教育教师教学能力提升培训于8月15日至8月20日顺利进行来自全校的60位职业教育教师参与了此次培训主讲人为享有盛名的教育专家马丁先生二培训内容与
喜报|华测导航荣获“张江之星”领军型企业称号

近日 2023年度张江之星企业培育名单发布上海华测导航荣获2023年度张江之星领军型企业称号据悉张江之星企业培育是上海科创办为落实关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见张江高新区加快世界领先科技园区
socket网络编程几大模型？看看CHAT是如何回复的？

CHAT回复网络编程中常见的有以下几种模型 1 阻塞I O模型 Blocking I O 传统的同步I O模型一次只处理一个请求 2 非阻塞I O模型 Non blocking I O 应用程序轮询调用socket相关函数检查请求不需
什么是充放电振子理论？

CHAT回复充放电振子模型 Charging Reversal Oscillator Model 是一种解释ENSO现象的理论模型这个模型把ENSO现象比喻成一个热力学振荡系统在这个模型中 ENSO现象由三个组成部分充电 Char
利用CHAT上传文件的操作

问CHAT autox js ui 上传框 CHAT回复上传文件的操作如果是在应用界面中的话由于Android对于文件权限的限制你可能不能直接模拟点击选择文件一般来说有两种常见的解决方案一种是使用intent来模拟发送一个文件路径
打造完美人像，PixCake像素蛋糕助您一键修图

您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰是否曾经想要打造出完美的自拍照却不知道该如何下手现在我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
基于opencv的大米计数统计（详细处理流程＋代码）

在我每周的标准作业清单中有一项是编写计算机视觉算法来计算该图像中米粒的数量因此当我的一个好朋友M给我发了一张纸上的扁豆照片显然是受到上述转发的启发请我帮他数一下谷物的数量时它勾起了我怀旧的回忆因此我在我的旧硬盘上寻找很久以前
毕业设计：基于卷积神经网络的验证码识别系统机器视觉人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 字符分割算法 2 2 深度学习三检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初
2024 人工智能与大数据专业毕业设计(论文)选题指导

目录前言毕设选题选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶
人工智能 AI 如何让我们的生活更加便利

每个人都可以从新技术中获益一想到工作或生活更为便利简捷且拥有更多空余时间谁会不为之高兴呢借助人工智能每天能够多一些空余时间或丰富自己的业余生活为培养日常兴趣爱好增添一点便利从电子阅读器到智能家居再到植物识别应用和智能室内花
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
开始弃用NeRF？为什么Gaussian Splatting在自动驾驶场景如此受欢迎？（浙江大学最新）...

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述文章首先回顾了3D Gaussian的原理和应用借着全面比较了3D GS在静态
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技

随机推荐

typora插件_如何在Typora中写markdown, 并发布到知乎

你不能阻止鸟从你头上飞过但是你可以阻止鸟在你头上筑巢 by 无名一常见的几种方法与工具 1 vscode zhihu插件缺点不能渲染表格用起来没有想想中的那么简便 2 MarkdownHere 插件缺点并不好用毕竟他主要还
linklist2

include
TYPE-C转串口原理图

板子是采用kicad画的主控芯片采用CH340K 其他型号类似原理图获取方式聚玩库公众号发送 typec串口
Python_反转字符串

Python 反转字符串测开笔试题尽可能用多的方法反转字符串输入 abcde 输出 edcba PS 字符串是不可变类型元素很多时候需要先转为list 再join 1 方法1 切片反转 def fanzhuan s return s
html checkbox的checked属性问题和value属性问题

示例代码
wsl2安装图形化界面联网中文输入法

时长两天搞定的遇到了很多坑我主要是根据自己的实践经历说一下坑点然后复盘我的思路过程首先我参考了这个资料 WSL2 Ubuntu图形界面使用指南 csdn出品其实也主要是参考官网的教程链接如下 https learn micro
数据结构—递归与非递归实现DFS与BFS

老师上数据结构课的作业我皮了一下用 c c c 的vector写的其实也不难详情请参见代码如果有不会DFS与BFS的参见资料递归BFS include
html读取json文件+数据渲染
android源码学习-Handler机制及其六个核心点

前言该文属于安卓源码探究专栏中的文章专栏所有文章清单链接如下欢迎大家阅读安卓源码探究这里是图片001 https blog csdn net rzleilei category 6506586 html spm 1001 2014
【MYSQL基础(一）】——数据类型的详细解析. 数据库基本操作

个人主页努力学习的少年版权本文由努力学习的少年原创在CSDN首发需要转载请联系博主如果文章对你有帮助欢迎关注点赞收藏一键三连和订阅专栏哦目录一为什么要使用MySQL数据库二数据库的基本概念数据库和数据库
win10计算机程序员怎么用,如何用好 Windows 10 中的多功能「计算器」应用程序

从 1985 年 Microsoft 首次推出 Windows 1 0 以来至今系统内置的 Widows 计算器已经走过了漫长的功能扩展道路 Windows 10 的多功能计算器针对不同用户和使用场景内置了多种功能模式其中就包括
C# 三菱FX PLC XYS读写，串口读写

花了两三天写了一个这个本来想着自己用的看到有很多替代品果断开源了吧下载地址 https github com t39q MitsubishiFX PLC XYS 以下是原理后面有帮助类和调用方法调用方法 private void
Python通过私信消息提取博主的赠书活动地址

文章目录前言背景设计开发 1 引入模块 2 获取私信内容 3 根据文本提取url的方法 4 获取包含书的url 5 程序入口效果总结最后前言博主空空star 主页空空star的主页大家好我是空空star 本篇给
java canvas 画图片_[Java教程][HTML5] Canvas绘制简单图片

Java教程 HTML5 Canvas绘制简单图片 0 2016 05 13 13 00 04 获取Image对象 new出来定义Image对象的src属性参数图片路径定义Image对象的onload方法调用context对象的d
图的深度优先遍历和广度优先遍历

1 深度优先遍历 DFS 1 从某个顶点V出发访问顶点并标记为已访问 2 访问V的其中一个邻接点通常最左边的那个如果没有访问过访问该顶点并标记为已访问然后再访问该顶点的邻接点递归执行先一直往后走如果该顶点已访问过退回上一个
CAD快捷键——标注类

CAD快捷键标注类直线标注 DLI 空格斜线标注 DAL 空格半径标注 DRA 空格直径标注 DDI 空格角度标注 DAN 空格连续标注 DCO 空格快速连续标注 QDIM 空格中心标注 DCE 空格直线标注 DLI 空
Windows下的开发辅助神器——Chocolate Package Manager

对于开发人员而言搭建开发环境是所有开发环节中的第一步然而在Windows环境下各种安装工具软件版本五花八门而且容易下载到病毒软件因此对于初学者来说下载到正确的开发软件搭建好开发环境还是有一定难度和技巧性的 Chocolate
[已解决]ROS无法连接raw.githubusercontent.com和raw.github.com的问题

首先通过以下网站查询raw githubusercontent com和raw github com对应的IP https tool lu ip 复制上面的IP 然后通过下面命令打开hosts修改源 sudo vi etc hosts 以下
Spring Boot参考教程（七）Spring Boot Jar方式读取资源文件

5 Spring Boot Jar方式读取资源文件在2 2 2章节中已说明SpringBoot的一个特性就是独立运行内嵌Servlet容器在Spring Boot工程以jar方式独立运行开发时会遇到一些问题本章节主要说明读取静态资源
Reformer RoPE,旋转位置编码，关于Transformer当中的位置编码的优化考察

1 工作简介这篇文章是苏剑林的一篇关于Transformer当中的位置编码的优化考察众所周知 transformer的attention机制本身是不带有位置信息的因此对于文本序列 attention机制本身就会丢失掉原文当中的序列信息

Reformer RoPE,旋转位置编码，关于Transformer当中的位置编码的优化考察

Reformer RoPE,旋转位置编码，关于Transformer当中的位置编码的优化考察 的相关文章

随机推荐

热门标签

Reformer RoPE,旋转位置编码，关于Transformer当中的位置编码的优化考察的相关文章