文章目录
- 摘要
- 1、简介
- 2、背景
- 3、模型架构
-
- 3.1、编码器和解码器栈
- 3.2、注意力
-
- 3.2.1缩放点积注意力
- 3.2.2、多头注意力(Multi-Head Attention)
- 3.2.3、注意力在模型中的应用
- 3.3、逐位置前馈网络(Position-wise Feed-Forward Networks)
- 3.4嵌入和Softmax
- 3.5、位置编码
- 4、为什么是自注意力
- 5、训练
-
- 5.1、训练数据和批处理
- 5.2、硬件和时间表
- 5.3、优化器
- 5.4、正规化
- 6、结果
-
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)