Transformer:Attention Is All You Need

2023-05-16

文章目录

  • 摘要
  • 1、简介
  • 2、背景
  • 3、模型架构
    • 3.1、编码器和解码器栈
    • 3.2、注意力
      • 3.2.1缩放点积注意力
      • 3.2.2、多头注意力(Multi-Head Attention)
      • 3.2.3、注意力在模型中的应用
    • 3.3、逐位置前馈网络(Position-wise Feed-Forward Networks)
    • 3.4嵌入和Softmax
    • 3.5、位置编码
  • 4、为什么是自注意力
  • 5、训练
    • 5.1、训练数据和批处理
    • 5.2、硬件和时间表
    • 5.3、优化器
    • 5.4、正规化
  • 6、结果
    本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

    Transformer:Attention Is All You Need 的相关文章

    • QT多线程网络通信

      QT多线程网络通信 使用QT提供的类进行基于TCP的套接字通信需要用到两个类 xff1a 1 QTcpServer 服务器类 xff0c 用于监听客户端连接以及和客户端建立连接 2 QTcpSocket 通信的套接字类 xff0c 客户端

    随机推荐