【Transformer】Transformer and BERT（1）

2023-12-18

在这里插入图片描述

文章目录

Transformer
BERT

太…完整了！同济大佬唐宇迪博士终于把【Transformer】入门到精通全套课程分享出来了，最新前沿方向

学习笔记

Transformer

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
无法并行，层数比较少

在这里插入图片描述

词向量生成之后，不会变，没有结合语境信息的情况下，存在一词多义，无法处理

在这里插入图片描述
词如何编码成向量

在这里插入图片描述

第一句话中，it 和 animal 的相应最高

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
内积，正交的话内积为0，越相近（相关），内积越大

在这里插入图片描述

d k \sqrt{d_k} d k 的目的，向量维度越大，内积也越大， d k \sqrt{d_k} d k 起到 scale 的作用

在这里插入图片描述
对于每个输入 x1 … xn, 计算一样的，可以并行为一个矩阵乘法

在这里插入图片描述
多头类比多个卷积核，来提取多种特征

在这里插入图片描述

不同的头得到的特征表达也不相同

多头包含在了 self-attention 中了

在这里插入图片描述
引入位置编码，形式有很多，比如 one-hot，原文中作者使用的是周期性信号进行编码

在这里插入图片描述
layer normalization 和 residual structure

在这里插入图片描述

encoder-decoder attention，encoder 的 K,V，decoder 的 Q

在这里插入图片描述
mask 机制：以翻译为例，不能透答案了，翻译到 I am a 的时候，student 要被 mask 起来，只能计算 I am a 的注意力

不能用后面未知的结果当成已知的条件

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

BERT

在这里插入图片描述

语料

预测出 mask，来训练提升特征编码能力

在这里插入图片描述

end-to-end 的形式，词编码表达和 task 一起训练

在这里插入图片描述

答案 d2->d3

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CNNTransformer

Transformer

Bert

深度学习

【Transformer】Transformer and BERT（1）的相关文章

（附源码）基于Springboot智能垃圾分类管理平台-计算机毕设 63147

Springboot智能垃圾分类管理平台摘要随着科学技术的飞速发展社会的方方面面各行各业都在努力与现代的先进技术接轨通过科技手段来提高自身的优势智能垃圾分类当然也不例外智能垃圾分类管理平台是以实际运用为开发背景运用软件工程
计算机毕设ssm阳江市旅游网站whquz9【附源码】

项目运行环境配置 Jdk1 8 Tomcat7 0 Mysql HBuilderX Webstorm也行 Eclispe IntelliJ IDEA Eclispe MyEclispe Sts都支持项目技术 vue mybatis Ma
Pipe转token教程

打开网站 https www satsx io pipe 选择Transfer 以及pipe 选择转账数量点击select uxto关键是可以多选填入买家地址以及输入对应数量即可

随机推荐

计算机毕设ssm学生综合测评管理系统kl6el9【附源码】

项目运行环境配置 Jdk1 8 Tomcat7 0 Mysql HBuilderX Webstorm也行 Eclispe IntelliJ IDEA Eclispe MyEclispe Sts都支持项目技术 vue mybatis Ma
计算机毕设ssm疫情防控物业管理系统o8e9w9【附源码】

项目运行环境配置 Jdk1 8 Tomcat7 0 Mysql HBuilderX Webstorm也行 Eclispe IntelliJ IDEA Eclispe MyEclispe Sts都支持项目技术 vue mybatis Ma
Windows7系统printui.exe文件丢失问题

其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题如果是新手第一时间会认为是软件或游戏出错了其实并不是这样其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库这时你可以下载这个printui
INDEL AG INFO-4KP-94161定位板

INDEL AG INFO 4KP 94161定位板 INDEL AG INFO 4KP 94161定位板产品详情 INDEL AG INFO 4KP 94161 定位板可能指的是以下一些产品特点定位技术定位板可能是一种包含定位技术的设
strongswan的ipsec.conf 配置解析

config setup uniqueids no conn default keyexchange ikev1 ike aes256 sha1 modp1024 esp aes256 sha1 auto add closeaction c
Qt之使用QListView加载相册(富文本ToolTip)

一效果二实现 include mainwindow h include ui mainwindow h include
免费分享一套Springboot+Vue前后端分离的在线图书商城(书城)系统，挺漂亮的

大家好我是java1234 小锋老师看到一个不错的Springboot Vue前后端分离的在线图书商城书城系统分享下哈项目视频演示免费 Springboot Vue在线图书商城在线书城毕业设计 Java毕业设计哔哩哔哩
2024 年 QA 自动化的语言是什么？

厌倦了手动测试可以开始自动化测试了我有一些使用 Ruby 和 Java 进行自动化的经验但我参与的所有项目都已经有了现成的框架所以主要是重构因为我擅长 Google 而且用问题来烦同事也没有什么问题不过我想我的知识还不足以回答
PyQt6 QFileDialog文件对话框控件

锋哥原创的PyQt6视频教程 2024版 PyQt6 Python桌面开发视频教程无废话版玩命更新中哔哩哔哩 bilibili 2024版 PyQt6 Python桌面开发视频教程无废话版玩命更新中共计49条视频包括 20
SCHNNEIDER 140XBP00400 RIO站适配器

SCHNNEIDER 140XBP00400 RIO站适配器 SCHNNEIDER 140XBP00400 RIO站适配器产品详情 Schneider Electric的140XBP00400是一个Remote I O RIO 站适配器
数字化转型数据中台解决方案：PPT全文50页，附下载

关键词数字化转型数据中台解决方案数字化转型对企业的意义数字化转型的核心数据中台技术架构数据中台的作用和意义一数字化转型背景 1 互联网普及和信息技术突破随着互联网的普及和信息技术的突破企业迫切需要适应数字化时代的变革数
Android：想不被挤下去，只能跑的更快

前言近期我们总能听到身边程序员朋友离职的消息无论是工作2 3年的初级程序员还是工作5 6年的高级程序员互联网寒冬的到来使得大批互联网公司倒闭或裁员节流人才需求大幅降低市场迅速达到饱和在这个环境下培训出来的新手往往达不到市
A Survey of Text Watermarking in the Era of Large Language Models

本文是LLM系列文章针对 A Survey of Text Watermarking in the Era of Large Language Models 的翻译大语言模型时代的文本水印综述摘要 1 引言 2 文本水印的前言 3 当
网络安全非常热门，推荐这些网络安全入门级别的书籍

当今网络世界中的安全问题十分严峻网络安全是非常热门的领域之一以下是我为您推荐的网络安全入门级别的书籍 Web安全深度剖析本书由美国网络安全公司IOActive的研究员Peleus Uhley和Wendy Edwards撰写适合初学者
综合工具集锦（批量数据修改JSON数据，批量修改文件名，文本数字增加，批量修改传奇TXT爆率，BMP转PNG去黑底，取得神途怪物表数据，查找TXT文本内容关键字），传奇转换工具集锦

MirTools综合工具集锦批量数据修改JSON数据批量修改文件名文本数字增加批量修改传奇TXT爆率 BMP转PNG去黑底取得神途怪物表数据查找TXT文本内容关键字传奇转换工具集锦 1 打开软件主体界面如下 2 批量数据修改
数据安全传输基础设施平台（一）

1引言 1 1项目简介数据安全传输基础设置平台项目简称数据传输平台是一款基础设施类项目为集团企业信息系统的提供统一标准的信息安全服务解决企业和企业之间集团内部信息数据的传输安全消息安全身份鉴别和认证成功解决了传统的安
程序员怎样为自己工作？每天做的事终身受益。避免产品做完只拿工资走人，绑定客户绑定粉丝。

工作即是创业是所有人为你打工打工什么是自己的首先是跟随你的人才你的小兄弟们带着他们一起发财把你身边的所有人所有的资源调动起来都为你项目服务不管是你的老板你的客户还是你竞争对手客户大家都是同一个目标赚钱人设跟着我有
【Swiss-Model 同源建模】

Swiss Model是一种同源建模方法其基本原理是利用序列的同源性来推断蛋白质的三维结构具体来说就是通过找到与目标蛋白质序列同源且结构已知的模板蛋白质来预测目标蛋白质的结构同源建模的主要步骤包括模板的确定通过搜索数据库找到
计算机毕设ssm医疗健康项目小程序11on99【附源码】

项目运行环境配置 Jdk1 8 Tomcat7 0 Mysql HBuilderX Webstorm也行 Eclispe IntelliJ IDEA Eclispe MyEclispe Sts都支持项目技术 vue mybatis Ma
【Transformer】Transformer and BERT（1）

文章目录 Transformer BERT 太完整了同济大佬唐宇迪博士终于把 Transformer 入门到精通全套课程分享出来了最新前沿方向学习笔记 Transformer 无法并行层数比较少词向量生成之后不会变没有结合语

热门标签