Bert和T5的区别

2023-11-19

Bert 和 T5 之间的主要区别在于预测中使用的标记(单词)的大小。 Bert 预测一个由单个词组成的目标(single token masking),另一方面,T5 可以预测多个词,如上图所示。它在学习模型结构方面为模型提供了灵活性。

Transformer 是一种使用自注意力机制的深度学习模型。 Self-attention 的工作原理是在给定单词与其周围环境之间建立一定程度的重要性或关系。

在进入细节之前,请记住词嵌入是一个词的实数值数值表示,这种表示对一个词的含义进行编码,这将有助于检查哪个其他词具有相似的编码。相似的编码意味着单词彼此高度相关。

回到自我关注!

“今天我正在写一篇关于搜索引擎的文章。”

假设我想计算“文章”这个词的自注意力。

SA(‘article’) = “article”这个词与句子中其他词之间的关系量 (SA = Self-attention)。

每个箭头代表单词“article”和句子中任何单词之间的注意力。换句话说,每个箭头表示这两个词彼此相关的程度。我们应该注意,这只是一个词的注意力,我们应该对所有其他词重复此步骤。

在该过程的最后,我们将为每个单词获得一个向量,其中包含代表单词及其与其他单词的关系的数值。

他们为什么要创建self-attention机制?
创建自我注意机制的原因是因为在其他基本模型中发现的局限性。

例如,skip-gram 是一个生成词嵌入的模型。在 skip-gram 的训练阶段,它学习预测给定单个单词作为输入的周围特定数量的单词。通常,我们指定窗口大小,即有多少包围的单词将作为输入给出。

但该模型的主要局限在于,对给定单词的预测将仅基于有限数量的周围单词。另一方面,self-attention 不仅会检查句子中的所有其他单词,还会赋予它们一定程度的重要性。

示例:ML 模型如何预测以下句子中的单词“river”:Bank of a (river) 

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Bert和T5的区别 的相关文章

随机推荐

  • Web前端学习(六)HTML5列表标签

    列表标签 ul li 语法 ul li 精彩少年 li li 美丽突然出现 li li 触动心灵的旋律 li ul 有序列表 ol li 语法 ol li 前端开发面试心法 li li 零基础学习html li li JavaScript全
  • Linux内存逆向映射(reverse mapping)技术的前世今生

    本文来自于微信公众号Linux阅码场 一 前言 数学大师陈省身有一句话是这样说的 了解历史的变化是了解这门学科的一个步骤 今天 我把这句话应用到一个具体的Linux模块 了解逆向映射的最好的方法是了解它的历史 本文介绍了Linux内核中的逆
  • Web网络安全-----Log4j高危漏洞原理及修复

    系列文章目录 Web网络安全 红蓝攻防之信息收集 文章目录 系列文章目录 什么是Log4j 一 Log4j漏洞 二 漏洞产生原因 1 什么是Lookups机制 2 怎么利用JNDI进行注入 JNDI简介 LADP RMI 三 Log4j漏洞
  • 2021/8/10补题A - Min Difference

    A Min Difference 题目大意 题解 1 暴力的方法 2 双指针 优化查询 3 所有元素打上标签扔进一个数组 和1异曲同工 题目大意 给定数组a和数组b 数组a长度为n 数组b长度为m 你可以从数组a和数组b中各选一个数 问这两
  • 解决Centos7 下 root账号 远程连接FTP,vsftpd 提示 530 Login incorrect 问题

    三步走 1 vim etc vsftpd user list 注释掉 root 2 vim etc vsftpd ftpusers 同样注释掉 root 3 重启服务 systemctl restart vsftpd service 最后测
  • 使用docker搭建gitlab服务器

    一 拉取gitalb镜像 1 使用docker search gitalb gitlab 搜索有哪些镜像 2 docker pull gitlab gitlab ce 拉取镜像 这里拉取社区版的 3 创建容器 先使用默认挂载目录 随机端口
  • 什么是矩阵的范数

    原文地址 在介绍主题之前 先来谈一个非常重要的数学思维方法 几何方法 在大学之前 我们学习过一次函数 二次函数 三角函数 指数函数 对数函数等 方程则是求函数的零点 到了大学 我们学微积分 复变函数 实变函数 泛函等 我们一直都在学习和研究
  • Springboot+Pagehelper+Vue 完成分页显示操作

    Springboot Pagehelper Vue 完成分页显示操作 在开发的过程最常用也是最常见的就是表格的分页查询了 在开发的时候碰到了这个需求 所以今天讲讲怎么把Pagehelper集成到SpringBoot并结合前端框架Vue 完成
  • 如何正确的关闭 MFC 线程

    前言 近日在网上看到很多人问及如何关闭一下线程 但是我看网上给出的并不详细 而且有些方法还是错误的 小弟在此拙作一篇 不谈别的 只谈及如何正确的关闭MFC的线程 至于Win32和C RunTime的线程暂不涉及 一 关于MFC的线程 MFC
  • JS中的发布-订阅

    发布订阅模式 什么是发布 订阅模式 发布 订阅模式的实现 发布 订阅实现思路 总结 优点 缺点 Vue 中的实现 观察者模式和发布订阅的区别 观察者模式 发布订阅模式 什么是发布 订阅模式 发布 订阅模式其实是一种对象间一对多的依赖关系 当
  • Kubernetes笔记(3) - 资源管理基础

    Kubernetes系统将一切事物都抽象为API资源 其遵循REST架构风格组织并管理这些资源及其对象 同时还支持通过标准的HTTP方法 POST PUT PATCH DELETE和GET 对资源进行增 删 改 查等管理操作 Kuberne
  • tcp三次握手和四次挥手的过程

    TCP是面向连接的 无论哪一方向另一方发送数据之前 都必须先在双方之间建立一条连接 在TCP IP协议中 TCP 协议提供可靠的连接服务 连接是通过三次握手进行初始化的 三次握手的目的是同步连接双方的序列号和确认号 并交换 TCP窗口大小信
  • 简述JAVA集合框架

    简述JAVA集合框架 对常用的数据结构和算法做了一些接口和具体实现接口的类 所有抽象出来的数据结构统称为Java集合框架 在具体应用时 不必考虑数据结构和算法实现细节 只需要用这些类创建出来一些对象 然后直接应用就可以了 这样就大大提高了编
  • Nginx中代理的上下文路径设置

    Nginx中代理的上下文路径设置 实际配置nginx的时候 在Location段中配置的路径 request uri 以及代理指令 proxy pass 中设置的上下文路径的组合不同 最后实现的结果就不一样 例子 加入请求nginx服务的U
  • php修改学生信息代码_简单学习PHP中的层次性能分析器

    在 PHP 中 我们需要进行调试的时候 一般都会使用 memory get usage 看下内存的使用情况 但如果想看当前的脚本 CPU 的占用情况就没有什么现成的函数了 不过 PHP 也为我们提供了一个扩展 XHProf 这是由 Face
  • 24.qint64转QString 以及获取文件属性

    qint64转QString 1 qint64 size info size 2 qint64 转QString 3 QString size2 tr 1 arg size 获取文件属性 1 include mainwindow h 2 i
  • 大数据与人工智能的关系

    大数据与人工智能有密切的关系 大数据可以为人工智能提供大量的训练数据 从而提高人工智能的准确性和效率 人工智能又可以帮助我们对大数据进行分析和挖掘 提取有用的信息
  • 计算机二级python经典真题

    计算机二级python经典考题 1 键盘输入正整数n 按要求把n输出到屏幕 格式要求 宽度为20个字符 减号字符 右填充 右对齐 带千位分隔符 如果输入正整数超过20位 则按照真实长度输出 例如 键盘输入正整数n为1234 屏幕输出 1 2
  • Android监听屏幕录制的过程

    Android监听屏幕录制的过程如下 在AndroidManifest xml文件中声明屏幕录制权限
  • Bert和T5的区别

    Bert 和 T5 之间的主要区别在于预测中使用的标记 单词 的大小 Bert 预测一个由单个词组成的目标 single token masking 另一方面 T5 可以预测多个词 如上图所示 它在学习模型结构方面为模型提供了灵活性 Tra