【NLP】1、BERT

2023-11-13

在这里插入图片描述

文章目录

- 一、背景
- 二、方法

论文：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

出处：Google

一、背景

在 BERT 之前的语言模型如 GPT 都是单向的模型，但 BERT 认为虽然单向（从左到右预测）预测任务符合语言模型的建模过程，但对一些语言理解任务不太友好，因为要理解一句话说的是什么意思的话（如 VQA），同时看到一整句话也是可以的，是符合逻辑的，而不是只能一个单词一个单词的来逐个看。

所以 BERT 打破了语言模型单向的限制，做了一个双向的模型，就是做完形填空的时候运行看左边也运行看右边，而且是受 Cloze （1953年的论文）这个方法的启发

具体的做法就是每次随机选一些 token 然后 mask 掉这些信息，目标是预测这些 token，这样就允许训练一个双向且深的 transformer 模型结构

此外，BERT 还做了一个任务——下一个句子的预测（next sentence prediction），就是给模型两个句子，让模型判断这两个句子在原文中是不是相邻的，能让模型学习句子层面的信息

二、方法

BERT 的两个步骤：

预训练：使用无标注的数据训练的预训练模型（下图左侧），由两个任务共同组成预训练
- mask model：预测被 mask 掉的 token，类似完形填空的方式。预测的过程相当于做多分类，类别的个数是词汇的总个数，将 mask 的词的 embedding 经过 MLP 变成在每个类别词汇上的 logits 概率，label 是 mask 位置上真实词汇在整个词汇上的 one-hot 编码，将 logits 和 lable 计算交叉熵，然后所有的预测做加权平均，就能得到 MLM 的 loss 了
  
  输入的是句子对儿，会把句子先进行拆词，并在序列首位放置 [CLS] 在句子中间放置 [SPE] 这两个特殊的 token，然后对普通的 token（除过特殊 token 之外的从句子中拆出来的 token）进行 15% 概率的擦除，然后在这 15% 的 token 中选择 80% 的直接用 [MASK] 替换掉这个 token，10%的随机放置 token，10% 不改变 token。
- next sentence prediction：预测下一个句子
  在 VQA 和语言推理中都是句子对，所以使用这种方法对这两个任务类似的理解的任务有提升。输入的数据中有 50% 真的是下一个句子，50% 是随机拿来的句子。
微调：针对不同的下游任务，还会使用有标签的数据来微调，使用预训练模型参数初始化，所有权重都会参与训练（右边）

模型超参数：base 共 110M 参数（也就是 1.1亿）对标的是 GPT 模型大小，large 共 340M 参数（也就是 3.4亿）

transformer block 个数：base 12 层，large 24 层
hidden 层大小：base 768，large 1024
多头注意力机制 head 的个数：base 12 头，large 16 头

输入和输出：

输入是一个序列，可以是一个句子，也可以是两个句子，两个句子也会并成一个序列
序列的构成方式：使用的切词方法是 WordPiece，因为如果按照空格切词的话会导致词典很大，WordPiece 是说如果一个词出现频率不高的话，那么就切开看它的子序列，子序列出现多的话保留子序列就可，可以使用 30000 token vocabulary 就能表示一个大的文本了。切好词之后就要把两个句子整合成一个序列，序列的第一个词用于都是 [CLS]，bert 希望这个 token 表示整个序列的特征。还有一个 [SEP] token 表示将两个句子在这里切开，因为毕竟每个句子还是独立的个体，所以要有标志将其切开。在图 1 左侧就展示了，将句子切成 token，然后将求每个 token 的 embedding，
每个 token 还要加位置的 embedding 和 segment embedding，如图 2 所示

在这里插入图片描述

BERT 的每个 token 的输入是由三个部分相加得到的
token embedding：就是输入 transformer 之前的一次简单 embedding
segment embedding：表示第一句话还是第二句话
position embedding：token 在序列中的位置

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

自然语言处理

Bert

Transformer

【NLP】1、BERT 的相关文章

将三元组、二元组和一元组与文本匹配；如果一元或二元是已经匹配的三元的子串，则通过； Python

main text 是包含已被词性标记的句子的列表的列表 main text the DT mad JJ hatter NN likes VB tea NN and CC hats NN the DT red JJ queen NN hat
如何找到句子的主语？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我是 NLP 新手正在研究应该使用哪种语言工具包来执行以下操作我想做两件事之一来完成同样的事情我基本上想对文本进行分类通常是一个包
使用 NLTK python 对使用示例数据或 Web 服务的句子进行情感分析？

我正在着手一个用于情感分析的 NLP 项目我已经成功安装了Python的NLTK 看起来是一个很棒的软件但是我无法理解如何使用它来完成我的任务这是我的任务我从一长条数据开始假设来自他们的网络服务的数百条关于英国大选主题的推文我
日期自然语言解析器（.NET）？

我希望能够让用户使用自然语言例如下周五每个工作日输入日期包括重复日期很像以下的例子http todoist com Help timeInsert http todoist com Help timeInsert I found
Keras 文本预处理 - 将 Tokenizer 对象保存到文件中以进行评分

我按照以下步骤大致使用 Keras 库训练了一个情感分类器模型使用 Tokenizer 对象类将文本语料库转换为序列使用 model fit 方法构建模型评估这个模型现在为了使用此模型进行评分我可以将模型保存到文件中并从文
在哪里可以找到英语短语列表？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我的任务是搜索文本中陈词滥调和常见短语的用法这些短语与您在财富之轮的短语谜题中可能看到的短语类似这
如何在 python-gensim 中使用潜在狄利克雷分配（LDA）来抽象二元组主题而不是一元组？

LDA 原始输出一元语法主题1 水肺水蒸汽潜水主题2 二氧化物植物绿色碳所需输出二元组主题主题1 水肺潜水水蒸气主题2 绿色植物二氧化碳任何想法鉴于我有一个名为docs 包含文档中的单词列表我可以使用 n
如何将地名词典或词典表示为 crf++ 中的特征？

如何使用地名词典或词典作为功能CRF https taku910 github io crfpp 详细说明假设我想对人名进行 NER 并且我有一个包含常见人名的地名词典或字典我想使用这个地名词典作为 crf 的输入我该怎么做我正在
在Python或Sklearn中用整数值对具有字符串值的列变量进行编码

如何用整数值对数据表中字符串类型的列值进行编码例如我有两个特征变量颜色可能的字符串值 R G 和 B 和技能可能的字符串值 C Java SQL 和 Python 给定数据表有两列 Color gt R G B B G R B G
比较文本文档含义的最佳方法？

我正在尝试找到使用人工智能和机器学习方法来比较两个文本文档的最佳方法我使用了 TF IDF Cosine 相似度和其他相似度度量但这会在单词或 n gram 级别上比较文档我正在寻找一种方法来比较meaning的文件最好的方法是什
这个 NLP 问题层次结构描述中的最大池化是什么类型

我正在尝试实现这个描述以及我所做的我生成了形状的 uni gram bi gram tri gram 15 512 使用填充然后对于每个单词我连接三个特征向量 3 512 然后我向他们申请 Globalmaxpooling1D 我不知
如何提取数字（以及比较形容词或范围）

我正在用 Python 开发两个 NLP 项目它们都有类似的任务提取数值和比较运算符来自句子如下所示 greater than 10 weight not more than 200lbs height in 5 7 feets fas
将 python NLTK 解析树保存到图像文件[重复]

这个问题在这里已经有答案了这可能会复制这个 stackoverflowquestion https stackoverflow com questions 23429117 saving nltk drawn parse tree to
SpaCy 模型“en_core_web_sm”的词汇量大小

我尝试在 SpaCy 小模型中查看词汇量 model name en core web sm nlpp spacy load model name len list nlpp vocab strings 只给了我 1185 个单词我也在同
ANEW 字典可以用于 Quanteda 中的情感分析吗？

我正在尝试找到一种方法来实施英语单词情感规范荷兰语以便使用 Quanteda 进行纵向情感分析我最终想要的是每年的平均情绪以显示任何纵向趋势在数据集中所有单词均由 64 名编码员按照 7 分李克特量表在四个类别上进行评分这提
是否可以使用 Google BERT 来计算两个文本文档之间的相似度？

是否可以使用 Google BERT 来计算两个文本文档之间的相似度据我了解 BERT 的输入应该是有限大小的句子一些作品使用 BERT 来计算句子的相似度例如 https github com AndriyMulyar semant
阻止斯坦福核心 NLP 服务器输出它收到的文本

我正在运行一个斯坦福核心自然语言处理 http stanfordnlp github io CoreNLP server java mx4g cp edu stanford nlp pipeline StanfordCoreNLPServe
AttributeError：类型对象“Word2Vec”没有属性“load_word2vec_format”

我正在尝试实现 word2vec 模型并收到属性错误 AttributeError 类型对象 Word2Vec 没有属性 load word2vec format 下面是代码 wv Word2Vec load word2vec format
如何提取句子中的主语及其各自的从属短语？

我正在尝试在句子中进行主题提取以便我能够根据主题获得情感我在用nltk在 python2 7 中用于此目的以下面的句子为例 Donald Trump is the worst president of USA but Hillary
如何在R中使用OpenNLP获取POS标签？

这是 R 代码 library NLP library openNLP tagPOS lt function x s lt as String x word token annotator lt Maxent Word Token Anno

随机推荐

在机器学习中，你需要多少训练数据？

你为什么会问这个问题首先我们要搞清楚你为什么会问需要多大的训练数据集可能你现在有以下情况你有太多的数据可以考虑通过构建学习曲线 learning curves 来预估样本数据集 representative sample 的大小或者
焊缝识别技术研究

一绪论提高焊接效率和保证焊接质量是焊接产业行业的重要发展方向示教在线的编程模式需要占用大量的编程时间效率低下同时示教的精度难以保证可重复性差难以适用于复杂的机器人作业离线编程软件有RobotMaster RobotSt
JS判断对象、数组是否包含某个属性、某个值

一判断对象是否包含某个属性可以使用以下几种方法来判断对象是否包含某个属性 1 in 操作符使用 in 操作符可以检查对象是否包含指定的属性它会检查对象及其原型链上的所有属性 const obj name John age 25 co
2023智源大会议程公开丨视觉与多模态大模型论坛

6月9日 2023北京智源大会将邀请AI领域的探索者实践者以及关心智能科学的每个人共同拉开未来舞台的帷幕你准备好了吗与会知名嘉宾包括图灵奖得主Yann LeCun OpenAI创始人Sam Altman 图灵奖得主Geoffr
第十六篇：关于Unity开发WebGL遇到的坑

1 资源消耗问题 Unity开发Web 项目发布出来的项目是很消耗内存资源的这是Unity引擎决定我们要做的就是尽可能的优化通常的方法有降低模型面数降低贴图的大小减少点光源减小烘焙贴图大小等当然也可以使用three js开发
机器人流程自动化（RPA）：6大开源工具

51CTO com快译与实施许多新软件一样开始使用机器人流程自动化 RPA 方面面临自建还是外购的选择如果是自建只要你有合适的人员预算到位可以从头开始编写自己的机器人如果是外购有一个新兴的商业软件供应商市场它们提供各式各样
数据链路层--以太网协议

目录以太网协议认识以太网以太网帧格式认识MAC地址认识MTU 数据跨网络传输的过程 ARP协议 ARP概念 ARP数据的格式 ARP协议的工作流程 ARP请求的过程 ARP应答的过程 ARP缓存表在学习完ip协议后知道网络层解
大话设计模式学习 C++

工厂模式 include bits stdc h using namespace std 基类进行操作 class Operation protected data double numberA 0 double numberB 0 pu
SSM项目可以正常启动并访问，控制台无报错，但是项目调用controller层返回404
18650锂电池保护板接线图_锂电池保护板几种接线方法介绍 - 全文

锂电池保护板简介锂电池保护板是对串联锂电池组的充放电保护在充满电时能保证各单体电池之间的电压差异小于设定值一般 20mV 实现电池组各单体电池的均充有效地改善了串联充电方式下的充电效果同时检测电池组中各个单体电池的过压欠压过流
Linux C++ 遍历子目录下的文件名称并保存到变量vector＜string＞中

遍历子目录下的文件名称并保存到变量vector 中 include
Java设计模式-原型模式

原型模式在有些系统中存在大量相同或相似对象的创建问题如果用传统的构造函数来创建对象会比较复杂且耗时耗资源用原型模式生成对象就很高效原型模式的定义与特点原型 Prototype 模式的定义如下用一个已经创建的实例作为原型通过
华为鸿蒙os什么时候发布,华为鸿蒙OS发布，支持上百款机型（附推送名单），你会升级吗？...

昨天晚上万众期待的华为鸿蒙OS正式发布对于国产操作系统具有跨时代的意义首批支持上百款机型升级意味着鸿蒙OS诞生之初便形成Android iOS 鸿蒙OS鼎足而立之势鸿蒙OS并非拷贝Android和iOS系统尤其Android特性
Java并发编程原理与实战课程(叶子猿)

前4节官网免费看 txt 05线程的状态以及各状态之间的转换详解 mp4 06线程的初始化中断以及其源码讲解 mp4 07多种创建线程的方式案例演示一带返回值的方式 mp4 08多种创建线程的方式案例演示二使用线程池 mp4 09
Java设计模式——桥接模式

文章目录桥接模式桥接模式桥接模式就是把事物和其具体实现分开使他们可以各自独立的变化桥接的用意是将抽象化与实现化解耦使得二者可以独立变化像我们常用的JDBC桥DriverManager一样 JDBC进行连接数据库的时候在各个
华为FusionCompute之个人学习环境虚拟化嵌套部署方案

华为FusionCompute之个人学习环境虚拟化嵌套部署方案一环境介绍 1 本次实践背景 2 物理机配置介绍 3 FC虚拟化部署方案介绍 4 虚拟化环境介绍 5 本次实践目的二检查本地环境 1 检查虚拟化环境 2 FC部署进度介绍
软考-系统架构师-计算机与网络基础知识-系统性能

文章目录 1 性能指标 2 性能计算 3 性能设计 4 性能评估说明系统性能是一个系统提供给用户的中国性能指标的集合它包括硬件性能软件性能部件性能指标综合性能指标 1 性能指标性能指标是软硬件的性能指标的集成在硬件中包括计
EMC测试的那些项目，你都知道么？

转载 EMC电磁兼容 2022 03 27 08 30 EMC检测电磁兼容性检测的全称是Electro Magnetic Compatibility 其定义为设备和系统在其电磁环境中能正常工作且不对环境中任何事物构成不能承受的电磁骚扰
gethostbyname()函数详解

基本概念 gethostbyname 函数主要作用用域名或者主机名获取地址操作系统提供的库函数以下的讨论基于linux环境域名系统 Domain Name System DNS 主要用于主机名字与IP地址之间的映射每个组织机构往往
【NLP】1、BERT

文章目录一背景二方法论文 BERT Pre training of Deep Bidirectional Transformers for Language Understanding 出处 Google 一背景在 BERT