NLP预训练模型系列-BERT

贴一下BERT的模型图，模型架构就是一个Transformer Encoder。分为两个步骤：预训练和微调。预训练阶段在无监督数据上训练，微调阶段时，首先用预训练参数初始化，然后所有参数在下游有监督数据上进行微调。注意，每个下游任务都有一个单独微调好的模型，每个任务的模型架构只有很小的区别，即分类头不同。

BERT报告了两个不同的model size：(L是层数(Transformer blocks, )，H是Hidden Size，A是self-attention的head数)

BERT-base: L = 12, H = 768, A = 12, Total Parameters = 110M
BERT-large: L = 24, H = 1024, A = 16, Total Parameters = 340M

BERT-base选择和GPT模型大小相同是为了方便比较。

Input/Output Representations:

使用WordPiece embeddings, vocab size = 30000。每个sequence的开始是一个[CLS] token，这个token的最后一个隐藏状态作为做聚合的序列表示用于分类任务。句子对也被打包为一个sequence。使用[SEP]区分两个sentence。

如下图所示，Input Embeddings = Token Embeddings + Segment Embeddings + Posotion Embeddings。

4.1 BERT预训练

两个任务：

Masked LM：每个sequence中随机mask15%的 WordPiece tokens，然后预测masked words。这样做导致和下游任务有一个不匹配问题，因为fine-tuning时没有[MASK] token。因此为了缓解这个问题，我们不是总是replace words with [MASK], 而是先随机选择15%的token positions，然后对选中的position进行一下三种操作：（1）80%的时间[MASK] (2) 10%的视觉random token，10%的时间unchanged。然后Ti(即选中位置的最后一层输出的隐藏状态)被用于预测原来的token，使用交叉熵损失。
NSP: 许多下游任务是基于理解两个句子间关系的，如问答，自然语言推理，因此我们设置了这样一个next sentence prediction这样的二分类任务。我们选择句子A和句子B，50%的视觉B是真实的下一个句子(IsNext)，50%的时间是一个随机的句子(NotNext), [CLS] token的最后一个隐藏状态C用于分类。

预训练数据：

BookCorpus(800M words)和English Wikipedia(2500M words)。Wikipedia只抽取了文本段，忽略了表格和标题。

5 Experiments

GLUE

GLUE是General Language Understanding Evaluation benchmark

batch size = 32，每个GLUE task fine-tune 3 个epochs。

此外BERT-large在小数据集上有时不稳定。

GLUE测试结果如下表所示：

SQuAD v1.1

Stanford Question Answering Dataset(SQuAD v1.1)包含100k众包问答对，给定问题和来自Wikipedia的包含答案的文章，该任务是预测文章中的answer text span。

结果如下：

SQuAD v2.0

SWAG

The Situations With Adversarial Generations (SWAG) dataset包含113k句子对对抗样本，用于品谷常识推理，结果如下：

6 Ablation Studies

消融实验主要评估了预训练任务的影响，Model Size的影响，使用BERT做feature-based的方法的实验说明BERT用于feature-based和fine-tuning based方法都很高效。

7. Conclusion

本文提出了BERT，使用了双向架构，使得相同的模型能成功处理大量不同的NLP任务。

BERT论文链接

总结

以上对BERT原论文做了较为详细的阅读记录，确实多了解了一些之前没考虑过的细节。BERT最大的贡献在于它的双向语言建模能力，不同于GPT的单向语言建模。这种双向建模能力是通过设计预训练任务MLM和Transformer Encoder架构实现的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)