预训练语言模型PTM

Reformer RoPE,旋转位置编码，关于Transformer当中的位置编码的优化考察

1 工作简介这篇文章是苏剑林的一篇关于Transformer当中的位置编码的优化考察众所周知 transformer的attention机制本身是不带有位置信息的因此对于文本序列 attention机制本身就会丢失掉原文当中的序列信息

预训练语言模型PTM 深度学习 自然语言处理 人工智能
UniLM详解，统一语言模型（Unified Language Model，UniLM）

先导知识 Transformer BERT GPT MASS 前言预训练模型按照训练方式或者网络结构可以分成三类一是以BERT 2 为代表的自编码 Auto Encoding 语言模型它使用MLM做预训练任务自编码预训模型往往更擅长

大语言模型ChatGPTLLM 预训练语言模型PTM 深度学习 人工智能

Reformer RoPE,旋转位置编码，关于Transformer当中的位置编码的优化考察