chatgpt的原理第一部分

2023-05-16

前言

这两天，ChatGPT模型真可谓称得上是狂拽酷炫D炸天的存在了。一度登上了CSDN热搜，这对科技类话题是非常难的存在。不光是做人工智能、机器学习的人关注，而是大量的各行各业从业人员都来关注这个模型，真可谓空前盛世。

我赶紧把 OpenAI 以往的 GPT-n 系列论文又翻出来，重新学习一下，认真领会大规模预训练语言模型（Large Language Model）的强大之处。

可能很多深度学习相关从业人员的感受和我一样，大家之前对 LLM 的感受依然是，预训练+finetune，处理下游任务，依然需要大量的标注数据和人工干预，怎么突然间，ChatGPT 就智能到如此地步？

接下来，我简要梳理一下 OpenAI 的 GPT 大模型的发展历程。

一、还得从 Bert 说起

2018年，自然语言处理 NLP 领域也步入了 LLM 时代，谷歌出品的 Bert 模型横空出世，碾压了以往的所有模型，直接在各种NLP的建模任务中取得了最佳的成绩。

Bert做了什么，主要用以下例子做解释。

请各位做一个完形填空： ___________和阿里、腾讯一起并成为中国互联网 BAT 三巨头。

请问上述空格应该填什么？有的人回答“百度”，有的人可能觉得，“字节”也没错。但总不再可能是别的字了。

不论填什么，这里都表明，空格处填什么字，是受到上下文决定和影响的。

Bert 所作的事就是从大规模的上亿的文本预料中，随机地扣掉一部分字，形成上面例子的完形填空题型，不断地学习空格处到底该填写什么。所谓语言模型的训练和学习，就是从大量的数据中学习复杂的上下文联系。

二、GPT 初代

与此同时，OpenAI 早于 Bert 出品了一个初代 GPT 模型。

它们大致思想是一样的。都基于 Transformer 这种编码器，获取了文本内部的相互联系。

Transformer结构

编解码的概念广泛应用于各个领域，在 NLP 领域，人们使用语言一般包括三个步骤：

接受听到或读到的语言 -> 大脑理解 -> 输出要说的语言。

语言是一个显式存在的东西，但大脑是如何将语言进行理解、转化、存储的，则是一个目前仍未探明的东西。因此，大脑理解语言这个过程，就是大脑将语言编码成一种可理解、可存储形式的过程，这个过程就叫做语言的编码。

相应的，把大脑中想要表达的内容，使用语言表达出来，就叫做语言的解码

在语言模型中，编码器和解码器都是由一个个的 Transformer 组件拼接在一起形成的。

Transformer编码器组成的 Encoder-decoder模型
这里不展开讲 Transformer 里的内部结构，仅仅讲一下 Bert 和 GPT 的区别。

两者最主要的区别在于，Bert 仅仅使用了 encoder 也就是编码器部分进行模型训练，GPT 仅仅使用了 decoder 部分。两者各自走上了各自的道路，根据我粗浅的理解，GPT 的decoder 模型更加适应于文本生成领域。

GPT 初代其实个人认为（当然普遍也都这么认为）略逊色于 Bert，再加上宣传地不够好，影响力也就小于 Bert。

我相信很多的 NLP 从业者对 LLM 的理解也大都停留在此。即，本质上讲，LLM 是一个非常复杂的编码器，将文本表示成一个向量表示，这个向量表示有助于解决 NLP 的任务。

今日学习寄语：

1、要么做第一个，要么做最好的一个。

2、信念和目标，必须永远洋溢在程序员内心。3、最累的时候，家人是你最好的归宿。

4、C程序员永远不会灭亡。他们只是cast成了void。

5、真正的程序员认为自己比用户更明白用户需要什么。

6、退一步海阔天空，这是一种应有的心境。

7、过去的代码都是未经测试的代码。

8、优秀的判断力来自经验，但经验来自于错误的判断。

9、测试是来表明bug的存在而不是不存在。

10、我们这个世界的一个问题是，蠢人信誓旦旦，智人满腹狐疑。

11、一个好汉三个帮，程序员同样如此。

12、看再多的书是学不全脚本的，要多实践。13、无私奉献不是天方夜谭，有时候，我们也可以做到。

14、世界上只有两句真理：1、人一定会死。2、程序一定有Bug。

15、UNIX很简单。但需要有一定天赋的人才能理解这种简单。

16、程序中蕴含着很多的道理，唯有大彻大悟者方能体会其中的奥妙。

17、编程中我们会遇到多少挫折？表放弃，沙漠尽头必是绿洲。

18、做技术一定要一颗恒心，这样才不会半途而废。

19、不要被对象、属性、方法等词汇所迷惑；最根本的是先了解最基础知识。

20、请把书上的例子亲手到电脑上实践，即使配套光盘中有源文件。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

chatgpt的原理第一部分的相关文章

python 深度学习[数学基础-1-函数，极限]

文章目录函数函数
python 深度学习-数学基础-2-导数

z z的变化值比上距离的极限
python 深度学习-数学基础-3-微积分
rt-thread CAN通信（can dev write data failed!）解决，硬件定时器、以及CANfestival包的使用

本文采用正点原子STM32f407ZGT6探索者关于rtt的CAN通信配置可以参考RT Thread studio 添加CAN通信功能按上面配置完成后串口会打印下图所示问题 xff1a xff08 can dev write data
（二）STM32串口总结（库函数版）

一 STM32F103有两个串口图中 TXD RXD 是相对 CH340G 来说的 xff0c 也就是 USB 串口的发送和接收引脚而 USART1 RX 和 USART1 TX 则是相对于 STM32F103ZET6 来说的也就是说
Matlab画图线条的颜色、宽度等相关设置

线条的属性有 xff1a Color 颜色 LineWidth 线条宽度 LineStyle 线型 LineJoin 线条边角的样式 AlignVertexCenters 锐化垂直线和水平线线条属性的默认值为 0 0 0 39 39 39
一、图像预处理

四种图像的基本数据结构 xff1a Image 指Halcon的图像类型 Region 指图像中的一块区域 XLD 指图像中某一块区域的轮廓 Tuple 类似于数组 xff0c 用于存储一幅或多幅图像内核矩阵的选择 xff1a 核越大越模
halcon边缘检测

边缘检测 Ronny丶博客园寻找边缘的传统方法 xff0c 即图像中的暗光转换 xff0c 是应用边缘滤波器这些滤光器可以在光和暗区域的边界找到像素从数学术语中来说 xff0c 这意味着这些滤波器决定了图像的梯度此图像渐变通常作
ZED双目摄像头

ZED stereol abs 配置踩过的坑现在种树也不晚博客园介绍 xff1a CUDA CUDA 是 ZED SDK 使用的 NVIDIA 库 xff0c 用于在显卡上运行快速 AI 和计算机视觉任务在 ZED SDK 安装过程
linux---五种高级IO模型

阻塞IO模型非阻塞IO模型信号驱动IO模型异步IO模型多路转接IO模型高级IO重要概念阻塞IO模型在内核将数据准备好 xff0c 系统调用会一直等待 xff0c 所有的套接字默认都是阻塞IO方式阻塞IO是最常见的IO模型非阻塞IO模
Ubuntu错误处理集

1 W GPG 错误 xff1a https developer download nvidia com compute cuda repos ubuntu1604 x86 64 Release 由于没有公钥 xff0c 无法验证下列签名
Linux下配置虚拟CAN

1 加载vcan模块 sudo modprobe vcan 2 添加vcan0网卡 sudo ip link add dev vcan0 type vcan 3 查看当前CAN网络 ifconfig a 4 开启vcan0 sudo ip
ROS基础

一 ROS的核心概念节点 xff1a 节点管理器 xff1a 话题 xff1a 消息 xff1a 服务 xff1a 参数 xff1a 二命令行工具的使用命令行工具都是以ros开头的常用命令 rostopicrosserviceros
Linux下编译Opencv和contrib

1 安装准备 1 1 安装依赖项 sudo apt get install cmake sudo apt get install build essential libgtk2 0 dev libavcodec dev libavforma
YOLOv5和YOLOv7环境(GPU)搭建测试成功

本来是用doc写的 xff0c 直接复制到这里很多图片加载缓慢 xff0c 我直接把doc上传到资源里面了 xff0c 0积分下载 xff1a 10条消息 YOLOv5和YOLOv7开发环境搭建和demo运行 Python文档类资源 CSD
单片机通信总述——理论部分(CAN、串口、SPI、I2C等)

一基础概念 1 1 通信方法并行通信 xff1a 传输原理 xff1a 数据各个位同时传输 xff1b 优点 xff1a 速度快 xff1b 缺点 xff1a 占用引脚资源多是指使用 8 16 32 及 64 根或更多的数据线有多少
Ubuntu系统搭建

一创建环境常见问题 1 1 windows11下打开虚拟机蓝屏问题参考这篇文章 xff0c 控制面板 xff0c 启用和关闭windows功能 xff08 对话框 xff09 113条消息 VMware安装Ubuntu开启蓝屏解决方案
J-Link工具查看单片机内存等信息

1 打开下图应用 2 输入 connect xff08 连接开发板 xff09 AC78013FDLA xff08 你的单片机型号 xff09 SWD xff08 仿真器接口 xff09 1000HZ xff08 接口速度 xff09 连接
Qt调用ffmpeg动态库和静态库及编译ffmpeg的方法

一编译二引入ffmpeg库文件 1 Qt工程下创建lib文件夹 xff0c lib文件夹下再创建ffmepg文件夹 2 将编译好的ffmpeg里面的include 和lib文件夹粘贴到如下文件夹下 xff08 3 xff09 在 pr
autoware花屏重影问题

autoware 安装花屏重影问题最近尝试下autoware来做建图 xff0c 无奈各类安装太过麻烦 xff0c 这里给几个小问题做下纪律 1 xff0c 安装过程 xff0c 走的官网那个 xff0c 事实证明官网教程最全面 xf

随机推荐

linux---select,poll,epoll的原理以及优缺点

多路转接IO xff08 也叫IO多路复用 xff09 是一种处理高并发的IO事件监控 xff0c 同时对大量的描述符进行时间监控 xff0c 监控是否具备IO条件就绪 xff1a 包括了读就绪事件 xff08 就是有数据到来的时候 xf
DTAM实现

DTAM实现这里是实现github上DTAM的一次记录 xff0c 主要是有些步骤的记录需要下载的源码 xff08 可以多试试几个 xff0c 按照实现可能性排序 xff09 xff1a https github com Teddybe
jetson镜像克隆到固态再扩容简单方法

jetson克隆方法很多 xff0c 我是自己把之前的sd镜像克隆做成img镜像了然后烧写后之前是64g的后续烧写都是64g的不能把新的储存设备占满这里有一个扩容和移植到固态的方法主要分三步 xff1a 镜像克隆和烧录到sd卡使用固态
Orb_slam3 ROS ，D435i使用,ubuntu编译小记

C 43 43 版本编译先官网下载代码 xff0c 并下载安装官网所述安装包 git clone https github com UZ SLAMLab ORB SLAM3 git ORB SLAM3 下载完编译c 43 43 版本 cd
d455双目相机联合IMU标定

感谢这两位博主的优秀文章 xff1a RealSense D455的标定并运行VINS FUSION Z Jin16的博客 CSDN博客 d455 标定 Realsense D435I标定小岛神酱的博客 CSDN博客 d435i参数主
gitee发布示例

简易的命令行入门教程 Git 全局设置 git config global user name 34 bnb 34 git config global user email 34 2207201665 64 qq com 34 创建 git
linux终端快捷指令创建

使用这个打开gedit bashrc xff0c 把下面的按照下面的格式书写 xff1a alias lt 想要的快捷键 gt 61 操作指令示例 xff1a alias sd 61 39 source devel setup sh 39
使用vscode做得基础配置自动保存格式化

vscode默认启用了根据文件类型自动设置tabsize的选项 34 editor detectIndentation 34 false 重新设定tabsize 34 editor tabSize 34 2 每次保存的时候自动格式化 34
OOQP 使用教程 c++

最近学习了一下OOQP的使用在这里记录一下在matlab代码中是quadprog xff0c 而这次使用OOQP也主要是为了计算二次规划问题安装OOQP 首先是安装问题 xff0c 不得不说 xff0c 当时安装也花了不少时间 xff0
物联网工程 | CAN（Controller Area Network）控制器局域网络答疑

文章目录概述一 CAN的物理设备二 CAN的物理传输三 CAN的多设备连接四 CAN编程概述本节以问答方式讲述CAN相关的一些疑点问题一 CAN的物理设备问 xff1a CAN需要什么样的物理设备支持才能算一个CAN网络系统 x
【无标题】

前言对于喜欢逛CSDN的人来说 xff0c 看别人的博客确实能够对自己有不小的提高 xff0c 有时候看到特别好的博客想转载下载 xff0c 但是不能一个字一个字的敲了 xff0c 这时候我们就想快速转载别人的博客 xff0c 把别人的博
VSCode中针对C语言的代码格式化配置

默认格式化工具打开设置 Ctrl 43 xff0c 选择用户配置 xff0c 找到文本编辑器 Default Formatter xff1a 安装了C C 43 43 插件后 xff0c 即可选择 xff1a C C 43 43 m
总结的常用的前端开发中的常见套路之购物车页面

1 商品的全选和全不选获取页面中全选框所在的input xff0c 绑定其变change事件获取全选框的状态遍历获取商品对应的CheckBox xff0c 设置其选中状态和全选的保持一致同时 xff0c 当全选框状态发生变化时 xff0c
restframework权限,认证,限流配置

认证Authentication DRF框架的默认全局认证方案如下 REST FRAMEWORK 61 39 DEFAULT AUTHENTICATION CLASSES 39 39 rest framework authenticatio
seek（）方法的使用

seek xff08 xff09 方法的使用 seek 方法用于移动文件读取指针到指定位置 file seek 方法标准格式是 xff1a file seek offset whence offset xff1a 开始的偏移量 xff0c
为什么QQ用的是UDP协议而不是TCP协议？

QQ既有UDP也有TCP xff01 不管UDP还是TCP xff0c 最终登陆成功之后 xff0c QQ都会有一个TCP连接来保持在线状态这个TCP连接的远程端口一般是80 xff0c 采用UDP方式登陆的时候 xff0c 端口是800
五分钟读懂TCP 协议——TCP协议简介

TCP 是互联网核心协议之一 xff0c 本文介绍它的基础知识一 TCP 协议的作用互联网由一整套协议构成 TCP 只是其中的一层 xff0c 有着自己的分工 xff08 图片说明 xff1a TCP 是以太网协议和 IP 协议的上层协
JSON模块基本使用

usr bin python3 coding utf 8 import json json loads 把json字符串转成 python 对象 json string 61 39 39 39 34 a 34 34 x 34 34 b 34
c语言中return的各种用法建议收藏

按初学的理解 xff0c return的任务就是返回对应的参数 xff0c 在外层函数中对这个参数做进一步处理实际上return的用法不只这些为调用的函数返回参数值此类应用最为普遍 xff0c 通常是在一个具有返回值的函数中 xff0
chatgpt的原理第一部分

前言这两天 xff0c ChatGPT模型真可谓称得上是狂拽酷炫D炸天的存在了一度登上了CSDN热搜 xff0c 这对科技类话题是非常难的存在不光是做人工智能机器学习的人关注 xff0c 而是大量的各行各业从业人员都来关注这个模型

chatgpt的原理 第一部分

chatgpt的原理 第一部分 的相关文章

随机推荐

热门标签

chatgpt的原理第一部分

chatgpt的原理第一部分的相关文章