大模型Founation Model

2023-11-04

一、背景

自从chatgpt,gpt4以特别好的效果冲入人们的视野中,也使得AI产业发生了巨大变革,从17年以来的bert,将AI的各种领域都引入bert类的fine-tune方法,来解决单个领域单个任务的一一个预训练模型。在学术界和工业界都带来巨大变革,将AI从原来手工特征,cnn,rnn简单的特征提取升级到transformer统一结构的模型。

而本次chatgpt,gpt4以对话的形式,展示了其能力,对原有各个小领域,小数据微调的bert类模型都带了无法颠覆的冲击。将AI引入了10B-100B的大模型时代,带动了全球半导体,芯片,AI行业的大量需求。

本次大模型的应用基础论文,主要是一直以来任务无法微调的千亿参数大模型,可以通过lora方法进行微调达到很好的效果,大大降低了微调大模型的成本。

在这里插入图片描述

二、大模型介绍

虽然lora降低了对大模型微调的成本,但具体大模型的效果还是得看开源大模型的大公司预训练的效果好坏,预训练使用数据量和质量如何。

2.1 LLaMA

Large Language Model Meta AI

github地址: facebookresearch/llama

论文:LLaMA: Open and Efficient Foundation Language Models

参数量:(7B, 13B, 33B, and 65B parameters)

模型下载:目前可以在huggingface上直接下载,https://huggingface.co/decapoda-research

简介:使用较为科学的训练方式,在之前各种大模型型上取开源数据进行训练得到,性价比较高的大模型。


2.2 Chinchilla

论文: Training Compute-Optimal Large Language Models

参数量:70B

介绍:DeepMind 在开发了Gopher 后,探究成本与LLM效果关系,发现基本模型大小与使用标注数据(tokens 的数量)呈线性关系,通过小模型上开发了Chinchilla,以Gopher 1/4的参数量在效果上超过了 Gopher和GPT-3


2.3 PaLM

论文:PaLM: Scaling Language Modeling with Pathways

参数量:540B

介绍:google 之前提出的大模型,最近好像已经出了PaLM 2,应用在bard,以及google search 上了。传送门:PaLM 2


2.4 GPT-neo

code :EleutherAI/gpt-neo

介绍:使用 mesh-tensorflow 实现的类GPT-3模型。


2.5 T0PP

T Zero Plus Plus

code: bigscience-workshop/t-zero

论文:Multitask Prompted Training Enables Zero-Shot Task Generalization

介绍:使用t5结构的模型,在许多有监督数据,转换为提示任务学习类似指令微调的方法学习,得到性能提升的模型,超过GPT3的表现。


2.6 OPT

论文: Open Pre-trained Transformer Language Models

code:facebookresearch/metaseq

参数量:
在这里插入图片描述

介绍:Facebook,开发类gpt的模型,OPT-175B效果=GPT3,同时开发碳排放=1/7。


2.7 Gopher

Gopher:280B

from deepmind 2021

论文地址:Scaling Language Models: Methods, Analysis& Insights from Training Gopher


2.8 Bloom

论文:BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

参数量:176B

介绍:该模型主打多语言的LLM,在46种自然语言和13种编程语言进行训练,由BigScience组织开发,该组织旨在结合技术、法律、社会学等多学科知识来解决这些问题。该组织在两个不同时间尺度上关注两个主要的目标:设计一个长期的国际数据治理结构,该结构会优先考虑数据权利所有人,并为BigScience项目直接使用的数据提供具体建议。


2.9 GLM

参数量:130B

论文:GLM: General Language Model Pretraining with Autoregressive Blank Infilling

code :THUDM/GLM

介绍:清华团队从21年底到22年中旬持续开发的130B大模型,在中英文上都具有很高精度,超过GPT3,ernie-tianti等。


三、数据集介绍

3.1 指令微调

大模型用到的数据集可以参考指令微调的数据集,其中大部分开源数据集可以在LLaMa的论文中找到。

3.2 微调LLaMa

一般实现自己的gpt平替模型,可以用LLama在对话数据集进行微调。

四、Benchmark

4.1 WinoGrande

WinoGrande 是一个包含 44k 问题的大型数据集,其灵感来自最初的 WSC 设计,但进行了调整以提高数据集的规模和硬度。数据集构建的关键步骤包括

(1) 精心设计的众包程序

(2) 使用新颖的 AfLite 算法减少系统偏差,该算法将人类可检测的词关联概括为机器可检测的嵌入关联。

4.2 BigBench

Beyond the Imitation Game Benchmark (BIG-bench) 是一个协作基准,旨在探索大型语言模型并推断其未来的能力。 Big-bench 包括 200 多个任务。

https://opendatalab.com/BIG-bench

4.3 MMLU

MMLU(Massive Multitask Language Understanding)基准是由一系列学术科目中类似考试的问题组成。Chinchilla显著优于Gopher,平均准确率67.6%。Chinchilla甚至超越了2023年6月专家预测的63.4%准确率。

GLM在 MMLU 上略优于 GPT-3 175B(+0.9%)

4.4 LAMBADA

在单词预测数据集LAMBADA上,Chinchilla实现了77.4%的准确率,相比于Gopher的74.5%和MT-NLG 530B的76.6%。在RACE-h和RACE-m上,Chinchilla显著优于Gopher,在两个case上改善超过10%。

GLM(130B)在 LAMBADA 上优于 GPT-3 175B davinci(+4.0%)、OPT-175B(+5.5%)和 BLOOM-176B(+13.0%)

五、一些QA

4.1 为什么大模型都是decoder模型

为什么现在的LLM都是Decoder-only的架构?–苏剑林

​ 苏神主要通过性能分析了同参数量情况,decoder,较encoder-decoder模型效果好一些。

​ 我认为更多可能是通过GPT系列的实验,预测一下个词的预训练任务,更适合于超大型预料的预训练策略,相较于MLM等预训练任务,超大型预料可能后面预料会学不到更深层的语义,逻辑信息,MLM等任务相对较为简单,而类似span-mask,sentence-mask等任务针对模型,虽然任务难度上升了些,但对于模型调整需要进行适应,超大型模型需要的是广泛适应性,和可扩展性,综合各种预训练策略来看,基础的LM预训练策略更好,所以使用搭配的Decoder-only架构作为LLM的框架更为合适。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

大模型Founation Model 的相关文章

随机推荐

  • vue实现网页截图

    1 安装html2Canvas npm install html2canvas save 2 在需要的vue组件中引入 import html2canvas from html2canvas 3 编写一个截图按钮
  • 1分钟解决IntelliJ IDEA 控制台中文乱码,统一设置 utf-8,再也不会乱码了

    首发地址 https it1314 top article 776 IDEA 控制台中文乱码 4 种解决方案 图文教程 中文再也不会乱码了 IntelliJ IDEA 如果不进行相关设置 可能会导致控制台中文乱码 配置文件中文乱码等问题 非
  • Apache 开源项目分类列表

    分 类 项目名 说明 开发语言 服务器 共20 Apache HTTP Server 全球第一HTTP服务器 C C Tomcat Java的Web服务器 Java James 邮件服务器 Java SpamAssassin 反垃圾邮件 C
  • 音频格式_想入坑HIFI?你得先了解这些——音频格式篇

    闲暇时戴上耳机 任旋律静静流淌 无论是忧郁的琴曲 还是律动的电音 都能带给人独特的享受 喜爱听歌的你对音频格式了解多少呢 这些傻傻分不清楚的格式又该如何区分 为什么需要高音质音源 一套最基本的音频系统涵盖了四个部分 每一个部分都缺一不可 如
  • 网络编程8/15——TCP服务器模型(多进程并发、多线程并发),TCP和UDP的本地通信(域套接字)

    目录 多进程并发服务器 模型 代码 多线程并发服务器 模型 代码 TCP本地通信 服务器 客户端 UDP本地通信 服务器 客户端 多进程并发服务器 模型 void handler int sig 回收僵尸进程 回收成功则再回收一次 直到回收
  • 论述奇偶校验和海明码

    一 奇偶校验 奇偶校验码是奇校验码和偶校验码的统称 是一种检错码 用于检查二进制数据的位错 并且用1个比特位来标记校验结果 所以当我们的数据有n位时 要传输给接收端的数据有n 1位 采用奇校验时 若所要传输的数据 含有奇数个1 则校验位为0
  • LM 系列开关电源芯片

    LM3477 High Efficiency High Side N Channel Controller 312 2006 2 18 3 03 59 LM3477A High Efficiency High Side N Channel
  • 经典网络结构梳理:Mobilenet网络结构

    论文下载地址 https arxiv org abs 1704 04861 Caffe复现地址 https github com shicai MobileNet Caffe Mobilenet发布在2017年的CVPR Mobilenet
  • CURL命令

    生成一个ca证书 openssl pkcs12 in test p12 out test crt 使用证书访问 curl cert test p12 cert type P12 cacert test crt header content
  • unity进阶--xml的使用学习笔记

    文章目录 xml实例 解析方法一 解析方法二 xml path 创建xml文档 xml实例 解析方法一 解析方法二 xml path 创建xml文档
  • 利用 RDMA 技术加速 Ceph 存储解决方案

    利用 RDMA 技术加速 Ceph 存储解决方案 晓兵XB 云原生云 2023 04 29 20 37 发表于四川 首发链接 利用 RDMA 技术加速 Ceph 存储解决方案 在本文中 我们首先回顾了 Ceph 4K I O 工作负载中遇到
  • Linux内核:系统调用大全(持续更新中)

    系统调用 1 sys brk 1 sys brk 系统调用sys brk的函数原型 sys brk 是一个操作系统调用 用于更改进程的堆空间大小 sys brk 函数接收一个无符号长整型参数brk 表示要求的新的程序数据段 堆 结束地址 如
  • Kubernetes 之深入理解 DaemonSet

    文章目录 Daemon Pod 的 过人之处 Daemon Pod 的定义 如何保证每个 Node 只有一个被管理的 Pod 何为 Toleration DaemonSet 是一个非常简单的控制器 DaemonSet 的使用方法 Daemo
  • 博思得标签打印机驱动_博思得V6驱动

    博思得Postek V6标签打印机驱动是博思得Postek品牌旗下V6型号标签打印机使用的驱动程序 这款驱动程序可以为您解决标签打印机连接不上电脑的情况 并且可以为您解决两者之间的故障 使用更便捷 博思得Postek V6标签打印机驱动安装
  • Appium自动化框架从0到1之 Driver配置封装

    不管是调用模拟器 还是调用真机 都需要准备一些driver的参数 以便被调用 思想 我们把driver配置信息 封装到yaml文件 然后通过读取yaml文件的内容 调用其driver信息 为了更直观的看如何封装 我们直接上代码 caps y
  • shell单双引号嵌套+变量

    metadata annotations volume kubernetes io selected node TARGET NODE
  • 云计算中微服务是什么Java之命名、标示符、变量

    微服务架构是一种架构模式 它提倡将单一应用程序划分成一组小的服务 服务之间相互协调 互相配合 为用户提供最终价值 每个服务运行在其独立的进程中 服务和服务之间采用轻量级的通信机制相互沟通 每个服务都围绕着具体的业务进行构建 并且能够被独立的
  • 【笔试强训选择题】Day34.习题(错题)解析

    作者简介 大家好 我是未央 博客首页 未央 303 系列专栏 笔试强训选择题 每日一句 人的一生 可以有所作为的时机只有一次 那就是现在 文章目录 前言 一 Day34习题 错题 解析1 总结 前言 一 Day34习题 错题 解析 1 解析
  • 升级 Linux 系统中的 Python 版本

    升级 Linux 系统中的 Python 版本 Python 是一种非常流行的编程语言 广泛应用于各种领域 包括 Web 开发 数据分析等 而对于 Linux 系统来说 Python 更是一个必须的组件 在系统运行和管理中都扮演了重要的角色
  • 大模型Founation Model

    一 背景 自从chatgpt gpt4以特别好的效果冲入人们的视野中 也使得AI产业发生了巨大变革 从17年以来的bert 将AI的各种领域都引入bert类的fine tune方法 来解决单个领域单个任务的一一个预训练模型 在学术界和工业界