生成式 AI 分析:大模型 + 大量数据的神奇效果

2023-05-16

前言

如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。


大模型的涌现能力 (Emergent Ability)

下图是模型性能(Loss for next token prediction)与「参数量」和「数据集大小」之间的关系,可以看出随着「参数量」和「数据集大小」不断变大,模型性能不断增强,仿佛不会遇到瓶颈。

在这里插入图片描述

下图展现了大模型的涌现能力,即语言模型的性能随着参数量增加并不是线性关系,而是突然跃升,即涌现。在未达到门槛之前,性能一直在随机的水平徘徊。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Calibration

在上面的实验图中,Calibration 指「模型置信度」与「真实概率」之间的关系,即满足「置信度高 -> 正确」、「置信度低 -> 可能错误」的模型,其 Calibration 指标越好。

因此 Calibration 实际上对应着「模型是否知道自己错了」这件事,如下图所示,不同参数量的模型对应不同的颜色,可以看到模型越大,其对自己是否出错的把握越大,即「模型置信度」与「真实概率」更为贴合。

在这里插入图片描述

Inverse Scaling Prize

一个比赛,奖金悬赏,寻找能让「模型越大,性能越差」的任务。

在这里插入图片描述
在这个比赛的任务中,许多之前的 “大模型” 随着参数量变大,其性能确实变差了,但当拿出更大的模型之后,其性能又好了起来,并产生了一段 U 型曲线。

在这里插入图片描述
这个比赛中的任务,一般都是「具体误导性的」,例如下述这个例子:

在这里插入图片描述
因此对于上述这种 U 型曲线,一种猜测是:这些任务里通常包含着一些误导任务,例如上述的 5 元,当模型还没有很大的时候,由于一知半解,就会接受被误导的方法,进而使其比随机效果还要差,但当其变得足够大时,就会得到真正的结果,类似于上述的计算期望值。

在这里插入图片描述

Switch Transformer

Switch Transformer 模型参数量为 1.6T(GPT-3 为 1750 亿,GPT-3.5 为 2000 亿),其使用了 Mixture-of-expert 的结构,即在模型推断(Inference)的时候,选取不同的 Module,进而加快推断速度。

在这里插入图片描述


大数据的重要性

足够大量的数据才能让模型学会「常识,即世界知识」,如下图所示,横坐标为数据量。
在这里插入图片描述
数据集准备过程:

  • 过滤有害内容(google 安全搜索)
  • 去除 HTML 标签
  • 用规则去除低品质数据
  • 去除重复数据
  • 过滤出测试集(例如 GPT-3 就未过滤出测试集)

在这里插入图片描述

「大模型」还是「大数据」

在固定的运算资源时,应该优先「大模型」还是「大数据」?看目前的趋势,模型大小越来越大,但训练数据量并没有明显变化。

在这里插入图片描述

根据下图(颜色代表固定的运算资源,横坐标为参数量,参数量越大,数据量越小),可以发现「大模型」和「大数据」需要取得平衡,只增加模型大小,不增加算力,只会让训练结果变得更差。

在这里插入图片描述

每个 U 型曲线取一个最低点,得到下图所示的算力与参数量(Parameters)和数据量(Tokens)之间的关系。

在这里插入图片描述
根据上述估计图,Google 重新估计了 Gopher(参数量为 280 Billion,数据量为 300 Billion) 对应的算力下,应该采取的参数量和数据量方案,于是训练得到了 Chinchilla(参数量为 63 Billon,数据量为 1.4 Trillion)。对比之后,发现 Chinchilla 大胜 Gopher。

在这里插入图片描述
根据上述结果,进一步给出了具体的「参数量」与「数据量」之间的关系:

在这里插入图片描述

最新的 LLaMA 也采用了这种「减少参数量,扩大数据量」的方案:

在这里插入图片描述


KNN LM

通常来说,语言模型在做一个分类问题,即输入为「清华大」,输出为各个候选词的概率,随后选出概率最高的词即可。

如下所示,Transformer 得到 Text 的 Embedding,随后通过线性层 + softmax 转换为分类问题。
在这里插入图片描述
与之对比,KNN LM 在得到 Repesentation 后,不仅训练了一个分类器,还将测试 Text 的 Repesentation 与训练数据得到的 Repesentation 进行距离计算,并根据距离得到下一个词的预测概率,再与原始分类器结合起来,得到最终结果。

在这里插入图片描述
另外,KNN LM 可以拿任意资料与测试 Text 的 Representation 计算距离,并不局限于训练数据。因此 KNN LM 这种机制可以使模型训练时更专注于一些难度更高的问题,对于一些仅需记忆的问题则可以通过这种方式解决。


参考资料

  • Hung-yi Lee:生成式 AI(一)
  • Scaling Laws for Neural Language Models
  • Emergent Abilities of Large Language Models
  • Inverse scaling can become U-shaped
  • Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
  • When Do You Need Billions of Words of Pretraining Data?
  • Scaling Language Models: Methods, Analysis & Insights from Training Gopher
  • Deduplicating Training Data Makes Language Models Better
  • Training Compute-Optimal Large Language Models
  • Scaling Instruction-Finetuned Language Models
  • Introduction of ChatGPT
  • Training language models to follow instructions with human feedback
  • Learning to summarize from human feedback
  • Ggeneralization Through Memorization: Nearest Neighbor Language Models
  • Language Is Not All You Need: Aligning Perception with Language Models
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

生成式 AI 分析:大模型 + 大量数据的神奇效果 的相关文章

随机推荐

  • 优质 CS 读博 (PhD) 经验贴汇总

    前言 如果你对这篇文章感兴趣 xff0c 可以点击 访客必读 指引页 一文囊括主页内所有高质量博客 xff0c 查看完整博客分类与对应链接 Advice for early stage Ph D students 读博的核心是在研究上取得进
  • 推荐系统中的协同过滤算法

    前言 如果你对这篇文章感兴趣 xff0c 可以点击 访客必读 指引页 一文囊括主页内所有高质量博客 xff0c 查看完整博客分类与对应链接 概述 协同过滤是一种推荐算法 xff0c 其通常建模为 m m m 个用户 xff0c n
  • 哈希函数的学习算法整理

    前言 如果你对这篇文章感兴趣 xff0c 可以点击 访客必读 指引页 一文囊括主页内所有高质量博客 xff0c 查看完整博客分类与对应链接 概述 哈希函数学习的两个步骤 xff1a 转为二进制编码 xff1a 可以先降维成实数 xff0c
  • O(1) 的离散概率分布采样方法 - Alias Method

    前言 如果你对这篇文章感兴趣 xff0c 可以点击 访客必读 指引页 一文囊括主页内所有高质量博客 xff0c 查看完整博客分类与对应链接 Alias Method 给定一个离散概率分布 p 61 0 3
  • 变分推断 (Variational Inference) 解析

    前言 如果你对这篇文章感兴趣 xff0c 可以点击 访客必读 指引页 一文囊括主页内所有高质量博客 xff0c 查看完整博客分类与对应链接 变分推断 在贝叶斯方法中 xff0c 针对含有隐变量的学习和推理 xff0c 通常有两类方式 xff
  • 通过ssh连接aws(亚马逊 云服务器 实例)

    一 Windows用户 windows可以使用PuTTY 和xshell xff0c 本文使用xshell xff08 1 xff09 第一步 xff1a 配置服务器信息 打开xshell xff0c 新建连接 xff0c 在菜单 连接 填
  • Spring报错解决一览

    Spring错误持续更新贴 问题一 springcloud OAuth2 0配置的时候报错 Method springSecurityFilterChain in org springframework security config an
  • k-Medoids 聚类系列算法:PAM, CLARA, CLARANS, Trimed, BanditPAM

    前言 如果你对这篇文章感兴趣 xff0c 可以点击 访客必读 指引页 一文囊括主页内所有高质量博客 xff0c 查看完整博客分类与对应链接 k k k Means 作为一种经典聚类算法 xff0c 相信大家都比较熟悉 xff0c 其将簇中所
  • 软聚类算法:模糊聚类 (Fuzzy Clustering)

    前言 如果你对这篇文章感兴趣 xff0c 可以点击 访客必读 指引页 一文囊括主页内所有高质量博客 xff0c 查看完整博客分类与对应链接 在介绍模糊聚类之前 xff0c 我们先简单地列举一下聚类算法的常见分类 xff1a 硬聚类 Hard
  • 层次聚类:BIRCH 聚类、Lance–Williams equation、BETULA 聚类

    前言 如果你对这篇文章感兴趣 xff0c 可以点击 访客必读 指引页 一文囊括主页内所有高质量博客 xff0c 查看完整博客分类与对应链接 BIRCH 聚类 BIRCH Balanced Iterative Reducing and Clu
  • 演化算法:乌鸦搜索算法 (Crow Search Algorithm)

    前言 如果你对这篇文章感兴趣 xff0c 可以点击 访客必读 指引页 一文囊括主页内所有高质量博客 xff0c 查看完整博客分类与对应链接 在机器学习中 xff0c 我们所要优化的问题很多时候难以求导 xff0c 因此通常会采用一些演化算法
  • 随机多臂赌博机 (Stochastic Multi-armed Bandits):置信上界算法 (Upper Confidence Bound)

    前言 如果你对这篇文章感兴趣 xff0c 可以点击 访客必读 指引页 一文囊括主页内所有高质量博客 xff0c 查看完整博客分类与对应链接 本篇文章介绍一种针对 Stochastic Multi armed Bandits MAB 问题的算
  • 二进制哈希码快速搜索:Multi-Index Hashing

    前言 如果你对这篇文章感兴趣 xff0c 可以点击 访客必读 指引页 一文囊括主页内所有高质量博客 xff0c 查看完整博客分类与对应链接 哈希方法通常包含两个部分 xff1a 编码 将元素通过 data dependent 或 data
  • 对比学习 (Contrastive Learning) 发展历程 - 综述

    前言 如果你对这篇文章感兴趣 xff0c 可以点击 访客必读 指引页 一文囊括主页内所有高质量博客 xff0c 查看完整博客分类与对应链接 本文为 对比学习论文综述 的笔记 xff0c 其中将对比学习分为了以下四个发展阶段 xff1a 百花
  • 研究的艺术 (The craft of research) 读书笔记

    前言 如果你对这篇文章感兴趣 xff0c 可以点击 访客必读 指引页 一文囊括主页内所有高质量博客 xff0c 查看完整博客分类与对应链接 对于研究者而言 xff0c 写作是一件很重要的事 xff0c 好的写作不仅能让更多人愿意读 xff0
  • 机器学习领域中各学派划分(符号主义、频率主义、贝叶斯主义、连接主义)

    前言 如果你对这篇文章感兴趣 xff0c 可以点击 访客必读 指引页 一文囊括主页内所有高质量博客 xff0c 查看完整博客分类与对应链接 在机器学习领域中 xff0c 算法数量可谓是数不胜数 xff0c 若只关注每个算法本身 xff0c
  • ChatGPT 各类 Prompt 整理

    前言 如果你对这篇文章感兴趣 xff0c 可以点击 访客必读 指引页 一文囊括主页内所有高质量博客 xff0c 查看完整博客分类与对应链接 文章写作 修正 论文修正 Proofread this lightly improving clar
  • 访问www.baidu.com完整过程

    根据域名 xff0c 操作系统查询本地记录 xff0c 如果 没有查到则去查询DNS服务器缓存 61 根DNS服务器 61 顶级域名服务器 61 权威域名服务器 61 浏览器渲染 xff1a DOM Tree 43 cssOM render
  • 生成式 AI 背后的共同框架:Stable Diffusion、DALL-E、Imagen

    前言 如果你对这篇文章感兴趣 xff0c 可以点击 访客必读 指引页 一文囊括主页内所有高质量博客 xff0c 查看完整博客分类与对应链接 框架 这些生成式 AI 的整体功能为 xff1a 输入 文字 xff0c 返回 图像 xff0c 即
  • 生成式 AI 分析:大模型 + 大量数据的神奇效果

    前言 如果你对这篇文章感兴趣 xff0c 可以点击 访客必读 指引页 一文囊括主页内所有高质量博客 xff0c 查看完整博客分类与对应链接 大模型的涌现能力 Emergent Ability 下图是模型性能 xff08 Loss for n