RLHF,Reinforcement Learning from Human Feedback

2023-11-05

在过去的几年中,语言模型通过根据人类输入提示生成多样化且引人注目的文本显示出令人印象深刻的能力。然而,什么才是“好”文本本质上很难定义,因为它是主观的并且依赖于上下文。有许多应用程序,例如编写您需要创意的故事、应该真实的信息性文本片段,或者我们希望可执行的代码片段。

编写一个损失函数来捕获这些属性似乎很棘手,而且大多数语言模型仍然使用简单的下一个标记预测损失(例如交叉熵)进行训练。为了弥补损失本身的缺点,人们定义了旨在更好地捕捉人类偏好的指标,例如 BLEUROUGE。虽然比损失函数本身更适合衡量性能,但这些指标只是简单地将生成的文本与具有简单规则的引用进行比较,因此也有局限性。如果我们使用生成文本的人工反馈作为性能衡量标准,或者更进一步并使用该反馈作为损失来优化模型,那不是很好吗?这就是从人类反馈中强化学习(RLHF)的想法;使用强化学习的方法直接优化带有人类反馈的语言模型。 RLHF 使语言模型能够开始将在一般文本数据语料库上训练的模型与复杂人类价值观的模型对齐。

RLHF 最近的成功是在 ChatGPT 中的使用。鉴于 ChatGPT 令人印象深刻的能力,我们请它为我们解释 RLHF:

RLHF:让我们一步步来
从人类反馈中强化学习(也称为来自人类偏好的 RL)是一个具有挑战性的概念,因为它涉及多模型训练过程和不同的部署阶段。在这篇博文中,我们将把训练过程分解为三个核心步骤:

预训练语言模型(LM),
收集数据并训练奖励模型,以及
通过强化学习微调 LM
首先,我们将了解如何对语言模型进行预训练。

预训练语言模型
作为起点,RLHF 使用已经使用经典预训练目标进行预训练的语言模型(有关更多详细信息,请参阅此博客文章)。 OpenAI 在其第一个流行的 RLHF 模型 InstructGPT 中使用了较小版本的 GPT-3。 Anthropic 使用了 1000 万 520 亿个参数的 Transformer 模型为此任务进行了训练。 DeepMind 使用了他们的 2800 亿参数模型 Gopher。

这个初始模型也可以根据额外的文本或条件进行微调,但不一定需要。例如,OpenAI 对“更可取”的人工生成文本进行了微调,而 Anthropic 通过根据“有用、诚实和无害”的标准提取上下文线索的原始 LM,为 RLHF 生成了初始 LM。这些都是我所说的昂贵的增强数据的来源,但这不是理解 RLHF 所必需的技术。

一般来说,对于“哪种模型”最适合作为 RLHF 的起点,并没有明确的答案。这将是本博客的一个共同主题——RLHF 培训中选项的设计空间没有得到彻底探索。

接下来,使用语言模型,需要生成数据训练奖励模型,这就是将人类偏好集成到系统中的方式。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

RLHF,Reinforcement Learning from Human Feedback 的相关文章

随机推荐

  • php同时作为server端和client端(soapclient)的超时时间设置小结

    http blog sina com cn s blog 475429950101bt7x html 场景 A通过HTTP请求B 同时B通过soap请求C webservice 然后B得到C的返回内容后 再响应回A client A gt
  • Linux系统编程——线程

    Linux系统编程 线程 1 线程概述 与进程的区别及线程的优势 2 线程创建等待退出 3 线程共享内存空间的代码验证 4 线程同步之互斥量加锁解锁 5 互斥锁限制共享资源的访问 6 什么情况造成死锁 7 线程条件控制实现线程的同步 1 线
  • 【基于Arduino的蓝牙控制小车】3D+电路图+控制代码详解

    更好的阅读体验 目录 1 环境搭建 1 1 电路模拟环境 3D建模环境 1 2蓝牙小车控制代码环境 2 Arduino串口通信 2 1 Arduino串口 2 2 系统函数 2 3 串口函数 2 3 1 Serial begin 2 3 2
  • STM32 websocket,TCP和UDP的传输速率

    网络上经常有人提到websocket TCP和UDP 的差别 说的大都是协议之间的差别 没有提及它们的传输能力 为了设计高吞吐量的物联网微服务器 最近对websocket TCP UDP的传输能力做了测试 使用STM32F746 处理器 操
  • 建立自己的机械臂–编程

    现在 手臂已经组装好了 是时候将其提升到一个新的水平了 现在是释放野兽并完全控制整个机器人手臂的时候了 在这篇文章的结尾 您应该对如何对该机械臂进行编程以完成您想要的事情有一个想法 要了解我如何到达这里 请访问我以前的文章 该文章描述了组装
  • Library\PackageCache\com.unity Error (are you missing a using directive or an assembly reference?)

    Library PackageCache com unity cinemachine 2 2 7 Runtime Timeline CinemachineTrack cs 16 6 error CS0246 The type or name
  • PAT考试 一日游记

    今天下午去考了PAT 真的很懵逼 首先 编译器炸了 弄了一个小时多的编译器 早知道就先不点击开始了 然后就是遇到了头文件CB不能调试 主要是用了unorder map unorder set 习惯性写的头文件 开局先默写头文件 然后就这样
  • MFC菜单的使用

    1 创建弹出菜单 1 利用向导 创建一个基于单文档的应用程序 2 在资源视图中选中 menu 鼠标右键插入一新菜单IDR POPMENU 3 在IDR POPMENU菜单中添加 弹出菜单 选项 在 弹出菜单 下添加菜单命令 复制 粘贴 查找
  • getResourceAsStream方法及缓存问题

    缓存问题 getResourceAsStream会先到缓存中读取文件 若缓存中没有 才会到真正的路径下去读取文件 所以用getResourceAsStream方法获取配置文件时 获取的不是最新配置 可以使用以下方法代替 该方法直接读文件 所
  • 算法(63)-二叉树的递归-搜索二叉树-满二叉树-平衡二叉树-

    目录 1 二叉树 2 搜索二叉树 3 满二叉树 4 平衡二叉树 1 二叉树 先 中 后序遍历 先序 中 左 右 1 2 4 5 3 6 7 中序 左 中 右 4 2 5 1 6 3 7 后序 左 右 中 4 5 2 6 7 3 1 void
  • 【推荐算法】推荐系统的评估

    一 离线评估的主要方法 1 Holdout检验 Holdout检验是基础的离线评估方法 它将原始的样本集合随机划分为训练集和验证集两部分 比如70 训练集 30 测试集 但现在很多机器学习框架 深度学习框架中都增加了验证集 即将整个数据集分
  • python创建sqlite3 unicode error_在python2.7.3中使用sqlite3的Unicode

    我试图插入到一个表中 但似乎我打开的文件中有非ascii字符 这是我得到的错误 sqlite3 ProgrammingError You must not use 8 bit bytestrings unless you use a tex
  • IDEA捕获异常快捷键(try/catch……)

    捕获异常 这时候快捷键的时候就可以事半功倍 ctrl alt t
  • 每日10行代码125: 用python计算快乐8一等奖的中奖概率

    先简单介绍下快乐8一等奖的规则 投注人从80个数中选10个 开奖时会从80个数中开出20个 如果选择的10个数均在开出的20个数中 那么就是中一等奖 也叫选十中十 那么中一等奖的概率是多少呢 这其实是数学中的概率问题 解题方法 选求所有可能
  • Python算法:动态规划

    转载自伯乐在线 本节主要结合一些经典的动规问题介绍动态规划的备忘录法和迭代法这两种实现方式 并对这两种方式进行对比 大家都知道 动态规划算法一般都有下面两种实现方式 前者我称为递归版本 后者称为迭代版本 根据前面的知识可知 这两个版本是可以
  • moviepy基础_1:使用moviepy提取视频的音频及合成

    任务 提取 a mp4 的音频部分 然后把提取到的音频添加到 b mp4 里 程序实现 from moviepy editor import 读取2个视频文件 videoclip 1 VideoFileClip a mp4 videocli
  • Java实现棒球比赛(栈的利用)

    你现在是一场采特殊赛制棒球比赛的记录员 这场比赛由若干回合组成 过去几回合的得分可能会影响以后几回合的得分 比赛开始时 记录是空白的 你会得到一个记录操作的字符串列表 ops 其中 ops i 是你需要记录的第 i 项操作 ops 遵循下述
  • 保证Linux系统安全之分析和排查系统故障

    在处理Linux操作系统出现的各种故障时 故障的症状是最容易发现的 但导致故障的原因才是最终排除故障的关键 熟悉Linux操作系统中常见的日志文件 了解一般故障的分析与解决办法 将有助于管理员快速定位故障点 对症下药 及时解决各种系统问题
  • “战”在新高地,星沙加“数”前行

    文丨智能相对论 作者丨蒋思憬 创未来 11月25日上午 湖南省第十二次党代会在省人民会堂隆重开幕 会上提出 未来五年全省将加快推进数字产业化和产业数字化 打造数字经济新优势 加速推进数字化 已是势在必行 当今世界正进入数字经济快速发展的时期
  • RLHF,Reinforcement Learning from Human Feedback

    在过去的几年中 语言模型通过根据人类输入提示生成多样化且引人注目的文本显示出令人印象深刻的能力 然而 什么才是 好 文本本质上很难定义 因为它是主观的并且依赖于上下文 有许多应用程序 例如编写您需要创意的故事 应该真实的信息性文本片段 或者