奖励模型Reward Model如何训练？

2023-11-01

image.png

如上图所示，ChatGPT 并不是直接让人工去标注每一句话的真实得分是多少(尽管模型最终要预测的就是每句话的得分)，而是让人去对 4 句话按照好坏程度进行「排序」。

通过这个「排序序列」，模型将会学习如何为每一个句子进行打分，用「相对任务」替代「绝对任务」能够更方便标注员打出统一的标注结果。

Rank Loss

假定现在有一个排好的序列：A > B > C >D。

我们需要训练一个打分模型，模型给四句话打出来的分要满足 r(A) > r(B) > r(C) > r(D)。

那么，我们可以使用下面这个损失函数：

image.png

其中，yw 代表排序排在 yl 的所有句子。

用上述例子(A > B > C > D)来讲，loss 应该等于：

loss = r(A) - r(B) + r(A) - r(C) + r(A) - r(D) + r(B) - r(C) + ... + r(C) - r(D)
loss = -loss
为了更好的归一化差值，我们对每两项差值都过一个 sigmoid 函数将值拉到 0 ~ 1 之间。

可以看到，loss 的值等于排序列表中所有「排在前面项的reward」减去「排在后面项的reward」的和。

而我们希望模型能够「最大化」这个「好句子得分」和「坏句子得分」差值，而梯度下降是做的「最小化」操作。

因此，我们需要对 loss 取负数，就能实现「最大化差值」的效果了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

奖励模型Reward Model如何训练？的相关文章

css linear-gradient 设置背景颜色渐变

CSS3 渐变能够让背景颜色在两个或多个颜色之间平滑过渡基本语法 background linear gradient direction color stop1 color stop2 direction 是指渐变的方向 color s
迷宫问题寻宝（c++实现，求最短路径，显示路径）

定义一个二维数组 int maze n m 它表示一个迷宫其中的1表示道路不通 0表示可以走的路 3 表示宝藏只能横着走或竖着走不能斜着走要求编程序找出找到宝藏的最短路路径题目保证有解且只有一个最短路径且只能从迷宫边缘进入迷宫
tomcat中仅启动指定的项目，不启动其它项目

使用tomcat调试项目时若部署过多项目会导致启动时间很长这时指定自己想启动的项目就显得很有必要了具体方法如下一打开tomcat中的server xml配置文件在Host节点中添加或修改如下属性 deployXML false
QT系列第3节 QT中混合UI设计

QT开发过程中经常使用Qt designer设计器和代码方式结合来及进行ui设计本节将介绍这两种方式混合进行ui开发目录 1 工程添加图片资源 2 添加菜单 3 添加工具栏 4 简单文本编辑器实现 5 QT Creator常用快捷键
scrapy设置代理ip（精简版）

在middlewares py文件中添加下面的代码 import scrapy from scrapy import signals import random class ProxyMiddleware object def proce
爬取淘宝价格

爬取淘宝价格 from selenium import webdriver from lxml import etree from time import sleep 实例化一个浏览器对象 bro webdriver Chrome exec
[调用函数]

注梳理整理用来帮助自己学习如有错误请指出 1 编写一个函数该函数接受两个整数作为参数并返回它们的和在主函数中调用该函数并输出结果示例输入 5 7 示例输出 12 解题思路首先需要定义一个函数来实现两个整数的加法函数的返回
对于进程同步和异步的理解

多进程并发执行具有异步的特性进程异步就是指一个以上的进程在并发执行时具有的异步特型就比如说两个进程之间指令的执行顺序是不确定的具有很强的随机性举个例子现在有两个并发执行的进程 A 和 B 各自都有n条指令需要执行然而我的CPU
python后端学习（七）HTTP协议、实现WEB服务器

HTTP协议简介浏览器 gt 服务器发送的请求格式如下 GET HTTP 1 1 请求方式路径协议及版本 Host 127 0 0 1 8080 请求的地址 Connection keep alive 长连接 Accept text
RS485模块的介绍及引脚连线说明

RS485模块通讯 1 RS 485简介 2 SP3485芯片及应用 1 RS 485简介 RS 485采用平衡发送和差分接收因此具有抑制共模干扰的能力以下是某宝上RS485模块的截图应用特点传输数据速度快高达10Mbps 即10
【老生谈算法】matlab实现粒子滤波及实现

粒子滤波及matlab实现 1 文档下载本算法已经整理成文档如下有需要的朋友可以点击进行下载说明文档点击下载本算法文档老生谈算法 matlab实现粒子滤波及实现 doc 更多matlab算法原理及源码详解可点击下方文字直达 5
《Apache MINA 2.0 用户指南》第六章：传输

最近准备将Apache MINA 2 0 用户指南英文文档翻译给大家但是我偶然一次百度发现 Defonds 这位大牛已经翻译大部分文档原文链接 http mina apache org mina project userguide c
从单向链表中删除指定值的节点-牛客网

题目描述输入一个单向链表和一个节点的值从单向链表中删除等于该值的节点删除后如果链表中无节点则返回空指针链表结点定义如下 struct ListNode int m nKey ListNode m pNext 详细描述本题为考察链表
电脑知识【自用】

1 解决BIOS误删Windows Boot Manager 方法一通过Grub进行修复通过以下步骤解决重启电脑按F12进入BIOS SETUP 进入Boot Sequence 查看Windows Boot Manager是否丢失
Sftp实现文件的上传下载（com.jcraft.jsch依赖解决解决:Could not parse response code.Server Reply: SSH-2.0-OpenSSH_5.3）

依赖如下
给vcenter中的Esxi主机网络添加VLAN

1 使用vSphere Client连接到VMware ESXi Server 在配置网络中可以看到当前有两个虚拟交换机并且为该虚拟交换机分配了管理地址10 10 228 81 点击添加网络如图所示 2 添加配置向导在网络
圆检测学习笔记

目录边缘检测再检测圆霍夫圆检测转自深度OpenCV开发之精准找圆 GitHub zikai1 CircleDetection circle detection inscribed triangles image processin
Hive中自定义UDF，UDTF实例以及三种自定义函数的区别

Hive中有三种UDF 分类 1 用户定义函数 user defined function UDF 2 用户定义聚集函数 user defined aggregate function UDAF 3 用户定义表生成函数 user defin
Jpcap环境安装配置

1 Jpcap 下载地址链接地址不可用问度娘JpcapSetup 0 7 exe 然后下载 2 WinPcap 下载地址 http www winpcap org install default htm 3 Libpcap 下载地址 h
vue+axios+element+ui实现手机发送验证码及校验验证码功能

配合express拿到官网接口 1 首先布局使用element表单输入框标签上面相应的绑定了一些事件以及校验规则下面逻辑代码中有注释 div class wrap div

随机推荐

按钮控件之4---QToolButton 工具按钮控件

一设置和基本显示 QWidget w QToolButton pb1 new QToolButton w 设置文字 setText 设置图标 setIcon 改变图标大小 setIconSize 设置提示文本 setToolTip pb1
PyTorch分布式训练

PyTorch切分模型和数据两种方法 DataParallel是单进程多线程的只用于单机情况 DistributedDataParallel支持模型并行同时适用于单机和多机情况多进程每个进程都有独立的优化器执行自己的更新过程梯度
android listview 点击数据,关于获取listview中点击item的数据的问题

该楼层疑似违规已被系统折叠隐藏此楼查看此楼 listview setOnItemClickListener new AdapterView OnItemClickListener Override public void onItemCl
WebGPU(七)：C++头部封装

WebGPU 七 C 头部封装在前面的学习中我们使用的都是原生态的WebGPU API 那是基于C语言的API 但是为了更高效的开发我们可以使用一个基于C 的库根据参考的教程这个github库提供更加纤细的描述它提供了一个web
目标跟踪中 precision plot图与 success Plot图的具体含义及代码实现

文章目录 precision plot图 success plot图 precision plot图类似如下图其含义为跟踪算法估计的目标位置 bounding box 的中心点与人工标注 ground truth 的目标的中心点这两
1步搞定CSDN生成头部目录

在博客最上方输入 TOC 文章目录即可实现生成目录 TOC 文章目录效果图
【PAT (Basic Level) Practice】（天梯赛）1027 打印沙漏（20分）（递归法）

PAT Basic Level Practice 天梯赛 1027 打印沙漏 20分递归法题目题目链接 1027 打印沙漏 20 分本题要求你写个程序把给定的符号打印成沙漏的形状例如给定17个要求按下列格式打印所谓沙漏形状
【Windows 11】系统安装修改版 Subsystem for Android 安卓子系统,并用 Magisk Root

目录步骤 1 卸载已安装的Window Subsystem for Android 官方版本 2 启用 Hyper V 和虚拟机平台 3 查看 CPU 处理器是架构 4 下载修改版Windows Subsystem Android安卓子
禁止另存为,不允许看源码,禁止右键
以 Nodejs 为例谈谈如何向开源项目贡献

前一段时间因为兴趣阅读 Nodejs 的 EventEmitter 相关代码的时候发现了其中的一个 bug 所以修复后向 Nodejs 提了个 pr 同时也想以此次经历为例谈谈如何向开源项目贡献发现问题 Returns the numb
【JavaScript】你从未如此了解const、let与var

引言 ES2015 ES6 推出了许多闪亮的新功能而let和const却是其中非常亮眼的功能可用于变量声明那么它们与var有和不同呢内容速递看了本文您能了解到的知识在本文中我们将讨论var let和const的作用域用途和变
MFC/C++ CFile写入文件数据，输出utf-8的文本。(防止中文乱码)

需求说明有时候用CFile写入文件的内容会出现中文乱码问题这时候就需要把写入的文件编码类型改为utf 8的类型代码功能输出utf 8格式的内容到文件中作者 weekdawn try 创建mht文件并写入数据 mhtFile Op
第16课：生活中的备忘模式——好记性不如烂笔头

用程序来模拟生活从剧情中思考备忘模式备忘录模式备忘录模式的模型抽象类图代码框架模型说明实战应用应用场景故事剧情经过两三年的工作 Tony 学到的东西越来越多业务也越来越熟终于到了他该带领一个小组进行独立开发的时候了
21天Jenkins打卡Day16-清理工作空间

参考文章 http istester com jenkins 447 html
【Python】ftfy 包的理解和使用

一介绍 ftfy 是一个用于修复和清理 Unicode 文本的 Python 软件包它的全称是 fixes text for you 意思是它可以自动检测和纠正常见的 Unicode 文本问题 Unicode 是一种字符编码标准用于表
样式兼容性的问题。

这里的所属公司公司名有时候长有时候短要考虑长度问题高度要写活让他换行使用pading 去控制高度
如何快速实现Modbus RTU和Modbus TCP协议转换？

Modbus协议是工业现场串口设备之间常用的连接方式其中最常见的就是Modbus RTU和Modbus TCP两种许多工厂需要将现场各种不同型号设备的数据都能够通过一个上位机软件或者设备触摸屏整合起来监控管理目前上位机大部分用的Mod
element table表格滚动条

项目场景 table表头过长需要添加滚动条问题描述原因一般情况表头过长会自动出现滚动条但是在大型项目开发过程中有的情况会在总的母版文件中设置禁用滚动条所以当需要滚动条时找不到解决方案添加css样式 display blo
VS中写QT的软件如何输出安装包exe文件

1 选择Release 和对应的平台我这里是X64的 2 点击本地Windows调试器在项目文件当中找到release中找到自己的exe文件 3 复制exe文件到新的文件夹然后打开对应平台的命令行我这里是64位的所以要选VS 201
奖励模型Reward Model如何训练？

image png 如上图所示 ChatGPT 并不是直接让人工去标注每一句话的真实得分是多少尽管模型最终要预测的就是每句话的得分而是让人去对 4 句话按照好坏程度进行排序通过这个排序序列模型将会学习如何为每一个句子进行打分用

热门标签