拆解大语言模型 RLHF 中的PPO算法

2023-12-16

为什么大多数介绍大语言模型 RLHF 的文章，一讲到 PPO 算法的细节就戛然而止了呢？要么直接略过，要么就只扔出一个 PPO 的链接。然而 LLM x PPO 跟传统的 PPO 还是有些不同的呀。

其实在 ChatGPT 推出后的相当一段时间内，我一直在等一篇能给我讲得明明白白的文章，但是一直未能如愿。我想大概是能写的人都没时间写吧。

前几个月，自己在工作中遇到要用到 PPO 的场景了。我心想，干脆自己啃算了。

于是我找到了 InstructGPT 引用的 OpenAI 自家的大语言模型 RLHF 论文《fine-tuning language models from human preferences》和《learning to summarize from human feedback》的源码，逐行阅读。然后用近似但不完全相同的风格复现了一遍。后来又和同事一起把自己的实现和微软的 DeepSpeed-Chat 的实现相互印证，才算是理解了。

既然已经有了一些经验，为何不将它分享出来呢？就当是抛砖引玉吧。万一写的不对，也欢迎大家一起交流讨论。

由于本文以大语言模型 RLHF 的 PPO 算法为主，所以希望你在阅读前先弄明白大语言模型 RLHF 的前两步，即 SFT Model 和 Reward Model 的训练过程。另外因为本文不是纯讲强化学习的文章，所以我在叙述的时候不会假设你已经非常了解强化学习了。只是如果完全没有了解过，你可能会觉得有些操作看上去没有那么显然。但只要你非常了解语言模型和深度学习，应该不会影响你把整个流程给捋顺。

接下来，我会把大语言模型 RLHF 中的 PPO 分成三部分逐一介绍。这三部分分别是采样、反馈和学习。

技术交流

建了技术交流群！想要进交流群、获取如下原版资料的同学，可以直接加微信号：dkl88194。加的时候备注一下：研究方向 +学校/公司+CSDN，即可。然后就可以拉你进群了。

方式①、添加微信号：dkl88194，备注：来自CSDN + 技术交流
方式②、微信搜索公众号：Python学习与数据挖掘，后台回复：加群

资料1
在这里插入图片描述

资料2
在这里插入图片描述

在开始之前，我先用一段伪代码把三部分的关系简要说明一下（先建立一个印象，看不懂也没关系，后面自然会看懂）：

policy_model = load_model()

for k in range(20000):
    # 采样（生成答案）
    prompts = sample_prompt()
    data = respond(policy_model, prompts)

    # 反馈（计算奖励）
    rewards = reward_func(reward_model, data)

    # 学习（更新参数）
    for epoch in range(4):
        policy_model = train(policy_model, prompts, data, rewards)

对于其中的每部分我都会用计算图来辅助描述，然后还会根据我的描述更新这段伪代码。

好了，让我们开始这趟旅程吧～

大语言模型的 RLHF，实际上是模型先试错再学习的过程。

我们扮演着老师的角色，给出有趣的问题，而模型则会像小学生一样，不断尝试给出答案。模型会对着黑板写下它的答案，有时候是正确的，有时候会有错误。我们会仔细检查每一个答案，如果它表现得好，就会给予它高声赞扬；如果它表现不佳，我们则会给予它耐心的指导和反馈，帮助它不断改进，直到达到令人满意的水平。

采样

采样就是学生回答问题的过程，是模型根据提示（prompt）输出回答（response）的过程，或者说是模型自行生产训练数据的过程。

例如：

PPO 在这一部分做了什么呢？

先明确一个概念——策略（policy），它就是 RLHF 中的“学生”。policy 由两个模型组成，一个叫做演员模型（Actor），另一个叫做评论家模型（Critic）。它们就像是学生大脑中的两种意识，一个负责决策，一个负责总结得失。

其中演员就是我们想要训练出来的大模型。在用 PPO 训练它之前，它就是 RLHF 的第一步训练出来的 SFT (Supervised Fine-Tuning) model。输入一段上下文，它将输出下一个 token 的概率分布 context 。评论家是强化学习的辅助模型，输入一段上下文，它将输出下一个 token 的“收益"。

什么是“收益”呢？简单来说就是从下一个 token 开始，模型能够获得的总奖励（浮点数标量）。这里说的奖励包括 Reward Model 给出的奖励。奖励是怎么给的，以及收益有什么用，这些内容我们后面会详细介绍。

▲ policy模型结构

从实现上说，评论家就是将演员模型的倒数第二层连接到一个新的全连接层上。除了这个全连接层之外，演员和评论家的参数都是共享的（如上图）。

上面提到的模型结构是较早期的版本，后续不共享参数的实现方式也有很多。

现在我们来看看 PPO 的采样过程中有哪些模型和变量。如下图，矩形表示模型，椭圆表示变量。

▲ 采样流程（转载须引用）

图中的“old_policy”矩形就是刚刚说的 policy（为啥有个“old”前缀呢？后面我会详细解释）。

采样指的是 old_policy 从 prompt 池中抽出 M 个 prompt 后，对每个 prompt 进行语言模型的 token 采样：

计算 response 的第 1 个 token 的概率分布，然后从概率分布中采样出第 1 个 token
根据第 1 个 token，计算 response 的第 2 个 token 的概率分布，然后从概率分布中采样出第 2 个 token
……
根据前 N-1 个 token，计算 response 的第 N 个 token 的概率分布，然后从概率分布中采样出第 N 个 token

▲ 语言模型的token采样

然后就得到了三个输出。假设对每个 prompt，policy 生成的 token 的个数为 N，那么这三个输出分别是：

response：M 个字符串，每个字符串包含 N 个 token
old_log_probs：演员输出的 M × N 的张量，包含了 response 中 token 的对数概率 log(p(token|context))
old_values：评论家输出的 M × N 的张量，包含了每次生成 token 时评论家预估的收益

得到这三个输出后，采样阶段就就结束了。这三个输出都是后续阶段重要的输入数据。

我们先将采样部分的伪代码更新一下：

# 采样
prompts = sample_prompt()
responses, old_log_probs, old_values = respond(policy_model, prompts)

就像是一场考试，学生已经完成了答题环节，他们在黑板上留下了答案。但这只是整个学习过程的一个环节，接下来是关键的反馈步骤。

反馈

反馈就是老师检查答案的过程，是奖励模型（Reward Model）给 response 打分的过程，或者说是奖励模型给训练数据 X 标上 Y 值的过程。

打出的分数衡量了 response 的正确性，它也可以被视为 prompt 和 response 的匹配程度。

例如：

Reward Model 可以被比作班级里成绩最好的学生，他能够辅助老师批改作业。就像老师先教会这个学生如何批改作业，之后这个学生就能独立完成作业批改一样，Reward Model 通过学习和训练，也能够独立地完成任务并给出正确的答案。

网上有很多资料介绍 Reward Model 的训练过程，这也不是本文的重点，我就不再赘述了。

PPO 拿训练好的 Reward Mode 做了什么呢？我们接着看图说话：

▲ 奖励流程（转载须引用）

从图中我们可以看出，左上角的绿色矩形 reward model 拿到 prompt 和 response，然后输出了分数 score。实际上发生的事情是，prompt 和 response 被拼接成一个字符串，接着被送入到 reward model 中，最后 reward model 计算出了匹配分数。

你也许发现了，在图中，score 并不是最终的奖励。它和最终的奖励 rewards 之间还隔着一个 reward function 函数。

这是因为 score 只能衡量结果的对错，不能衡量过程的合理性。怎么衡量过程的合理性呢？一种简单粗暴的方法是：循规蹈矩，即为合理。

当年爱因斯坦的相对论理论首次发表时，遭遇了许多质疑。后来，该理论被证明并得到了应有的认可。大家的目光可能都聚焦于爱因斯坦是如何坚定不移地坚持自己的理念并获得成功的。

然而，你有没有想过，那些反对和质疑其实也是必要的。

在相对论理论出现之前，已经有一个相对完整的物理系统。当时，一个年轻人突然出现挑战这个系统。在不知道他的路数的情况下，有必要基于现有的经验给予适当的质疑。因为并非每个人都是伟人啊。如果他的理论真的得到验证，那么就是给予肯定和荣誉的时候了。

语言模型也是一样，在我们给予最终奖励之前，最好也对它的“标新立异”给予少量的惩罚（即刚刚说的质疑）。

怎么做呢？我们给它立一个规矩，只要它按照这个规矩来，就能获得少量奖励。而这个规矩就是我们在 SFT 阶段已经训练好的语言模型 ref_policy（图中右下角的绿色矩形），或者说是完全还没经过强化学习训练的语言模型。

过程合理性奖励的计算方式是这样的。ref_policy 拿到 prompt，然后给 old_policy 生成的 response 的每个 token 计算对数概率，得到一个张量 ref_log_prob。现在假设 old_policy 的演员模型生成了第 i 个 token，此时它应该获得的奖励为：

来理解一下这个式子：

ref_log_prob[i] 越高，ref_policy 越认可 old_policy 的输出，说明 old_policy 更守规矩，因此应该获得更高的奖励；
old_log_prob[i] 越高，old_policy 获得的奖励反而更低。old_log_prob[i] 作为正则项，可以保证概率分布的多样性。

有了这两个直觉上的解释，我们说式 (1) 是比较合理的。顺便说一句，熟悉信息论的人也许注意到了，式 (1) 是 KL 散度的简化版本。实际上式 (1) 完全可以改成计算两个 token 的概率分布的 KL 散度。这是另一个话题，就不延伸了。

最终，我们将过程合理性奖励和结果正确性奖励合并起来，就得到了最终奖励的计算方式。

注意，我们只在最后一个 token 上应用结果正确性奖励（reward_model 的输出）。也就是说，第 i 个 token 的奖励的计算方式为：

式 (2) 就是图中“reward function”的计算内容。

通俗来说，整个 reward function 的计算逻辑是典型的霸总逻辑：除非你能拿到好的结果，否则你就得给我守规矩。

注意，我们只对 response 计算奖励。另外在整个反馈阶段，reward_model 和 ref_policy 是不更新参数的。

一旦给出 reward，就完成了反馈阶段。现在我们将反馈部分的伪代码更新一下：

# 采样
prompts = sample_prompt()
responses, old_log_probs, old_values = respond(policy_model, prompts)

# policy_model的副本，不更新参数
ref_policy_model = policy_model.copy()

# 反馈
scores = reward_model(prompts, responses)
ref_log_probs = analyze_responses(ref_policy_model, prompts, responses)
rewards = reward_func(reward_model, scores, old_log_probs, ref_log_probs)

这就像是老师在检查学生的答案并给出评价后，学生们就可以了解他们的表现如何，并从中学习和进步。然而，获得反馈并不是结束，而是新的开始。正如学生需要用这些反馈来进行复习和改进一样，模型也需要通过学习阶段来优化其性能和预测能力。

学习

“学习”就是学生根据反馈总结得失并自我改进的过程，或者说是强化优势动作的过程。

如果说前两步分别是在收集数据 X，以及给数据打上标签 Y。那么这一步就是在利用数据 (X, Y) 训练模型。

"强化优势动作"是 PPO 学习阶段的焦点。在深入探讨之前，我们首先要明确一个关键概念——优势。

此处，我们将优势定义为“实际获得的收益超出预期的程度”。

为了解释这个概念，请允许我举一个例子。假设一个高中生小明，他在高一时数学考试的平均分为 100 分，在此之后，大家对他的数学成绩的预期就是 100 分了。到了高二，他的数学平均分提升到了 130 分。在这个学期，小明的数学成绩显然是超出大家的预期的。

表现是可用分数量化的，故表现超出预期的程度也是可以用分数差来量化的。我们可以认为，在高二阶段，小明超出预期的程度为 30 分（130 - 100）。根据优势的定义我们可以说，在高二阶段，小明相对于预期获得了 30 分的优势。

在这个例子中，实际已经给出了 PPO 计算优势的方法：优势 = 实际收益 - 预期收益。

对于语言模型而言，生成第 i 个 token 的实际收益就是：从生成第 i 个 token 开始到生成第 N 个 token 为止，所能获得的所有奖励的总和。我们用 return 来表示实际收益，它的计算方式如下：

* 写给熟悉 RL 的人：简单起见，在这里我们 既不考虑贴现也不计算广义优势估计 GAE

预期收益又该如何计算呢? 记得我们在“采样”阶段提到过，policy 包含演员模型和评论家模型，其中后者是用来预估收益的。其实，当时说的收益 old_values 就是现在我们想要计算的预期收益。评论家会为 response 中的每个 token 计算一个预期收益，第个预期收益记为 values[i] (它预估的是刚才提到的 )。

现在，我们可以这样计算生成第 i 个 token 的优势 a（这里我们使用采样阶段计算出来的 old_values）：

好的，我们已经理解了优势的含义了。现在终于可以揭开这个关键主题的面纱——在 PPO 学习阶段，究竟什么是"强化优势动作"。

所谓“强化优势动作”，即强化那些展现出显著优势的动作。

在上面的小明的例子中，这意味着在高三阶段，小明应该持续使用高二的学习方法，因为在高二阶段，他的学习策略展示出了显著的优势。

在语言模型中，根据上下文生成一个 token 就是所谓的“动作”。"强化优势动作"表示：如果在上下文（context）中生成了某个 token，并且这个动作的优势很高，那么我们应该增加生成该 token 的概率，即增加 p(token|context) 的值。

由于 policy 中的演员模型建模了 p(token|context)，所以我们可以给演员模型设计一个损失函数，通过优化损失函数来实现“强化优势动作”：

其中：

当优势大于 0 时，概率越大，loss 越小；因此优化器会通过增大概率（即强化优势动作）来减小 loss
当优势小于 0 时，概率越小，loss 越小；因此优化器会通过减小概率（即弱化劣势动作）来减小 loss

这很像巴浦洛夫的狗不是吗？

▲ 巴浦洛夫的狗

另外还有两个点值得注意：

优势的绝对值越大，loss 的绝对值也就越大
优势是不接收梯度回传的

实际上，式 5 只是一个雏形。PPO 真正使用的演员的损失函数是这样的：

* 写给熟悉 RL 的人：简单起见，在这里我们 既不考虑损失的截断，也不考虑优势的白化 。

式子 6 相比式 5 子多了一个分母。在式子 6 里，表示的一个较老的版本。因为它不接收梯度回传，所以我们可以将当作常量，或者说，把它当成的学习率的一部分。我们来分析一下它的作用。以优势大于 0 的情况为例，对任意，当有较大的值的时候，的参数的学习率更小。

直观来说，当生成某个 token 的概率已经很大了的时候，即便这个动作的优势很大，也不要再使劲增大概率了。或者更通俗地说，就是步子不要迈得太大。

现在的问题就是，我们应该使用 p 的哪个老版本。还记得我们在本文开头时给出的伪代码吗（后来在介绍“采样”和“反馈”阶段时又各更新了一次），我们对着代码来解释：

policy_model = load_model()
ref_policy_model = policy_model.copy()

for k in range(20000):
    # 采样（已更新）
    prompts = sample_prompt()
    responses, old_log_probs, old_values = respond(policy_model, prompts)

    # 反馈（已更新）
    scores = reward_model(prompts, responses)
    ref_log_probs = analyze_responses(ref_policy_model, prompts, responses)
    rewards = reward_func(reward_model, scores, old_log_probs, ref_log_probs)

    # 学习
    for epoch in range(4):
        policy_model = train(policy_model, prompts, responses, old_log_probs, old_values, rewards)

简单来说，这段代码做的事情是：迭代 2 万次。在每次迭代中，通过采样和反馈得到一份数据，然后在学习阶段使用数据微调语言模型。每份数据我们都拿来训练 4 个 epoch。

那使用 2 万次迭代开始之前的演员模型的参数可以吗？不行，那个版本过于老了（实际上就是 SFT，我们已经在奖励阶段中的 ref_policy 中用过了）。不妨使用同一次迭代的还未进入学习阶段的演员模型吧。如果是这样的话，仔细一看，不就是采样阶段得到的 old_log_probs 吗？只是少了一个对数而已。

这就是为什么我们在采样阶段，对所有的模型和参数都使用“old”前缀，就是为了区分模型和变量的版本。

（补充：前面提到的 old_policy 指的是上面伪代码中采样出 old_log_probs 的那个时刻的 policy_model）

而对于我们可以使用实时的演员模型的参数计算出来，然后用 log_prob 来表示它。于是，我们可以将式子 6 改写成以下形式：

至此，我们完整地描述了 PPO 的学习阶段中“强化优势动作”的方法。就像下面的计算图展示的那样（policy 与前面的图中的 old_policy 不一样，是实时版本的模型）。

▲ 学习流程（转载须引用）

等等，似乎还没完。图中还有一个叫 critic_loss 的没提到过的东西。

当然了，负责决策的演员需要学习，难道总结得失的评论家就不需要学习了？评论家也是需要与时俱进的嘛，否则画评家难道不怕再次错过梵高那样的天才？

前面我们提到过，评论家会为 response 中的每个 token 计算一个预期收益，第个预期收益记为 values[i]，它预估的是。

既然如此，就设计一个损失函数来衡量评论家预期收益和真实收益之间的差距。

PPO 用的是均方差损失（MSE）：

* 写给熟悉 RL 的人：由于我们不考虑 GAE，所以 returns 的计算也做了相应的简化。

最终优化 policy 时用的 loss 是演员和评论家的 loss 的加权和：

这才算是真正完事儿了。现在我们将整个 PPO 的伪代码都更新一下：

policy_model = load_model()
ref_policy_model = policy_model.copy()

for k in range(20000):
    # 采样
    prompts = sample_prompt()
    responses, old_log_probs, old_values = respond(policy_model, prompts)

    # 反馈
    scores = reward_model(prompts, responses)
    ref_log_probs, _ = analyze_responses(ref_policy_model, prompts, responses)
    rewards = reward_func(reward_model, scores, old_log_probs, ref_log_probs)

    # 学习
    for epoch in range(4):
        log_probs, values = analyze_responses(policy_model, prompts, responses)
        advantages = advantage_func(rewards, old_values)
        actor_loss = actor_loss_func(advantages, old_log_probs, log_probs)
        critic_loss = critic_loss_func(rewards, values)
        loss = actor_loss + 0.1 * critic_loss
        train(loss, policy_model.parameters())

总结

到这里，大语言模型 RLHF 中 PPO 算法的完整细节就算介绍完了。掌握这些细节之后，我们可以做的有趣的事情就变多了。例如：

你可以照着伪代码从头到尾自己实现一遍，以加深理解。相信我，这是非常有趣且快乐的过程
你可以以此为契机，把强化学习知识系统性地学一遍。你会发现很多强化学习的概念一下变得具象化了
你可以在你的产品或者研究方向中思考 PPO 是否可以落地
你也许会发现 PPO 算法的不合理之处，那么就深入研究下去，直到做出自己的改进
你可以跟周围不熟悉 PPO 的小伙伴吹牛，顺便嘲讽对方**（大误）**

总之，希望我们都因为掌握了知识变得更加充实和快乐～

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

拆解大语言模型 RLHF 中的PPO算法的相关文章

矩阵基本操作3

题目描述问题描述定义一个N M N M lt 100 的矩阵将一个该矩阵的行和列的元素互换存到另一个二维数组中输入格式一行两个整数 N M 中间用空格隔开表示矩阵有N行 M列接下来共N行M列表示矩阵输出格式输出转置以后的
矩阵基本操作2

题目描述问题描述将方阵 n 行n列 n lt 100 置成下三角矩阵主对角线右上角数字全部清零输入格式第一行输入n 接下来的n行每行n列表示矩阵的数值用空格隔开输出格式 n行n列下三角矩阵每个数字3个占位符左对齐输入样
打造完美人像，PixCake像素蛋糕助您一键修图

您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰是否曾经想要打造出完美的自拍照却不知道该如何下手现在我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
多模态、长文本、智能体，智谱AI推出GLM-4模型全家桶，发布即上线！

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入 2024年01月16日智谱AI首届技术开放日 Zhipu DevDay 在北京中关村国家自主创新示范区展示中心成功举办现场智谱AI团队全面展示了其投身于大模型事业三年多来所
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
【卡尔曼滤波】具有梯度流的一类系统的扩散映射卡尔曼滤波器研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据文章
2024 人工智能与大数据专业毕业设计(论文)选题指导

目录前言毕设选题选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
手把手教你用 Stable Diffusion 写好提示词

Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好前面文章写了一篇文章一份保姆级的 Stable Diffusion
2023最新pytorch安装（超详细版）

前言一判断是否有Nvidia 英伟达显卡二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
【自适应滤波】一种接近最佳的自适应滤波器，用于突发系统变化研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
开始弃用NeRF？为什么Gaussian Splatting在自动驾驶场景如此受欢迎？（浙江大学最新）...

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述文章首先回顾了3D Gaussian的原理和应用借着全面比较了3D GS在静态
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
用栈实现队列（OJ中报错的处理）

用栈实现队列 ERROR AddressSanitizer myQueueFree函数中栈的释放处现了问题没有调用StackDestory而是直接free了这个是栈初始化时 capacity与malloc申请的空间大小没有匹配请你仅使
【GRNN-RBFNN-ILC算法】【轨迹跟踪】基于神经网络的迭代学习控制用于未知SISO非线性系统的轨迹跟踪（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 第1部分 2 2 第2部分
【GRNN-RBFNN-ILC算法】【轨迹跟踪】基于神经网络的迭代学习控制用于未知SISO非线性系统的轨迹跟踪（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 第1部分 2 2 第2部分
【GRNN-RBFNN-ILC算法】【轨迹跟踪】基于神经网络的迭代学习控制用于未知SISO非线性系统的轨迹跟踪（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 第1部分 2 2 第2部分
深度学习(5)--Keras实战

一 Keras基础概念 Keras是深度学习中的一个神经网络框架是一个高级神经网络API 用Python编写可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计用户友好性模块化和可扩
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来

随机推荐

十几个软件测试实战项目【外卖/医药/银行/电商/金融】

项目一 ShopNC商城项目概况 ShopNC商城是一个电子商务B2C电商平台系统功能强大安全便捷适合企业及个人快速构建个性化网上商城包含PC IOS客户端 Adroid客户端微商城系统PC 后台是基于ThinkPHP MVC
接口测试和功能测试的区别

接口测试和功能测试的区别本文主要分为两个部分第一部分主要从问题出发引入接口测试的相关内容并与前端测试进行简单对比总结两者之前的区别与联系但该部分只交代了怎么做和如何做并没有解释为什么要做第二部分主要介绍为什么要做接口测试
Jmeter执行接口自动化测试-如何初始化清空旧数据

需求分析每次执行完自动化测试我们不会执行删除接口把数据删除而需要留着手工测试此时会导致下次执行测试有旧数据我们手工可能也会新增数据导致下次执行自动化测试有旧数据下面介绍两种清空数据的方法一通过获取total数值进行清空 1
通过Jmeter压测存储过程

一存储过程准备 1 建立一个空表 1 CREATE TABLE test data id NUMBER name VARCHAR2 50 age NUMBER 2 建立一个存储过程 CREATE OR REPLACE PROCEDURE
15：00面试，15：06就出来了，问的问题有点变态。。。

从小厂出来没想到在另一家公司又寄了到这家公司开始上班加班是每天必不可少的看在钱给的比较多的份上就不太计较了没想到8月一纸通知所有人不准加班加班费不仅没有了薪资还要降40 这下搞的饭都吃不起了还在有个朋友内推我去了一家互联
自动化测试、压力测试、持续集成

因为项目的原因前段时间研究并使用了 SoapUI 测试工具进行自测开发的 api 下面将研究的成果展示给大家希望对需要的人有所帮助 SoapUI 是什么 SoapUI 是一个开源测试工具通过 soap http 来检查调用实现 W
Selenium4+python被单独定义＜div＞的动态输入框和二级下拉框要怎么定位?

今天在做练习题的时候发现几个问题捣鼓了好久写下这篇来记录问题一有层级的复选框无法定位到二级目录对于这种拥有二级框的选项无法定位也不是 lt select gt 属性我们查看下HTML 发现它是被单独封装在body内拥有动态属
Newman+Jenkins实现接口自动化测试

一是什么Newman Newman就是纽曼手机这个经典牌子哈哈开玩笑啦别当真简单地说Newman就是命令行版的Postman 查看官网地址 Newman可以使用Postman导出的collection文件直接在命令行运行把Pos
分享十几个适合新手练习的软件测试项目

说实话在找项目的过程中我下载过甚至付费下载过 N多个项目联系过很多项目的作者但是绝大部分项目在我看来并不适合你拿来练习它们或多或少都存在着问题比如大部分项目是web项目很难找到app项目特别是有app安装包的项目
python+requests接口自动化测试框架实例详解教程

1 首先我们先来理一下思路正常的接口测试流程是什么脑海里的反应是不是这样的确定测试接口的工具 gt 配置需要的接口参数 gt 进行测试 gt 检查测试结果有的需要数据库辅助 gt 生成测试报告 html报告那么我们就根据这样的
微服务测试是什么？

微服务测试是一种特殊的测试类型因为它涉及到多个独立的服务以下是进行微服务测试的一般性步骤 1 确定系统架构了解微服务架构对成功测试至关重要确定每个微服务的职责接口依赖项和通信方式了解这些信息可以帮助您更好地规划测试用例和测试
如何处理PHP开发中的单元测试和自动化测试？

如何处理PHP开发中的单元测试和自动化测试需要具体代码示例随着软件开发行业的日益发展单元测试和自动化测试成为了开发者们重视的环节 PHP作为一种广泛应用于Web开发的脚本语言单元测试和自动化测试同样也在PHP开发中扮演着重要的角色
【性能测试】Jenkins+Ant+Jmeter自动化框架的搭建思路

前言前面讲了Jmeter在性能测试中的应用及扩展随着测试的深入我们发现在性能测试中也会遇到不少的重复工作比如某新兴业务处于上升阶段需要在每个版本中对某些新增接口进行性能测试有时还需要在一天中的不同时段分别进行性能测试如果一味
【HttpRunner】接口自动化测试框架

简介 2018年python开发者大会上了解到HttpRuuner开源自动化测试框架采用YAML JSON格式管理用例能录制和转换生成用例功能充分做到用例与测试代码分离相比excel维护测试场景数据更加简洁在此利用业余时间研究
unittest与pytest的区别

Unittest vs Pytest 主要从用例编写规则用例的前置和后置参数化断言用例执行失败重运行和报告这几个方面比较unittest和pytest的区别用例编写规则用例前置与后置条件断言测试报告失败重跑机制参数化
小程序商城免费搭建之b2b2c o2o 多商家入驻商城直播带货商城电子商务b2b2c o2o 多商家入驻商城直播带货商城电子商务鸿鹄云商

1 涉及平台平台管理商家端 PC端手机端买家平台 H5 公众号小程序 APP端 IOS Android 微服务平台业务服务 2 核心架构 Spring Cloud Spring Boot Mybatis Redis 3 前端框架
云音乐大模型 Agent 探索实践

一前言本篇文章介绍了大语言模型时代下的 AI Agent 概念并以 LangChain 为例详细介绍了 AI Agent 背后的实现原理随后展开介绍云音乐在实践 AI Agent 过程中的遇到的问题及优化手段通过阅读本篇文章读者
让老板成为数据分析师，我用 ChatGpt 链接本地数据源实战测试

本文探究 ChatGpt 等AI机器人能否帮助老板快速的做数据分析用自然语言同老板进行沟通满足老板的所有数据分析的诉求一背景设想这样一个场景你是某贸易公司的老板公司所有的日常运转数据都在私域的进销存系统包括客户供应商销售
LangChain+通义千问+AnalyticDB向量引擎保姆级教程

本文以构建AIGC落地应用ChatBot和构建AI Agent为例从代码级别详细分享AI框架LangChain 阿里云通义大模型和AnalyticDB向量引擎的开发经验和最佳实践给大家快速落地AIGC应用提供参考前言通义模型具备的能
拆解大语言模型 RLHF 中的PPO算法

为什么大多数介绍大语言模型 RLHF 的文章一讲到 PPO 算法的细节就戛然而止了呢要么直接略过要么就只扔出一个 PPO 的链接然而 LLM x PPO 跟传统的 PPO 还是有些不同的呀其实在 ChatGPT 推出后的相当一段时

拆解大语言模型 RLHF 中的PPO算法

技术交流

采样

反馈

学习

总结

拆解大语言模型 RLHF 中的PPO算法 的相关文章

随机推荐

热门标签

拆解大语言模型 RLHF 中的PPO算法的相关文章