拆解大语言模型 RLHF 中的PPO算法

2023-12-16

为什么大多数介绍大语言模型 RLHF 的文章,一讲到 PPO 算法的细节就戛然而止了呢?要么直接略过,要么就只扔出一个 PPO 的链接。然而 LLM x PPO 跟传统的 PPO 还是有些不同的呀。

其实在 ChatGPT 推出后的相当一段时间内,我一直在等一篇能给我讲得明明白白的文章,但是一直未能如愿。我想大概是能写的人都没时间写吧。

前几个月,自己在工作中遇到要用到 PPO 的场景了。我心想,干脆自己啃算了。

于是我找到了 InstructGPT 引用的 OpenAI 自家的大语言模型 RLHF 论文《fine-tuning language models from human preferences》和《learning to summarize from human feedback》的源码,逐行阅读。然后用近似但不完全相同的风格复现了一遍。后来又和同事一起把自己的实现和微软的 DeepSpeed-Chat 的实现相互印证,才算是理解了。

既然已经有了一些经验,为何不将它分享出来呢?就当是抛砖引玉吧。万一写的不对,也欢迎大家一起交流讨论。

由于本文以大语言模型 RLHF 的 PPO 算法为主,所以希望你在阅读前先弄明白大语言模型 RLHF 的前两步,即 SFT Model Reward Model 的训练过程。另外因为本文不是纯讲强化学习的文章,所以我在叙述的时候不会假设你已经非常了解强化学习了。只是如果完全没有了解过,你可能会觉得有些操作看上去没有那么显然。但只要你非常了解语言模型和深度学习,应该不会影响你把整个流程给捋顺。

接下来,我会把大语言模型 RLHF 中的 PPO 分成三部分逐一介绍。这三部分分别是 采样 反馈 学习

技术交流

建了技术交流群!想要进交流群、获取如下原版资料的同学,可以直接加微信号:dkl88194。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。

方式①、添加微信号:dkl88194,备注:来自CSDN + 技术交流
方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:加群

资料1
在这里插入图片描述

资料2
在这里插入图片描述

在开始之前,我先用一段伪代码把三部分的关系简要说明一下(先建立一个印象,看不懂也没关系,后面自然会看懂):

policy_model = load_model()

for k in range(20000):
    # 采样(生成答案)
    prompts = sample_prompt()
    data = respond(policy_model, prompts)

    # 反馈(计算奖励)
    rewards = reward_func(reward_model, data)

    # 学习(更新参数)
    for epoch in range(4):
        policy_model = train(policy_model, prompts, data, rewards)

对于其中的每部分我都会用计算图来辅助描述,然后还会根据我的描述更新这段伪代码。

好了,让我们开始这趟旅程吧~

图片

大语言模型的 RLHF,实际上是模型先试错再学习的过程。

我们扮演着老师的角色,给出有趣的问题,而模型则会像小学生一样,不断尝试给出答案。模型会对着黑板写下它的答案,有时候是正确的,有时候会有错误。我们会仔细检查每一个答案,如果它表现得好,就会给予它高声赞扬;如果它表现不佳,我们则会给予它耐心的指导和反馈,帮助它不断改进,直到达到令人满意的水平。

采样

采样就是学生回答问题的过程,是模型根据提示(prompt)输出回答(response)的过程,或者说是模型自行生产训练数据的过程。

例如:

图片

PPO 在这一部分做了什么呢?

先明确一个概念——策略(policy),它就是 RLHF 中的“学生”。policy 由两个模型组成,一个叫做演员模型(Actor),另一个叫做评论家模型(Critic)。它们就像是学生大脑中的两种意识,一个负责决策,一个负责总结得失。

其中演员就是我们想要训练出来的大模型。在用 PPO 训练它之前,它就是 RLHF 的第一步训练出来的 SFT (Supervised Fine-Tuning) model。输入一段上下文,它将输出下一个 token 的概率分布 context 。评论家是强化学习的辅助模型,输入一段上下文,它将输出下一个 token 的“收益"。

什么是“收益”呢?简单来说就是从下一个 token 开始,模型能够获得的总奖励(浮点数标量)。这里说的奖励包括 Reward Model 给出的奖励。奖励是怎么给的,以及收益有什么用,这些内容我们后面会详细介绍。

图片

▲ policy模型结构

从实现上说,评论家就是将演员模型的倒数第二层连接到一个新的全连接层上。除了这个全连接层之外,演员和评论家的参数都是共享的(如上图)。

上面提到的模型结构是较早期的版本,后续不共享参数的实现方式也有很多。

现在我们来看看 PPO 的采样过程中有哪些模型和变量。如下图,矩形表示模型,椭圆表示变量。

图片

▲ 采样流程(转载须引用)

图中的“old_policy”矩形就是刚刚说的 policy(为啥有个“old”前缀呢?后面我会详细解释)。

采样指的是 old_policy 从 prompt 池中抽出 M 个 prompt 后,对每个 prompt 进行语言模型的 token 采样:

  • 计算 response 的第 1 个 token 的概率分布,然后从概率分布中采样出第 1 个 token

  • 根据第 1 个 token,计算 response 的第 2 个 token 的概率分布,然后从概率分布中采样出第 2 个 token

  • ……

  • 根据前 N-1 个 token,计算 response 的第 N 个 token 的概率分布,然后从概率分布中采样出第 N 个 token

图片

▲ 语言模型的token采样

然后就得到了三个输出。假设对每个 prompt,policy 生成的 token 的个数为 N,那么这三个输出分别是:

  • response:M 个字符串,每个字符串包含 N 个 token

  • old_log_probs:演员输出的 M × N 的张量,包含了 response 中 token 的对数概率 log(p(token|context))

  • old_values:评论家输出的 M × N 的张量,包含了每次生成 token 时评论家预估的收益

得到这三个输出后,采样阶段就就结束了。这三个输出都是后续阶段重要的输入数据。

我们先将采样部分的伪代码更新一下:

# 采样
prompts = sample_prompt()
responses, old_log_probs, old_values = respond(policy_model, prompts)

就像是一场考试,学生已经完成了答题环节,他们在黑板上留下了答案。但这只是整个学习过程的一个环节,接下来是关键的反馈步骤。

反馈

反馈就是老师检查答案的过程,是奖励模型(Reward Model)给 response 打分的过程,或者说是奖励模型给训练数据 X 标上 Y 值的过程。

打出的分数衡量了 response 的正确性,它也可以被视为 prompt 和 response 的匹配程度。

例如:

图片

Reward Model 可以被比作班级里成绩最好的学生,他能够辅助老师批改作业。就像老师先教会这个学生如何批改作业,之后这个学生就能独立完成作业批改一样,Reward Model 通过学习和训练,也能够独立地完成任务并给出正确的答案。

网上有很多资料介绍 Reward Model 的训练过程,这也不是本文的重点,我就不再赘述了。

PPO 拿训练好的 Reward Mode 做了什么呢?我们接着看图说话:

图片

▲ 奖励流程(转载须引用)

从图中我们可以看出,左上角的绿色矩形 reward model 拿到 prompt 和 response,然后输出了分数 score。实际上发生的事情是,prompt 和 response 被拼接成一个字符串,接着被送入到 reward model 中,最后 reward model 计算出了匹配分数。

你也许发现了,在图中,score 并不是最终的奖励。它和最终的奖励 rewards 之间还隔着一个 reward function 函数。

这是因为 score 只能衡量结果的对错,不能衡量过程的合理性。怎么衡量过程的合理性呢?一种简单粗暴的方法是:循规蹈矩,即为合理。

图片

当年爱因斯坦的相对论理论首次发表时,遭遇了许多质疑。后来,该理论被证明并得到了应有的认可。大家的目光可能都聚焦于爱因斯坦是如何坚定不移地坚持自己的理念并获得成功的。

然而,你有没有想过,那些反对和质疑其实也是必要的。

在相对论理论出现之前,已经有一个相对完整的物理系统。当时,一个年轻人突然出现挑战这个系统。在不知道他的路数的情况下,有必要基于现有的经验给予适当的质疑。因为并非每个人都是伟人啊。如果他的理论真的得到验证,那么就是给予肯定和荣誉的时候了。

语言模型也是一样,在我们给予最终奖励之前,最好也对它的“标新立异”给予少量的惩罚(即刚刚说的质疑)。

怎么做呢?我们给它立一个规矩,只要它按照这个规矩来,就能获得少量奖励。而这个规矩就是我们在 SFT 阶段已经训练好的语言模型 ref_policy(图中右下角的绿色矩形),或者说是完全还没经过强化学习训练的语言模型。

过程合理性奖励的计算方式是这样的。ref_policy 拿到 prompt,然后给 old_policy 生成的 response 的每个 token 计算对数概率,得到一个张量 ref_log_prob。现在假设 old_policy 的演员模型生成了第 i 个 token,此时它应该获得的奖励为:

图片

来理解一下这个式子:

  • ref_log_prob[i] 越高,ref_policy 越认可 old_policy 的输出,说明 old_policy 更守规矩,因此应该获得更高的奖励;

  • old_log_prob[i] 越高,old_policy 获得的奖励反而更低。old_log_prob[i] 作为正则项,可以保证概率分布的多样性。

有了这两个直觉上的解释,我们说式 (1) 是比较合理的。顺便说一句,熟悉信息论的人也许注意到了,式 (1) 是 KL 散度的简化版本。实际上式 (1) 完全可以改成计算两个 token 的概率分布的 KL 散度。这是另一个话题,就不延伸了。

最终,我们将过程合理性奖励和结果正确性奖励合并起来,就得到了最终奖励的计算方式。

注意,我们只在最后一个 token 上应用结果正确性奖励(reward_model 的输出)。也就是说,第 i 个 token 的奖励的计算方式为:

图片

式 (2) 就是图中“reward function”的计算内容。

通俗来说,整个 reward function 的计算逻辑是典型的霸总逻辑:除非你能拿到好的结果,否则你就得给我守规矩。

图片

注意,我们只对 response 计算奖励。另外在整个反馈阶段,reward_model 和 ref_policy 是不更新参数的。

一旦给出 reward,就完成了反馈阶段。现在我们将反馈部分的伪代码更新一下:

# 采样
prompts = sample_prompt()
responses, old_log_probs, old_values = respond(policy_model, prompts)

# policy_model的副本,不更新参数
ref_policy_model = policy_model.copy()

# 反馈
scores = reward_model(prompts, responses)
ref_log_probs = analyze_responses(ref_policy_model, prompts, responses)
rewards = reward_func(reward_model, scores, old_log_probs, ref_log_probs)

这就像是老师在检查学生的答案并给出评价后,学生们就可以了解他们的表现如何,并从中学习和进步。然而,获得反馈并不是结束,而是新的开始。正如学生需要用这些反馈来进行复习和改进一样,模型也需要通过学习阶段来优化其性能和预测能力。

学习

“学习”就是学生根据反馈总结得失并自我改进的过程,或者说是强化优势动作的过程。

如果说前两步分别是在收集数据 X,以及给数据打上标签 Y。那么这一步就是在利用数据 (X, Y) 训练模型。

"强化优势动作"是 PPO 学习阶段的焦点。在深入探讨之前,我们首先要明确一个关键概念——优势。

此处,我们将优势定义为“实际获得的收益超出预期的程度”。

为了解释这个概念,请允许我举一个例子。假设一个高中生小明,他在高一时数学考试的平均分为 100 分,在此之后,大家对他的数学成绩的预期就是 100 分了。到了高二,他的数学平均分提升到了 130 分。在这个学期,小明的数学成绩显然是超出大家的预期的。

表现是可用分数量化的,故表现超出预期的程度也是可以用分数差来量化的。我们可以认为,在高二阶段,小明超出预期的程度为 30 分(130 - 100)。根据优势的定义我们可以说,在高二阶段,小明相对于预期获得了 30 分的优势。

在这个例子中,实际已经给出了 PPO 计算优势的方法:优势 = 实际收益 - 预期收益。

对于语言模型而言,生成第 i 个 token 的实际收益就是:从生成第 i 个 token 开始到生成第 N 个 token 为止,所能获得的所有奖励的总和。我们用 return 来表示实际收益,它的计算方式如下:

图片

* 写给熟悉 RL 的人:简单起见,在这里我们 既不考虑贴现也不计算广义优势估计 GAE

预期收益又该如何计算呢? 记得我们在“采样”阶段提到过,policy 包含演员模型和评论家模型,其中后者是用来预估收益的。其实,当时说的收益 old_values 就是现在我们想要计算的预期收益。评论家会为 response 中的每个 token 计算一个预期收益,第 个预期收益记为 values[i] (它预估的是刚才提到的 )。

现在,我们可以这样计算生成第 i 个 token 的优势 a(这里我们使用采样阶段计算出来的 old_values):

图片

好的,我们已经理解了优势的含义了。现在终于可以揭开这个关键主题的面纱——在 PPO 学习阶段,究竟什么是"强化优势动作"。

所谓“强化优势动作”,即强化那些展现出显著优势的动作。

在上面的小明的例子中,这意味着在高三阶段,小明应该持续使用高二的学习方法,因为在高二阶段,他的学习策略展示出了显著的优势。

图片

在语言模型中,根据上下文生成一个 token 就是所谓的“动作”。"强化优势动作"表示:如果在上下文(context)中生成了某个 token,并且这个动作的优势很高,那么我们应该增加生成该 token 的概率,即增加 p(token|context) 的值。

由于 policy 中的演员模型建模了 p(token|context),所以我们可以给演员模型设计一个损失函数,通过优化损失函数来实现“强化优势动作”:

图片

其中:

  • 当优势大于 0 时,概率越大,loss 越小;因此优化器会通过增大概率(即强化优势动作)来减小 loss

  • 当优势小于 0 时,概率越小,loss 越小;因此优化器会通过减小概率(即弱化劣势动作)来减小 loss

这很像巴浦洛夫的狗不是吗?

图片

▲ 巴浦洛夫的狗

另外还有两个点值得注意:

  • 优势的绝对值越大,loss 的绝对值也就越大

  • 优势是不接收梯度回传的

实际上,式 5 只是一个雏形。PPO 真正使用的演员的损失函数是这样的:

图片

* 写给熟悉 RL 的人:简单起见,在这里我们 既不考虑损失的截断,也不考虑优势的白化

式子 6 相比式 5 子多了一个分母 。在式子 6 里, 表示 的一个较老的版本。因为它不接收梯度回传,所以我们可以将 当作常量,或者说,把它当成 的学习率的一部分。我们来分析一下它的作用。以优势大于 0 的情况为例,对任意 ,当 有较大的值的时候, 的参数的学习率更小。

直观来说,当生成某个 token 的概率已经很大了的时候,即便这个动作的优势很大,也不要再使劲增大概率了。或者更通俗地说,就是步子不要迈得太大。

现在的问题就是,我们应该使用 p 的哪个老版本。还记得我们在本文开头时给出的伪代码吗(后来在介绍“采样”和“反馈”阶段时又各更新了一次),我们对着代码来解释:

policy_model = load_model()
ref_policy_model = policy_model.copy()

for k in range(20000):
    # 采样(已更新)
    prompts = sample_prompt()
    responses, old_log_probs, old_values = respond(policy_model, prompts)

    # 反馈(已更新)
    scores = reward_model(prompts, responses)
    ref_log_probs = analyze_responses(ref_policy_model, prompts, responses)
    rewards = reward_func(reward_model, scores, old_log_probs, ref_log_probs)

    # 学习
    for epoch in range(4):
        policy_model = train(policy_model, prompts, responses, old_log_probs, old_values, rewards)

简单来说,这段代码做的事情是:迭代 2 万次。在每次迭代中,通过采样和反馈得到一份数据,然后在学习阶段使用数据微调语言模型。每份数据我们都拿来训练 4 个 epoch。

那 使用 2 万次迭代开始之前的演员模型的参数可以吗?不行,那个版本过于老了(实际上就是 SFT,我们已经在奖励阶段中的 ref_policy 中用过了)。不妨使用同一次迭代的还未进入学习阶段的演员模型吧。如果是这样的话,仔细一看, 不就是采样阶段得到的 old_log_probs 吗?只是少了一个对数而已。

这就是为什么我们在采样阶段,对所有的模型和参数都使用“old”前缀,就是为了区分模型和变量的版本。

(补充:前面提到的 old_policy 指的是上面伪代码中采样出 old_log_probs 的那个时刻的 policy_model)

而对于 我们可以使用实时的演员模型的参数计算出来,然后用 log_prob 来表示它。于是,我们可以将式子 6 改写成以下形式:

图片

至此,我们完整地描述了 PPO 的学习阶段中“强化优势动作”的方法。就像下面的计算图展示的那样(policy 与前面的图中的 old_policy 不一样,是实时版本的模型)。

图片

▲ 学习流程(转载须引用)

等等,似乎还没完。图中还有一个叫 critic_loss 的没提到过的东西。

当然了,负责决策的演员需要学习,难道总结得失的评论家就不需要学习了?评论家也是需要与时俱进的嘛,否则画评家难道不怕再次错过梵高那样的天才?

前面我们提到过,评论家会为 response 中的每个 token 计算一个预期收益,第 个预期收益记为 values[i],它预估的是 。

既然如此,就设计一个损失函数来衡量评论家预期收益和真实收益之间的差距。

PPO 用的是均方差损失(MSE):

图片

* 写给熟悉 RL 的人:由于我们不考虑 GAE,所以 returns 的计算也做了相应的简化。

最终优化 policy 时用的 loss 是演员和评论家的 loss 的加权和:

图片

这才算是真正完事儿了。现在我们将整个 PPO 的伪代码都更新一下:

policy_model = load_model()
ref_policy_model = policy_model.copy()

for k in range(20000):
    # 采样
    prompts = sample_prompt()
    responses, old_log_probs, old_values = respond(policy_model, prompts)

    # 反馈
    scores = reward_model(prompts, responses)
    ref_log_probs, _ = analyze_responses(ref_policy_model, prompts, responses)
    rewards = reward_func(reward_model, scores, old_log_probs, ref_log_probs)

    # 学习
    for epoch in range(4):
        log_probs, values = analyze_responses(policy_model, prompts, responses)
        advantages = advantage_func(rewards, old_values)
        actor_loss = actor_loss_func(advantages, old_log_probs, log_probs)
        critic_loss = critic_loss_func(rewards, values)
        loss = actor_loss + 0.1 * critic_loss
        train(loss, policy_model.parameters())

总结

到这里,大语言模型 RLHF 中 PPO 算法的完整细节就算介绍完了。掌握这些细节之后,我们可以做的有趣的事情就变多了。例如:

  • 你可以照着伪代码从头到尾自己实现一遍,以加深理解。相信我,这是非常有趣且快乐的过程

  • 你可以以此为契机,把强化学习知识系统性地学一遍。你会发现很多强化学习的概念一下变得具象化了

  • 你可以在你的产品或者研究方向中思考 PPO 是否可以落地

  • 你也许会发现 PPO 算法的不合理之处,那么就深入研究下去,直到做出自己的改进

  • 你可以跟周围不熟悉 PPO 的小伙伴吹牛,顺便嘲讽对方**(大误)**

总之,希望我们都因为掌握了知识变得更加充实和快乐~

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

拆解大语言模型 RLHF 中的PPO算法 的相关文章

随机推荐

  • 十几个软件测试实战项目【外卖/医药/银行/电商/金融】

    项目一 ShopNC商城 项目概况 ShopNC商城是一个电子商务B2C电商平台系统 功能强大 安全便捷 适合企业及个人快速构建个性化网上商城 包含PC IOS客户端 Adroid客户端 微商城 系统PC 后台是基于ThinkPHP MVC
  • 接口测试和功能测试的区别

    接口测试和功能测试的区别 本文主要分为两个部分 第一部分 主要从问题出发 引入接口测试的相关内容并与前端测试进行简单对比 总结两者之前的区别与联系 但该部分只交代了怎么做和如何做 并没有解释为什么要做 第二部分 主要介绍为什么要做接口测试
  • Jmeter执行接口自动化测试-如何初始化清空旧数据

    需求分析 每次执行完自动化测试 我们不会执行删除接口把数据删除 而需要留着手工测试 此时会导致下次执行测试有旧数据 我们手工可能也会新增数据 导致下次执行自动化测试有旧数据 下面介绍两种清空数据的方法 一 通过获取total数值进行清空 1
  • 通过Jmeter压测存储过程

    一 存储过程准备 1 建立一个空表 1 CREATE TABLE test data id NUMBER name VARCHAR2 50 age NUMBER 2 建立一个存储过程 CREATE OR REPLACE PROCEDURE
  • 15:00面试,15:06就出来了,问的问题有点变态。。。

    从小厂出来 没想到在另一家公司又寄了 到这家公司开始上班 加班是每天必不可少的 看在钱给的比较多的份上 就不太计较了 没想到8月一纸通知 所有人不准加班 加班费不仅没有了 薪资还要降40 这下搞的饭都吃不起了 还在有个朋友内推我去了一家互联
  • 自动化测试、压力测试、持续集成

    因为项目的原因 前段时间研究并使用了 SoapUI 测试工具进行自测开发的 api 下面将研究的成果展示给大家 希望对需要的人有所帮助 SoapUI 是什么 SoapUI 是一个开源测试工具 通过 soap http 来检查 调用 实现 W
  • Selenium4+python被单独定义<div>的动态输入框和二级下拉框要怎么定位?

    今天在做练习题的时候 发现几个问题捣鼓了好久 写下这篇来记录 问题一 有层级的复选框无法定位到二级目录 对于这种拥有二级框的选项无法定位 也不是 lt select gt 属性 我们查看下HTML 发现它是被单独封装在body内拥有 动态属
  • Newman+Jenkins实现接口自动化测试

    一 是什么Newman Newman就是纽曼手机这个经典牌子 哈哈 开玩笑啦 别当真 简单地说Newman就是命令行版的Postman 查看官网地址 Newman可以使用Postman导出的collection文件直接在命令行运行 把Pos
  • 分享十几个适合新手练习的软件测试项目

    说实话 在找项目的过程中 我下载过 甚至付费下载过 N多个项目 联系过很多项目的作者 但是绝大部分项目 在我看来 并不适合你拿来练习 它们或多或少都存在着 问题 比如 大部分项目是web项目 很难找到app项目 特别是有app安装包的项目
  • python+requests接口自动化测试框架实例详解教程

    1 首先 我们先来理一下思路 正常的接口测试流程是什么 脑海里的反应是不是这样的 确定测试接口的工具 gt 配置需要的接口参数 gt 进行测试 gt 检查测试结果 有的需要数据库辅助 gt 生成测试报告 html报告 那么 我们就根据这样的
  • 微服务测试是什么?

    微服务测试是一种特殊的 测试类型 因为它涉及到多个独立的服务 以下是进行微服务测试的一般性步骤 1 确定系统架构 了解微服务架构对成功测试至关重要 确定每个微服务的职责 接口 依赖项和通信方式 了解这些信息可以帮助您更好地规划测试用例和测试
  • 如何处理PHP开发中的单元测试和自动化测试?

    如何处理PHP开发中的单元测试和自动化测试 需要具体代码示例 随着软件开发行业的日益发展 单元测试和自动化测试成为了开发者们重视的环节 PHP作为一种广泛应用于Web开发的脚本语言 单元测试和自动化测试同样也在PHP开发中扮演着重要的角色
  • 【性能测试】Jenkins+Ant+Jmeter自动化框架的搭建思路

    前言 前面讲了Jmeter在性能测试中的应用及扩展 随着测试的深入 我们发现在性能测试中也会遇到不少的重复工作 比如某新兴业务处于上升阶段 需要在每个版本中 对某些新增接口进行性能测试 有时还需要在一天中的不同时段分别进行性能测试 如果一味
  • 【HttpRunner】接口自动化测试框架

    简介 2018年python开发者大会上 了解到HttpRuuner开源自动化测试框架 采用YAML JSON格式管理用例 能录制和转换生成用例功能 充分做到用例与测试代码分离 相比excel维护测试场景数据更加简洁 在此 利用业余时间研究
  • unittest与pytest的区别

    Unittest vs Pytest 主要从用例编写规则 用例的前置和后置 参数化 断言 用例执行 失败重运行和报告这几个方面比较unittest和pytest的区别 用例编写规则 用例前置与后置条件 断言 测试报告 失败重跑机制 参数化
  • 小程序商城免费搭建之b2b2c o2o 多商家入驻商城 直播带货商城 电子商务b2b2c o2o 多商家入驻商城 直播带货商城 电子商务 鸿鹄云商

    1 涉及平台 平台管理 商家端 PC端 手机端 买家平台 H5 公众号 小程序 APP端 IOS Android 微服务平台 业务服务 2 核心架构 Spring Cloud Spring Boot Mybatis Redis 3 前端框架
  • 云音乐大模型 Agent 探索实践

    一 前言 本篇文章介绍了大语言模型时代下的 AI Agent 概念 并以 LangChain 为例详细介绍了 AI Agent 背后的实现原理 随后展开介绍云音乐在实践 AI Agent 过程中的遇到的问题及优化手段 通过阅读本篇文章 读者
  • 让老板成为数据分析师,我用 ChatGpt 链接本地数据源实战测试

    本文探究 ChatGpt 等AI机器人能否帮助老板快速的做数据分析 用自然语言同老板进行沟通 满足老板的所有数据分析的诉求 一 背景 设想这样一个场景 你是某贸易公司的老板 公司所有的日常运转数据都在私域的进销存系统 包括客户 供应商 销售
  • LangChain+通义千问+AnalyticDB向量引擎保姆级教程

    本文以构建AIGC落地应用ChatBot和构建AI Agent为例 从代码级别详细分享AI框架LangChain 阿里云通义大模型和AnalyticDB向量引擎的开发经验和最佳实践 给大家快速落地AIGC应用提供参考 前言 通义模型具备的能
  • 拆解大语言模型 RLHF 中的PPO算法

    为什么大多数介绍大语言模型 RLHF 的文章 一讲到 PPO 算法的细节就戛然而止了呢 要么直接略过 要么就只扔出一个 PPO 的链接 然而 LLM x PPO 跟传统的 PPO 还是有些不同的呀 其实在 ChatGPT 推出后的相当一段时