论文理解

序列模型（4）—— Scaling Laws

本文介绍 LLM 训练过程中重要的 Scaling Laws 这是一个经验规律指出了固定训练成本总计算量FLOPs C C C 时如何调配模型规模参数量 N N

LLM专题 论文理解 LLM Sacaling Law

标题 Bootstrapped Transformer for Offline Reinforcement Learning 文章链接 Bootstrapped Transformer for Offline Reinforcement L

论文理解 Boot Offline RL 离线强化学习 TT

标题 Deep Reinforcement Learning from Human Preferences 文章链接 Deep Reinforcement Learning from Human Preferences blogpost L

论文理解 模仿学习 逆强化学习 论文分享 论文理解