RL 数学 Note 6：序列决策与大语言模型的强化学习 | Feixiang Tao

RL Mathematics 2026-05-12 · 2 min read

RL 数学 Note 6：序列决策与大语言模型的强化学习

RL Mathematics CS285

从 IRL 回顾出发，讲解 Transformer、LLM 预训练与后训练、RLHF、PPO、GRPO 与验证器。

完整讲义

本页链接到 CS 285 第 14 讲的完整交互式讲义（含幻灯片原图、KaTeX 公式与侧边栏导航）。讲义以独立页面形式呈现，可在新标签页中全屏阅读。

CS 285 Lec 14：序列决策与 LLM 强化学习

点击在新标签页打开完整讲义。

备用链接

在新标签页打开完整讲义

下载 PDF 讲义

END

Series: RL Mathematics

1. RL 数学 Note 1：值函数与贝尔曼期望方程
2. RL 数学 Note 2：贝尔曼最优方程、值迭代与策略迭代
3. RL 数学 Note 4：随机近似、TD 与 Q-learning
4. RL 数学 Note 5：策略梯度、Baseline 与 Off-Policy
5. RL 数学 Note 6：序列决策与大语言模型的强化学习
6. RL 数学 Note 7：基于模型的强化学习
7. RL 数学 Note 8：基于模型的强化学习算法
8. RL 数学 Note 9：离线强化学习
9. RL 数学 Note 10：离线强化学习算法

Comments