RL 数学 Note 6:序列决策与大语言模型的强化学习 | Feixiang Tao
RL Mathematics 2026-05-12 · 2 min read

RL 数学 Note 6:序列决策与大语言模型的强化学习

从 IRL 回顾出发,讲解 Transformer、LLM 预训练与后训练、RLHF、PPO、GRPO 与验证器。

完整讲义

本页链接到 CS 285 第 14 讲的完整交互式讲义(含幻灯片原图、KaTeX 公式与侧边栏导航)。讲义以独立页面形式呈现,可在新标签页中全屏阅读。

备用链接

END

Comments