RL 数学 Note 8：基于模型的强化学习算法 | Feixiang Tao

RL Mathematics 2026-05-12 · 1 min read

RL 数学 Note 8：基于模型的强化学习算法

RL Mathematics CS285

开环与闭环规划、随机打靶与 CEM、Dyna、潜空间状态模型与 Actor-Critic + 模型。

完整讲义

本页链接到 CS 285 第 16 讲的完整交互式讲义（含幻灯片原图、KaTeX 公式与侧边栏导航）。讲义以独立页面形式呈现，可在新标签页中全屏阅读。

CS 285 Lec 16：Model-Based RL Algorithms

点击在新标签页打开完整讲义。

备用链接

在新标签页打开完整讲义

END

Series: RL Mathematics

1. RL 数学 Note 1：值函数与贝尔曼期望方程
2. RL 数学 Note 2：贝尔曼最优方程、值迭代与策略迭代
3. RL 数学 Note 4：随机近似、TD 与 Q-learning
4. RL 数学 Note 5：策略梯度、Baseline 与 Off-Policy
5. RL 数学 Note 6：序列决策与大语言模型的强化学习
6. RL 数学 Note 7：基于模型的强化学习
7. RL 数学 Note 8：基于模型的强化学习算法
8. RL 数学 Note 9：离线强化学习
9. RL 数学 Note 10：离线强化学习算法

Comments