RL Mathematics 2026-05-12 · 2 min read
RL 数学 Note 7:基于模型的强化学习
学习环境模拟器的可行性、分布偏移、信任区域、悲观主义与探索,以及贝叶斯与 Bootstrap 不确定性。
完整讲义
本页链接到 CS 285 第 15 讲的完整交互式讲义(含幻灯片原图、KaTeX 公式与侧边栏导航)。讲义以独立页面形式呈现,可在新标签页中全屏阅读。
备用链接
END
Series: RL Mathematics
- 1. RL 数学 Note 1:值函数与贝尔曼期望方程
- 2. RL 数学 Note 2:贝尔曼最优方程、值迭代与策略迭代
- 3. RL 数学 Note 4:随机近似、TD 与 Q-learning
- 4. RL 数学 Note 5:策略梯度、Baseline 与 Off-Policy
- 5. RL 数学 Note 6:序列决策与大语言模型的强化学习
- 6. RL 数学 Note 7:基于模型的强化学习
- 7. RL 数学 Note 8:基于模型的强化学习算法
- 8. RL 数学 Note 9:离线强化学习
- 9. RL 数学 Note 10:离线强化学习算法