RL 数学 Note 7:基于模型的强化学习 | Feixiang Tao
RL Mathematics 2026-05-12 · 2 min read

RL 数学 Note 7:基于模型的强化学习

学习环境模拟器的可行性、分布偏移、信任区域、悲观主义与探索,以及贝叶斯与 Bootstrap 不确定性。

完整讲义

本页链接到 CS 285 第 15 讲的完整交互式讲义(含幻灯片原图、KaTeX 公式与侧边栏导航)。讲义以独立页面形式呈现,可在新标签页中全屏阅读。

备用链接

END

Comments