RL 数学 Note 8:基于模型的强化学习算法 | Feixiang Tao
RL Mathematics 2026-05-12 · 1 min read

RL 数学 Note 8:基于模型的强化学习算法

开环与闭环规划、随机打靶与 CEM、Dyna、潜空间状态模型与 Actor-Critic + 模型。

完整讲义

本页链接到 CS 285 第 16 讲的完整交互式讲义(含幻灯片原图、KaTeX 公式与侧边栏导航)。讲义以独立页面形式呈现,可在新标签页中全屏阅读。

备用链接

END

Comments