RL 数学 Note 9:离线强化学习 | Feixiang Tao
RL Mathematics 2026-05-12 · 1 min read

RL 数学 Note 9:离线强化学习

Offline RL 的定义、分布偏移挑战、策略约束与保守方法。

完整讲义

本页链接到 CS 285 第 17 讲的完整交互式讲义(含幻灯片原图、KaTeX 公式与侧边栏导航)。讲义以独立页面形式呈现,可在新标签页中全屏阅读。

备用链接

END

Comments