RL Mathematics 2026-05-12 · 1 min read
RL 数学 Note 9:离线强化学习
Offline RL 的定义、分布偏移挑战、策略约束与保守方法。
完整讲义
本页链接到 CS 285 第 17 讲的完整交互式讲义(含幻灯片原图、KaTeX 公式与侧边栏导航)。讲义以独立页面形式呈现,可在新标签页中全屏阅读。
备用链接
END
Offline RL 的定义、分布偏移挑战、策略约束与保守方法。
本页链接到 CS 285 第 17 讲的完整交互式讲义(含幻灯片原图、KaTeX 公式与侧边栏导航)。讲义以独立页面形式呈现,可在新标签页中全屏阅读。