RL 数学 Note 10:离线强化学习算法 | Feixiang Tao
RL Mathematics 2026-05-12 · 1 min read

RL 数学 Note 10:离线强化学习算法

AWR、AWAC、IQL、CQL 等离线 RL 算法,以及从离线到在线的迁移。

完整讲义

本页链接到 CS 285 第 18 讲的完整交互式讲义(含幻灯片原图、KaTeX 公式与侧边栏导航)。讲义以独立页面形式呈现,可在新标签页中全屏阅读。

备用链接

END

Comments