#RL | Feixiang Tao

#RL

9 items

2026-05-12 RL 数学 Note 6：序列决策与大语言模型的强化学习 notes 2026-05-12 RL 数学 Note 7：基于模型的强化学习 notes 2026-05-12 RL 数学 Note 8：基于模型的强化学习算法 notes 2026-05-12 RL 数学 Note 9：离线强化学习 notes 2026-05-12 RL 数学 Note 10：离线强化学习算法 notes 2026-04-13 RL 数学 Note 4：随机近似、TD 与 Q-learning notes 2026-04-13 RL 数学 Note 5：策略梯度、Baseline 与 Off-Policy notes 2026-03-19 RL 数学 Note 1：值函数与贝尔曼期望方程 notes 2026-03-19 RL 数学 Note 2：贝尔曼最优方程、值迭代与策略迭代 notes