#RL
9 items
2026-05-12 RL 数学 Note 6:序列决策与大语言模型的强化学习 notes 2026-05-12 RL 数学 Note 7:基于模型的强化学习 notes 2026-05-12 RL 数学 Note 8:基于模型的强化学习算法 notes 2026-05-12 RL 数学 Note 9:离线强化学习 notes 2026-05-12 RL 数学 Note 10:离线强化学习算法 notes 2026-04-13 RL 数学 Note 4:随机近似、TD 与 Q-learning notes 2026-04-13 RL 数学 Note 5:策略梯度、Baseline 与 Off-Policy notes 2026-03-19 RL 数学 Note 1:值函数与贝尔曼期望方程 notes 2026-03-19 RL 数学 Note 2:贝尔曼最优方程、值迭代与策略迭代 notes