Notes
Technical derivations and theoretical explorations in physics, mathematics, and computer science.
2026-03-19 RL 数学 Note 1:值函数与贝尔曼期望方程
#1 2026-03-19 RL 数学 Note 2:贝尔曼最优方程、值迭代与策略迭代
#2 2026-04-13 RL 数学 Note 4:随机近似、TD 与 Q-learning
#4 2026-04-13 RL 数学 Note 5:策略梯度、Baseline 与 Off-Policy
#5 2026-05-12 RL 数学 Note 6:序列决策与大语言模型的强化学习
#6 2026-05-12 RL 数学 Note 7:基于模型的强化学习
#7 2026-05-12 RL 数学 Note 8:基于模型的强化学习算法
#8 2026-05-12 RL 数学 Note 9:离线强化学习
#9 2026-05-12 RL 数学 Note 10:离线强化学习算法
#10