Long-form writing on research ideas, technical explorations, and reflections.
传统教材说 FP16 翻倍 Arithmetic Intensity 就能逃离 memory wall。我从电路级计算模型重新推导,发现 FP16 的 I_circuit 只有 FP32 的 0.44 倍,并在 RTX 5060 上实验验证。