Chapter 11 · Demo 4 · 连续时序模型

Behrens / Nassar Volatile Learning Rate

环境 reward 概率突然改变时,人类临时提高学习率。Kalman 模型中 process noise 增大 → gain 增大。
核心公式:\(\alpha_t\approx K_t=\frac{P_t^-}{P_t^-+R}\)

Reward 概率、Belief 与 Learning Rate

观察提示

文献与案例意图

参考 Behrens et al. (2007) volatile learning、Nassar et al. (2010) changepoint detection、Piray & Daw (2024) flexible learning。案例说明最优学习率不是常数,而是对环境稳定性的推断结果。

  • BRML Ch25
  • PML2 Ch8 Gaussian filtering