Reward 概率、Belief 与 Learning Rate
观察提示
文献与案例意图
参考 Behrens et al. (2007) volatile learning、Nassar et al. (2010) changepoint detection、Piray & Daw (2024) flexible learning。案例说明最优学习率不是常数,而是对环境稳定性的推断结果。
- BRML Ch25
- PML2 Ch8 Gaussian filtering
参考 Behrens et al. (2007) volatile learning、Nassar et al. (2010) changepoint detection、Piray & Daw (2024) flexible learning。案例说明最优学习率不是常数,而是对环境稳定性的推断结果。