Demo 7-1：Rescorla-Wagner vs Bayesian Cue Learning

被试学习 cue 是否预测 reward。Rescorla-Wagner 用固定学习率更新，Bayesian learner 维护完整的 Beta 后验分布。两者如何在 trial-by-trial 更新上产生差异？

RW: \(V_{t+1} = V_t + \alpha(r_t - V_t)\) Bayesian: \(Beta(\alpha + k, \beta + n - k)\)

\[V_{t+1} = V_t + \alpha(r_t - V_t) \qquad \text{vs} \qquad p(\theta \mid D) = Beta(a + k, b + n - k)\]

参数控制

真实 reward 概率: 0.70

RW 学习率 \(\alpha\): 0.15

先验强度 \(a_0 + b_0\): 2

Trials

0.50

RW 值

0.50

Bayes 均值

—

Bayes SD

Trial-by-Trial 学习曲线

当前 Beta 后验分布

观察提示：Bayesian learner 的不确定性带（蓝色区域）随数据增加而收窄——它"知道自己越来越确定"。RW 没有不确定性表征。当先验强度增大时，Bayesian 更新变慢，需要更多数据克服先验。

文献与案例意图
学习可以看作参数推断；固定学习率和 Bayesian uncertainty 给出不同更新方式。参考：Rescorla & Wagner (1972); Dayan & Daw (2008); Kruschke (2008). 本 demo 说明 Chapter 7 "学习即推断"的核心观点。