Demo 8-2：语音音素 GMM 类别学习

被试听到连续声学特征（如 VOT 和 F1），需要学习它们属于哪个音素类别。EM 在 E-step 计算 responsibility（每个点属于各 Gaussian 的概率），在 M-step 更新均值和协方差。

类别 1 (/b/) 类别 2 (/p/) 类别 3 (/d/)

\[r_{nk} = \frac{\pi_k \mathcal{N}(x_n \mid \mu_k, \Sigma_k)}{\sum_j \pi_j \mathcal{N}(x_n \mid \mu_j, \Sigma_j)}, \qquad \mu_k^{new} = \frac{\sum_n r_{nk} x_n}{\sum_n r_{nk}}\]

控制

每类样本数: 40

EM 迭代

—

Log-Likelihood

2D 声学特征散点 + Gaussian 椭圆

拖动大圆点可移动初始均值（重置 EM 后可见效果）

Log-Likelihood 收敛曲线

观察提示：点击 E-step 观察点的颜色如何从均匀混合变成清晰分类（每个点的颜色是 responsibility 加权混合）。M-step 后椭圆会移向 responsibility 加权中心。Log-likelihood 每步不下降。

文献与案例意图
EM 用软分类替代硬分类，让模型能在类别标签未知时学习类别中心。参考：Dempster, Laird & Rubin (1977); McLachlan & Peel (2000); Feldman et al. (2009).