Demo 8-2:语音音素 GMM 类别学习
被试听到连续声学特征(如 VOT 和 F1),需要学习它们属于哪个音素类别。EM 在 E-step 计算 responsibility(每个点属于各 Gaussian 的概率),在 M-step 更新均值和协方差。
类别 1 (/b/)
类别 2 (/p/)
类别 3 (/d/)
\[r_{nk} = \frac{\pi_k \mathcal{N}(x_n \mid \mu_k, \Sigma_k)}{\sum_j \pi_j \mathcal{N}(x_n \mid \mu_j, \Sigma_j)}, \qquad \mu_k^{new} = \frac{\sum_n r_{nk} x_n}{\sum_n r_{nk}}\]
控制
0
EM 迭代
—
Log-Likelihood
2D 声学特征散点 + Gaussian 椭圆
拖动大圆点可移动初始均值(重置 EM 后可见效果)
Log-Likelihood 收敛曲线
观察提示:点击 E-step 观察点的颜色如何从均匀混合变成清晰分类(每个点的颜色是 responsibility 加权混合)。M-step 后椭圆会移向 responsibility 加权中心。Log-likelihood 每步不下降。
文献与案例意图
EM 用软分类替代硬分类,让模型能在类别标签未知时学习类别中心。参考:Dempster, Laird & Rubin (1977); McLachlan & Peel (2000); Feldman et al. (2009).
EM 用软分类替代硬分类,让模型能在类别标签未知时学习类别中心。参考:Dempster, Laird & Rubin (1977); McLachlan & Peel (2000); Feldman et al. (2009).