从K-means到GMM
K-means 到 GMM:从距离最小化到概率模型与 EM 推导
目标:从 K-means 的几何距离出发,一步步推导到 高斯混合模型 GMM 与其 EM 算法,用详细数学公式串起:
距离 → 指数形式似然 → 高斯分布 → 混合模型 → 隐变量 → 联合分布与边缘化 → E 步后验 → M 步闭式解 → EM 单调性 → K-means 作为极限情形。
1. K-means:基于距离的硬聚类
1.1 模型设定
数据集:
簇中心(“原型”):
硬分配变量(隐含的 cluster assignment):
1.2 K-means 的目标函数
K-means 最小化簇内平方距离和:
算法交替迭代:
Assignment 步(类似 E 步):给定中心
,为每个样本选最近簇: Update 步(类似 M 步):给定分配
,更新中心为簇内样本均值:
K-means 此时仅是一个几何优化问题,尚无明确的概率结构。
2. 从“距离”到“概率”:指数形式与高斯分布
我们希望将“距离近 → 概率大”形式化为一个概率模型。
2.1 能量视角:距离作为“能量”
直觉假设:
点
越靠近中心 ,则“属于这一簇”的可能性越大。
构造一个未归一化的似然/密度:
- 非负;
- 距离大 ⇒ 指数衰减;
- 但尚未满足“积分为 1”。
2.2 归一化:1 维情形
先看 1 维:
归一化常数:
平移变量
利用高斯积分(经典结果):
因此:
令
2.3 D 维情形
在
归一化常数:
同样平移
于是:
令
即 协方差为
结论:
“距离平方的指数形式 + 归一化” ⇒ 高斯分布。
3. 从单高斯到高斯混合模型(GMM)
实际数据常呈多峰结构 ⇒ 用多个高斯叠加。
3.1 GMM 定义
设有
- 权重:
,满足 - 均值:
- 协方差矩阵:
,对称正定
则 GMM 的边缘分布为:
其中
且
3.2 生成过程(引出隐变量)
为刻画“样本来自哪个高斯成分”这一过程,引入隐变量
首先选簇(离散选择):
紧凑写法(one-hot):
说明:只有一个 $ k^
z_{nk^}=1 $,故: 选定成分后,从对应高斯采样:
紧凑写法:
3.3 联合分布
由链式法则:
3.4 边缘分布 :对隐变量求和
因为
即回到混合模型形式。
3.5 后验分布(责任度)
利用 Bayes 公式:
代入 GMM 参数:
4. GMM 的最大似然与 EM 算法
4.1 对数似然与隐变量
观测数据对数似然:
问题:log 内部带有求和
引入隐变量
EM 思想:用 $\mathbb{E}[z{nk}]
4.2 Q 函数定义
在第
因为
得到:
4.3 E 步:计算责任度
给定当前参数
4.4 M 步:最大化 Q 得到闭式更新
记
4.4.1 更新混合系数
取与
约束:
构造拉格朗日函数:
对
套用约束:
又因为对每个 n, ,所以:
于是:
4.4.2 更新均值
只取与
展开高斯 log:
其中
因此
对
故
令导数为 0:
展开:
所以:
4.4.3 更新协方差
再次从:
对
引用矩阵求导(对称矩阵)公式:
得到:
令导数为 0:
左、右乘
→
因此:
5. EM 单调性:为何每一步都不降低对数似然?
5.1 构造变分下界(ELBO)
对任意分布
用 Jensen 不等式:
定义:
其中
5.2 KL 分解:log-likelihood 与下界的关系
可以证明:
其中 KL 散度总是非负。
推导:
移项即得。
5.3 E 步:固定 ,最优的
当
我们希望最大化
等价于最小化 KL:
最小值为 0,当且仅当:
此时:
即:E 步把下界“拉到”当前 log-likelihood 上方,与之相切。
5.4 M 步:固定 ,更新
在 M 步,根据定义:
因此:
另一方面,对于新参数
综合两式:
因此:
即 EM 每一步迭代都不会降低对数似然。
5.5 Q 函数与 的关系
在 E 步选定
其中
因此,在 M 步最大化
也就是前面 M 步推导中使用的 Q 函数。
6. K-means 作为 GMM-EM 的极限情况
设 GMM 进行如下约束简化:
- 所有成分协方差相同且为球形:
- 权重均匀:
则责任度:
是“距离平方的 softmax”。
当
- 距离最小的簇对应的指数项远大于其它;
- softmax 退化为 argmin 的 one-hot 分配。
即:
此时:
- E 步 ⇒ 最近中心的硬分配(K-means Assignment);
- M 步:即 K-means 更新。
因此:
K-means = GMM-EM 在“协方差趋于 0、权重均匀”的极限下的 Hard EM 特例。
7. 总结
K-means:最小化簇内平方距离;
- 几何模型,无概率结构;
- 硬分配(0/1)。
从距离到高斯:
- 指数能量模型
; - 归一化 ⇒ 高斯分布。
- 指数能量模型
GMM:多个高斯的加权和;
- 引入 one-hot 隐变量
构造联合 ; - 边缘化 ⇒ 混合形式
; - 后验
⇒ 软责任度。
- 引入 one-hot 隐变量
EM 算法:
- E 步:计算
- M 步:最大化 Q,得闭式更新
。
EM 单调性:
- 构造变分下界
,利用 - E 步使 KL=0,下界等于当前 log-likelihood;
- M 步提升下界 ⇒ log-likelihood 不下降。
- 构造变分下界
K-means 与 GMM 的关系:
- GMM 是 K-means 的概率推广;
- K-means 是 GMM-EM 在球协方差相同且
的极限 Hard EM。

