从K-means到GMM

从K-means到GMM

K-means 到 GMM:从距离最小化到概率模型与 EM 推导

目标:从 K-means 的几何距离出发,一步步推导到 高斯混合模型 GMM 与其 EM 算法,用详细数学公式串起:
距离 → 指数形式似然 → 高斯分布 → 混合模型 → 隐变量 → 联合分布与边缘化 → E 步后验 → M 步闭式解 → EM 单调性 → K-means 作为极限情形。


1. K-means:基于距离的硬聚类

1.1 模型设定

数据集:

簇中心(“原型”):

硬分配变量(隐含的 cluster assignment):

1.2 K-means 的目标函数

K-means 最小化簇内平方距离和

算法交替迭代:

  • Assignment 步(类似 E 步):给定中心 ,为每个样本选最近簇:

  • Update 步(类似 M 步):给定分配 ,更新中心为簇内样本均值:

K-means 此时仅是一个几何优化问题,尚无明确的概率结构。


2. 从“距离”到“概率”:指数形式与高斯分布

我们希望将“距离近 → 概率大”形式化为一个概率模型。

2.1 能量视角:距离作为“能量”

直觉假设:

越靠近中心 ,则“属于这一簇”的可能性越大。

构造一个未归一化的似然/密度

  • 非负;
  • 距离大 ⇒ 指数衰减;
  • 但尚未满足“积分为 1”。

2.2 归一化:1 维情形

先看 1 维:

归一化常数:

平移变量

利用高斯积分(经典结果):

因此:

,得到标准 1 维高斯:

2.3 D 维情形

维空间中:

归一化常数:

同样平移

于是:

,得:

协方差为 的各向同性多元高斯分布

结论:
“距离平方的指数形式 + 归一化” ⇒ 高斯分布。


3. 从单高斯到高斯混合模型(GMM)

实际数据常呈多峰结构 ⇒ 用多个高斯叠加。

3.1 GMM 定义

设有 个高斯成分,每个成分参数为:

  • 权重:,满足
  • 均值:
  • 协方差矩阵:,对称正定

则 GMM 的边缘分布为:

其中

3.2 生成过程(引出隐变量)

为刻画“样本来自哪个高斯成分”这一过程,引入隐变量

  1. 首先选簇(离散选择):

    紧凑写法(one-hot):

    说明:只有一个 $ k^ 使 z_{nk^}=1 $,故:

  2. 选定成分后,从对应高斯采样:

    紧凑写法:

3.3 联合分布

由链式法则:

3.4 边缘分布 :对隐变量求和

因为 只能是 K 种 one-hot 取值 ,因此:

即回到混合模型形式。

3.5 后验分布(责任度)

利用 Bayes 公式:

代入 GMM 参数:

责任度(responsibility),表示“成分 k 对样本 的解释程度”,实现软聚类


4. GMM 的最大似然与 EM 算法

4.1 对数似然与隐变量

观测数据对数似然:

问题:log 内部带有求和 ,难以直接对 求导最大化。

引入隐变量 ,定义完全数据对数似然

EM 思想:用 $\mathbb{E}[z{nk}] z{nk} $。

4.2 Q 函数定义

在第 次迭代,已知参数 ,定义:

因为

得到:

4.3 E 步:计算责任度

给定当前参数

4.4 M 步:最大化 Q 得到闭式更新

4.4.1 更新混合系数

取与 有关部分:

约束:

构造拉格朗日函数:

求导:

套用约束:

又因为对每个 n, ,所以:

于是:

4.4.2 更新均值

只取与 有关的 Q 部分:

展开高斯 log:

其中 无关。

因此

求导:

令导数为 0:

展开:

所以:

4.4.3 更新协方差

再次从:

求导。

引用矩阵求导(对称矩阵)公式:

得到:

令导数为 0:

左、右乘

因此:


5. EM 单调性:为何每一步都不降低对数似然?

5.1 构造变分下界(ELBO)

对任意分布 ,有:

用 Jensen 不等式:

定义:

其中 为熵。

5.2 KL 分解:log-likelihood 与下界的关系

可以证明:

其中 KL 散度总是非负。

推导:

移项即得。

5.3 E 步:固定 ,最优的

固定, 是常数。

我们希望最大化
等价于最小化 KL:

最小值为 0,当且仅当:

此时:

即:E 步把下界“拉到”当前 log-likelihood 上方,与之相切。

5.4 M 步:固定 ,更新

在 M 步,根据定义:

因此:

另一方面,对于新参数 ,依然有分解:

综合两式:

因此:

EM 每一步迭代都不会降低对数似然

5.5 Q 函数与 的关系

在 E 步选定 后:

其中 无关。

因此,在 M 步最大化 等价于最大化:

也就是前面 M 步推导中使用的 Q 函数。


6. K-means 作为 GMM-EM 的极限情况

设 GMM 进行如下约束简化:

  1. 所有成分协方差相同且为球形:
  2. 权重均匀:

则责任度:

是“距离平方的 softmax”。

时:

  • 距离最小的簇对应的指数项远大于其它;
  • softmax 退化为 argmin 的 one-hot 分配。

即:

此时:

  • E 步 ⇒ 最近中心的硬分配(K-means Assignment);
  • M 步:即 K-means 更新。

因此:

K-means = GMM-EM 在“协方差趋于 0、权重均匀”的极限下的 Hard EM 特例。


7. 总结

  1. K-means:最小化簇内平方距离;

    • 几何模型,无概率结构;
    • 硬分配(0/1)。
  2. 从距离到高斯

    • 指数能量模型
    • 归一化 ⇒ 高斯分布。
  3. GMM:多个高斯的加权和;

    • 引入 one-hot 隐变量 构造联合
    • 边缘化 ⇒ 混合形式
    • 后验 ⇒ 软责任度。
  4. EM 算法

    • E 步:计算
    • M 步:最大化 Q,得闭式更新
  5. EM 单调性

    • 构造变分下界 ,利用
    • E 步使 KL=0,下界等于当前 log-likelihood;
    • M 步提升下界 ⇒ log-likelihood 不下降。
  6. K-means 与 GMM 的关系

    • GMM 是 K-means 的概率推广;
    • K-means 是 GMM-EM 在球协方差相同且 的极限 Hard EM。