PCA（主成分分析）相关内容。

0. PCA 解决的是什么问题？（Why PCA）

高维数据普遍存在：

维度相关性（correlation）高
噪声多，结构难以观察
后续模型（线性回归 / 分类）受冗余维度影响严重
需要降维以降低复杂度，提升可视化、计算效率、泛化性

目标：

找到一组新的正交方向，使
1）每个方向的”信息量”尽可能大，
2）方向之间互不相关，
3）用少量方向即可近似原数据。

这组方向就是 主成分（principal components）。

1. PCA 数据预处理

数据集：

$x_1,\dots,x_N \in \mathbb{R}^D$

中心化：

$\bar{x}=\frac{1}{N}\sum_{n=1}^N x_n,\quad x_n \leftarrow x_n - \bar{x}$

理由：

使方差 = 二阶矩：
协方差矩阵简化为
否则均值会使整个分析复杂化

定义数据矩阵：

$X = [x_1, x_2, \dots, x_N] \in \mathbb{R}^{D\times N}$

协方差矩阵（样本估计）：

$\boxed{ S = \frac{1}{N}XX^\top = \frac{1}{N}\sum_{n=1}^N x_n x_n^\top }$

协方差矩阵的性质：

是对称矩阵：
是半正定矩阵：对任意，有
的特征值都是非负实数
的特征向量两两正交

2. PCA 的核心数学目标

2.1 投影的定义

给定方向向量（列向量，），将样本投影到上：

$y_n = x_n^\top w \quad \text{（标量）}$

约定：本文统一采用的写法，即行向量乘列向量得标量。

2.2 为什么用方差衡量信息量？

直观理解：

如果所有点投影到同一位置（方差 = 0），则该方向无法区分数据
投影越分散（方差越大），该方向携带的信息越多

数学表述：方向的信息量 = 投影后的方差

$\mathrm{Var}(x^\top w) = \mathbb{E}[(x^\top w)^2] - (\mathbb{E}[x^\top w])^2$

由于数据已中心化，，故：

$\mathrm{Var}(x^\top w) = \mathbb{E}[(x^\top w)^2]$

2.3 投影方差的矩阵形式

$\mathrm{Var}(x^\top w) = \mathbb{E}[(x^\top w)^2] = \mathbb{E}[(x^\top w)(w^\top x)] = \mathbb{E}[w^\top x x^\top w]$

由于是常量，可以提出期望：

$= w^\top \mathbb{E}[x x^\top] w = w^\top S w$ $\boxed{\text{投影方差} = w^\top S w}$

这是 PCA 的核心公式，后面所有推导都等价于最大化它。

2.4 PCA 的优化问题

约束条件：为避免无限增大导致方差无限大，需要约束

于是 PCA 的优化问题是：

$\boxed{ \max_{\|w\|=1} \; w^\top S w }$

后续主成分需要加入正交约束（保持方向彼此正交）：

$w_i^\top w_j = 0,\quad i\neq j$

3. PCA 的”三大严格推导方式”

3.1 推导一：最大化投影方差（Rayleigh Quotient）

1) 一维主成分的详细推导

Step 1: 建立优化问题

我们希望找到一个单位向量，使得数据在该方向上的投影方差最大：

$\max_{w} \; w^\top S w \quad \text{s.t.} \quad w^\top w = 1$

Step 2: 构造拉格朗日函数

引入拉格朗日乘子处理约束：

$\mathcal{L}(w,\lambda) = w^\top S w - \lambda(w^\top w - 1)$

Step 3: 求导并设为零

对求导，需要用到矩阵求导公式：

（因为对称）

因此：

$\nabla_w \mathcal{L} = 2Sw - 2\lambda w = 0$

化简得：

$\boxed{Sw = \lambda w}$

这正是特征值问题！ 必须是的特征向量，是对应的特征值。

Step 4: 确定哪个特征向量是最优解

将代入目标函数：

$w^\top S w = w^\top (\lambda w) = \lambda w^\top w = \lambda \cdot 1 = \lambda$

因此，投影方差 = 特征值 。

为了最大化方差，应选择最大特征值 对应的特征向量：

$\boxed{w_1 = \arg\max_{\|w\|=1} w^\top S w = u_1 \quad (\text{最大特征值对应的特征向量})}$

Step 5: Rayleigh Quotient 的理解

定义 Rayleigh 商：

$R(w) = \frac{w^\top S w}{w^\top w}$

对于任意非零向量：

的最大值 = （最大特征值）
的最小值 = （最小特征值）
极值点恰好是对应的特征向量

直观理解：Rayleigh 商衡量的是向量在矩阵作用下的”放大程度”。

2) 第二主成分的推导

Step 1: 添加正交约束

第二主成分需要满足：

单位长度：
与第一主成分正交：

优化问题：

$\max_{w_2} \; w_2^\top S w_2 \quad \text{s.t.} \quad w_2^\top w_2 = 1, \; w_2^\top w_1 = 0$

Step 2: 拉格朗日函数

$\mathcal{L}(w_2, \lambda, \mu) = w_2^\top S w_2 - \lambda(w_2^\top w_2 - 1) - \mu(w_2^\top w_1)$

Step 3: 求导

$\nabla_{w_2} \mathcal{L} = 2Sw_2 - 2\lambda w_2 - \mu w_1 = 0$

Step 4: 利用正交性消除

左乘：

$w_1^\top (2Sw_2 - 2\lambda w_2 - \mu w_1) = 0$

由于对称且是特征向量：

得：，即。

Step 5: 回代得特征方程

$2Sw_2 - 2\lambda w_2 = 0 \quad \Rightarrow \quad Sw_2 = \lambda w_2$

也是的特征向量！由于需与正交，必须对应第二大特征值 。

3) K 维主成分的一般推导

矩阵形式的优化问题

寻找矩阵，满足正交约束：

$W^\top W = I_K$

目标函数（总方差）：

$\max_{W^\top W = I_K} \operatorname{Tr}(W^\top S W)$

为什么是迹？

$\operatorname{Tr}(W^\top S W) = \sum_{i=1}^K w_i^\top S w_i = \sum_{i=1}^K \text{(第 } i \text{ 主成分的方差)}$

利用特征分解求解

设的特征分解为：

$S = U \Lambda U^\top = \sum_{i=1}^D \lambda_i u_i u_i^\top$

其中是正交矩阵，，。

关键引理：对于任意满足的矩阵：

$\operatorname{Tr}(W^\top S W) \leq \sum_{i=1}^K \lambda_i$

等号成立当且仅当的列张成与相同的子空间。

证明思路：

令，其中满足（因为正交）。

$\operatorname{Tr}(W^\top S W) = \operatorname{Tr}(Q^\top U^\top U \Lambda U^\top U Q) = \operatorname{Tr}(Q^\top \Lambda Q)$

设，则：

$\operatorname{Tr}(Q^\top \Lambda Q) = \sum_{j=1}^K q_j^\top \Lambda q_j = \sum_{j=1}^K \sum_{i=1}^D \lambda_i q_{ij}^2$

由于 $Q^\top Q = IK $，有$ \sum{j=1}^K q_{ij}^2 \leq 1 $（每行的平方和$ \leq 1$）。

为最大化上式，应让大的 $\lambdai $对应的$ q{ij}^2 $尽量大，即选择$ Q $使得只有前$ K$ 行非零。

最终结论：

$\boxed{W^* = [u_1, u_2, \dots, u_K]}$

最优投影矩阵由前大特征值对应的特征向量组成。

3.2 推导二：最小化重建误差（Reconstruction View）

这一视角将 PCA 理解为一个最佳线性近似问题：用低维子空间来近似高维数据。

(1) 一维情形的详细推导

Step 1: 定义重建过程

给定单位方向，对数据点的处理：

投影：计算在方向的坐标（标量）
重建：

几何理解：是在通过原点、方向为的直线上的正交投影。

Step 2: 计算单个点的重建误差

$\|x_n - \hat{x}_n\|^2 = \|x_n - (x_n^\top w)w\|^2$

展开这个范数：

$\|x_n - (x_n^\top w)w\|^2 = (x_n - (x_n^\top w)w)^\top (x_n - (x_n^\top w)w)$ $= x_n^\top x_n - 2(x_n^\top w)(w^\top x_n) + (x_n^\top w)^2 (w^\top w)$ $= x_n^\top x_n - 2(x_n^\top w)^2 + (x_n^\top w)^2$ $= x_n^\top x_n - (x_n^\top w)^2$

Step 3: 计算平均重建误差

$J(w) = \frac{1}{N} \sum_{n=1}^N \|x_n - \hat{x}_n\|^2 = \frac{1}{N} \sum_{n=1}^N \left[ x_n^\top x_n - (x_n^\top w)^2 \right]$

分离为两部分：

$J(w) = \underbrace{\frac{1}{N} \sum_{n=1}^N x_n^\top x_n}_{C \text{ (常数)}} - \underbrace{\frac{1}{N} \sum_{n=1}^N (x_n^\top w)^2}_{w^\top S w}$

因此：

$\boxed{J(w) = C - w^\top S w}$

Step 4: 等价性

$\min_{\|w\|=1} J(w) = \min_{\|w\|=1} (C - w^\top S w) = C - \max_{\|w\|=1} w^\top S w$

最小化重建误差最大化投影方差！

直观理解：

总能量 = 保留的能量 + 丢失的能量
保留越多（大）丢失越少（小）

(2) K 维情形的详细推导

Step 1: 定义 K 维投影空间

设，满足。

的列张成一个维子空间。

Step 2: 投影矩阵

投影到张成的子空间的投影矩阵为：

$P = W W^\top \in \mathbb{R}^{D \times D}$

投影矩阵的性质：

（幂等性）
（对称性）

Step 3: 重建过程

$\hat{x}_n = P x_n = W W^\top x_n = W z_n$

其中是低维表示。

Step 4: 计算重建误差

$\|x_n - \hat{x}_n\|^2 = \|x_n - W W^\top x_n\|^2 = \|(I - W W^\top) x_n\|^2$

令（正交补空间的投影），则：

$\|x_n - \hat{x}_n\|^2 = x_n^\top P_\perp^\top P_\perp x_n = x_n^\top P_\perp x_n$

（利用了 $P\perp^2 = P\perp, P\perp^\top = P\perp$）

Step 5: 平均误差的矩阵形式

$J(W) = \frac{1}{N} \sum_{n=1}^N x_n^\top P_\perp x_n = \frac{1}{N} \sum_{n=1}^N x_n^\top (I - W W^\top) x_n$ $= \frac{1}{N} \sum_{n=1}^N \left( x_n^\top x_n - x_n^\top W W^\top x_n \right)$ $= \frac{1}{N} \sum_{n=1}^N x_n^\top x_n - \frac{1}{N} \sum_{n=1}^N \operatorname{Tr}(W^\top x_n x_n^\top W)$

利用迹的线性性：

$J(W) = C - \operatorname{Tr}\left( W^\top \left( \frac{1}{N} \sum_{n=1}^N x_n x_n^\top \right) W \right) = C - \operatorname{Tr}(W^\top S W)$

因此：

$\boxed{J(W) = C - \operatorname{Tr}(W^\top S W)}$

Step 6: 最优解

$\min_{W^\top W = I_K} J(W) \Leftrightarrow \max_{W^\top W = I_K} \operatorname{Tr}(W^\top S W)$

由推导一的结论，最优解为：

$W^* = [u_1, u_2, \dots, u_K]$

信息保留率：

$\text{保留的方差比例} = \frac{\sum_{i=1}^K \lambda_i}{\sum_{i=1}^D \lambda_i}$

这个比例常用于选择的大小（如保留 95% 的方差）。

3.3 推导三：SVD 视角（最工程、最稳定）

这一视角直接从数据矩阵出发，利用奇异值分解建立与 PCA 的联系。

(1) SVD 回顾

任意矩阵可分解为：

$X = U \Sigma V^\top$

其中：

：左奇异向量矩阵，
：对角矩阵（奇异值）
：右奇异向量矩阵，

经济型 SVD（当）：

$X = U_D \Sigma_D V_D^\top$

其中，，。

(2) SVD 与协方差矩阵的关系

协方差矩阵：

$S = \frac{1}{N} X X^\top = \frac{1}{N} (U \Sigma V^\top)(V \Sigma^\top U^\top) = \frac{1}{N} U \Sigma \Sigma^\top U^\top$

（利用了）

设，则：

$S = U \left( \frac{1}{N} \Sigma \Sigma^\top \right) U^\top = U \Lambda U^\top$

其中，满足：

$\boxed{\lambda_i = \frac{\sigma_i^2}{N}}$

核心结论：

的特征向量 = 的左奇异向量
的特征值 = 奇异值的平方除以

因此，PCA 主成分方向 = SVD 的左奇异向量！

(3) 最佳低秩近似（Eckart-Young 定理）

定理：在 Frobenius 范数下，的最佳 rank- 近似为：

$\hat{X}_K = U_K \Sigma_K V_K^\top$

其中、、是前个奇异值对应的部分。

近似误差：

$\|X - \hat{X}_K\|_F^2 = \sum_{i=K+1}^{\min(D,N)} \sigma_i^2$

与 PCA 的联系：

PCA 的重建：

$\hat{X} = W_K W_K^\top X = U_K U_K^\top X$

可以验证，这与 SVD 低秩近似等价：

$U_K U_K^\top X = U_K U_K^\top U \Sigma V^\top = U_K \Sigma_K V_K^\top = \hat{X}_K$

(4) 为什么 SVD 比特征分解更稳定？

方面	特征分解	SVD
计算对象		直接对
数值稳定性	计算会放大误差	更稳定
条件数
奇异情况	可能数值不稳定	自然处理秩亏缺

Dual PCA（当）：

计算的特征分解（比小得多）：

$X^\top X = V \Sigma^2 V^\top$

然后恢复左奇异向量：

$U = X V \Sigma^{-1}$

(5) SVD 实现 PCA 的算法流程

输入: 数据矩阵 X ∈ R^{D×N}，目标维度 K

1. 中心化
   μ = mean(X, axis=1)           # 每个特征的均值
   X_centered = X - μ            # 广播减去均值

2. SVD 分解
   U, Σ, V^T = SVD(X_centered)   # 完整 SVD
   或
   U_K, Σ_K, V_K^T = truncated_SVD(X_centered, K)  # 截断 SVD（更高效）

3. 提取主成分
   W = U[:, :K]                  # 前 K 个左奇异向量

4. 投影（降维）
   Z = W^T @ X_centered          # Z ∈ R^{K×N}

5. 重建（可选）
   X_reconstructed = W @ Z + μ

输出: 
   - W: 主成分方向矩阵 (D × K)
   - Z: 低维表示 (K × N)
   - λ = σ²/N: 各主成分的方差（特征值）

4. PCA 的几何解释

4.1 椭球与主轴

协方差矩阵定义了一个椭球：

$\{x : x^\top S^{-1} x = 1\}$

椭球的主轴：

方向 = 的特征向量
长度 ∝ （特征值的平方根）

PCA 找到的主成分就是这个椭球的主轴方向！

4.2 旋转到主轴坐标系

原始数据的协方差矩阵：

$S = U \Lambda U^\top$

投影后，新坐标下的协方差：

$\text{Cov}(z) = U^\top S U = U^\top U \Lambda U^\top U = \Lambda$

对角矩阵！ 这意味着：

各主成分之间不相关
第个主成分的方差 =

4.3 最大方差方向的几何意义

想象数据点形成一个云团：

第一主成分：云团最”长”的方向
第二主成分：在与第一主成分垂直的平面内，最长的方向
以此类推…

       PC1
        ↑
        |  . . .
    . . | . . . .
  . . . | . . . . .
. . . . * . . . . . → PC2
  . . . | . . . . .
    . . | . . .
        |

5. PCA 的实际应用

5.1 Python 实现

从零实现

import numpy as np

def pca_from_scratch(X, n_components):
    """
    X: 数据矩阵，形状 (n_samples, n_features)
    n_components: 目标维度
    """
    # 1. 中心化
    mean = np.mean(X, axis=0)
    X_centered = X - mean
    
    # 2. SVD 分解
    # X_centered: (N, D)，需要转置使用我们的符号约定
    U, s, Vt = np.linalg.svd(X_centered, full_matrices=False)
    
    # 3. 主成分方向（Vt 的前 K 行，即 V 的前 K 列）
    components = Vt[:n_components]  # (K, D)
    
    # 4. 投影
    X_transformed = X_centered @ components.T  # (N, K)
    
    # 5. 计算解释方差比
    explained_variance = (s ** 2) / (X.shape[0] - 1)
    explained_variance_ratio = explained_variance / explained_variance.sum()
    
    return {
        'components': components,
        'transformed': X_transformed,
        'explained_variance': explained_variance[:n_components],
        'explained_variance_ratio': explained_variance_ratio[:n_components],
        'mean': mean
    }

# 使用示例
np.random.seed(42)
X = np.random.randn(100, 5) @ np.array([[3, 0, 0, 0, 0],
                                         [0, 2, 0, 0, 0],
                                         [0, 0, 1, 0, 0],
                                         [0, 0, 0, 0.5, 0],
                                         [0, 0, 0, 0, 0.1]])
result = pca_from_scratch(X, n_components=2)
print("解释方差比:", result['explained_variance_ratio'])

使用 scikit-learn

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import numpy as np

# 数据预处理
X = np.random.randn(100, 10)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# PCA
pca = PCA(n_components=0.95)  # 保留 95% 方差
X_pca = pca.fit_transform(X_scaled)

print(f"原始维度: {X.shape[1]}")
print(f"降维后维度: {X_pca.shape[1]}")
print(f"各主成分解释方差比: {pca.explained_variance_ratio_}")
print(f"累计解释方差比: {np.cumsum(pca.explained_variance_ratio_)}")

5.2 应用场景

应用	说明
数据可视化	将高维数据降至 2D/3D 进行可视化
噪声过滤	去除小特征值对应的成分（噪声）
特征提取	作为机器学习的预处理步骤
数据压缩	图像压缩、信号压缩
异常检测	重建误差大的点可能是异常

6. PCA 的局限性与延伸

6.1 PCA 的局限性

局限性	说明
线性假设	只能捕捉线性关系
方差假设	假设大方差 = 重要信息
正交约束	主成分必须正交，可能不自然
对异常值敏感	基于协方差矩阵，受极端值影响大
对尺度敏感	不同尺度的特征会影响结果

6.2 延伸算法

(1) Probabilistic PCA (PPCA)

概率模型视角：

$x = Wz + \mu + \epsilon, \quad z \sim \mathcal{N}(0, I), \quad \epsilon \sim \mathcal{N}(0, \sigma^2 I)$

优势：

可以处理缺失值
提供概率解释
可用 EM 算法求解

(2) Sparse PCA

加入稀疏性约束：

$\max_{W} \operatorname{Tr}(W^\top S W) - \lambda \|W\|_1 \quad \text{s.t.} \quad W^\top W = I$

优势：主成分更具可解释性（只涉及少数原始特征）

from sklearn.decomposition import SparsePCA

spca = SparsePCA(n_components=2, alpha=0.1)
X_spca = spca.fit_transform(X)

(3) Incremental PCA

处理大规模数据，分批计算：

from sklearn.decomposition import IncrementalPCA

ipca = IncrementalPCA(n_components=2, batch_size=100)
for batch in data_generator:
    ipca.partial_fit(batch)
X_ipca = ipca.transform(X)

(4) Robust PCA

分解为低秩 + 稀疏：

$X = L + S, \quad \text{rank}(L) \text{ 小}, \quad S \text{ 稀疏}$

用于去除稀疏噪声/异常值。

7. 总结

7.1 三种推导的统一

视角	目标函数	最优解
最大方差		的最大特征向量
最小重建误差	$\min \	X - \hat{X}\	^2$	的最大特征向量
SVD 低秩近似	$\min \	X - \hat{X}\	_F$	的前个左奇异向量

三者等价！

7.2 核心公式速查

概念	公式
投影
重建
投影方差
重建误差	$$\	x - \hat{x}\	^2 = \sum_{i>K} \lambda_i$$
方差保留比	$\frac{\sum_{i=1}^K \lambda_i}{\sum_{i=1}^D \lambda_i}$
SVD 与特征值关系