当前位置: 首页 > news >正文

PCA——主成分分析数学原理及代码

主成分分析

PCA的目的是:对数据进行一个线性变换,在最大程度保留原始信息的前提下去除数据中彼此相关的信息。反映在变量上就是说,对所有的变量进行一个线性变换,使得变换后得到的变量彼此之间不相关,并且是所有可能的线性变换中方差最大的一些变量(我们认为方差体现了信息量的大小)。

总体主成分分析

X \mathbf{X} X是一个 n n n维随机向量,其均值向量为 μ = μ 1 , … , μ n \mu=\mu_1,\dots,\mu_n μ=μ1,,μn、协方差矩阵为 Σ = ( σ i j ) , i , j = 1 , 2 , … , n \Sigma=(\sigma_{ij}),\;i,j=1,2,\dots,n Σ=(σij),i,j=1,2,,n。对 X \mathbf{X} X进行一个线性变换 T \mathcal{T} T得到一个 n n n维随机向量 Y = ( Y 1 , … , Y n ) \mathbf{Y}=(\mathbf{Y}_1,\dots,\mathbf{Y}_n) Y=(Y1,,Yn) T \mathcal{T} T的矩阵为:
A = ( α 1 α 2 ⋮ α n ) \begin{equation*} A= \begin{pmatrix} \alpha_1 \\ \alpha_2 \\ \vdots \\ \alpha_n \end{pmatrix} \end{equation*} A= α1α2αn
若:

  1. Cov ⁡ ( Y ) \operatorname{Cov}(\mathbf{Y}) Cov(Y)是一个对角矩阵,即 Cov ⁡ ( Y i , Y j ) = 0 , i ≠ j \operatorname{Cov}(\mathbf{Y}_i,\mathbf{Y}_j)=0,\;i\ne j Cov(Yi,Yj)=0,i=j
  2. Y 1 \mathbf{Y}_1 Y1是所有对 X \mathbf{X} X进行线性变换后得到的随机变量中方差最大的随机变量, Y 2 \mathbf{Y}_2 Y2是与 Y 1 \mathbf{Y}_1 Y1不相关的所有对 X \mathbf{X} X进行线性变换后得到的随机变量中方差第二大的随机变量,以此类推。

则分别称 Y 1 , Y 2 , … , Y n \mathbf{Y}_1,\mathbf{Y}_2,\dots,\mathbf{Y}_n Y1,Y2,,Yn是第一、第二、……、第 n n n主成分。
这一定义是否足够?

若不对 T \mathcal{T} T的矩阵 A A A作出相应的限制,对 X \mathbf{X} X进行线性变换后得到的 Y i , i = 1 , 2 , … , n \mathbf{Y}_i,\;i=1,2,\dots,n Yi,i=1,2,,n的方差可以任意大。
Var ⁡ ( Y i ) = Cov ⁡ ( Y ) ( i , i ) = Cov ⁡ ( A X ) ( i , i ) = ( A Σ A T ) i , i = α i Σ α i T \begin{equation*} \operatorname{Var}(\mathbf{Y}_i)=\operatorname{Cov}(\mathbf{Y})_{(i,i)}=\operatorname{Cov}(A\mathbf{X})_{(i,i)}=(A\Sigma A^T)_{i,i}=\alpha_i\Sigma\alpha_i^T \end{equation*} Var(Yi)=Cov(Y)(i,i)=Cov(AX)(i,i)=(AΣAT)i,i=αiΣαiT
Var ⁡ ( Y i ) > 0 \operatorname{Var}(\mathbf{Y}_i)>0 Var(Yi)>0,取矩阵 B = k A B=kA B=kA Z = k A X \mathbf{Z}=kA\mathbf{X} Z=kAX,则:
Var ⁡ ( Y i ) = ( k α i ) Σ ( k α i ) T = k 2 α i Σ α i \begin{equation*} \operatorname{Var}(\mathbf{Y}_i)=(k\alpha_i)\Sigma(k\alpha_i)^T=k^2\alpha_i\Sigma\alpha_i \end{equation*} Var(Yi)=(kαi)Σ(kαi)T=k2αiΣαi
改变 k k k的值,即可对 Y i , i = 1 , 2 , … , n \mathbf{Y}_i,\;i=1,2,\dots,n Yi,i=1,2,,n的方差进行任意的放缩。
因此,我们需要对 A A A进行相应的限制,在这里我们人为地选择要求 A A A是一个正交矩阵,也就是让 α i α i T = 1 \alpha_i\alpha_i^T=1 αiαiT=1

总体主成分完整定义

X \mathbf{X} X是一个 n n n维随机向量,其均值向量为 μ = μ 1 , … , μ n \mu=\mu_1,\dots,\mu_n μ=μ1,,μn、协方差矩阵为 Σ = ( σ i j ) , i , j = 1 , 2 , … , n \Sigma=(\sigma_{ij}),\;i,j=1,2,\dots,n Σ=(σij),i,j=1,2,,n。对 X \mathbf{X} X进行一个线性变换 T \mathcal{T} T得到一个 n n n维随机向量 Y = ( Y 1 , … , Y n ) \mathbf{Y}=(\mathbf{Y}_1,\dots,\mathbf{Y}_n) Y=(Y1,,Yn) T \mathcal{T} T的矩阵为:
A = ( α 1 α 2 ⋮ α n ) \begin{equation*} A= \begin{pmatrix} \alpha_1 \\ \alpha_2 \\ \vdots \\ \alpha_n \end{pmatrix} \end{equation*} A= α1α2αn
若:

  1. A A T = I AA^T=I AAT=I
  2. Cov ⁡ ( Y ) \operatorname{Cov}(\mathbf{Y}) Cov(Y)是一个对角矩阵,即 Cov ⁡ ( Y i , Y j ) = 0 , i ≠ j \operatorname{Cov}(\mathbf{Y}_i,\mathbf{Y}_j)=0,\;i\ne j Cov(Yi,Yj)=0,i=j
  3. Y 1 \mathbf{Y}_1 Y1是所有对 X \mathbf{X} X进行线性变换后得到的随机变量中方差最大的随机变量, Y 2 \mathbf{Y}_2 Y2是与 Y 1 \mathbf{Y}_1 Y1不相关的所有对 X \mathbf{X} X进行线性变换后得到的随机变量中方差第二大的随机变量,以此类推。

则分别称 Y 1 , Y 2 , … , Y n \mathbf{Y}_1,\mathbf{Y}_2,\dots,\mathbf{Y}_n Y1,Y2,,Yn是第一、第二、……、第 n n n主成分。

主成分求解定理

X \mathbf{X} X是一个 n n n维随机向量, Σ \Sigma Σ是其协方差矩阵, Σ \Sigma Σ的特征值\footnote{若特征多项式有重根,则标准正交化特征向量组不唯一,主成分也不唯一。}从大到小记作 λ 1 , … , λ n \lambda_1,\dots,\lambda_n λ1,,λn φ 1 , … , φ n \varphi_1,\dots,\varphi_n φ1,,φn为对应的标准正交化特征向量,则 X \mathbf{X} X的第 i i i个主成分以及其方差为:
Y i = φ i T X , Var ⁡ ( Y i ) = φ i T Σ φ i = λ i \begin{equation*} \mathbf{Y}_i=\varphi_i^T\mathbf{X},\;\operatorname{Var}(\mathbf{Y}_i)=\varphi_i^T\Sigma\varphi_i=\lambda_i \end{equation*} Yi=φiTX,Var(Yi)=φiTΣφi=λi
考虑到:
Var ⁡ ( Y i ) = α i Σ α i T , Cov ⁡ ( Y i , Y j ) = α i Σ α j T \begin{equation*} \operatorname{Var}(\mathbf{Y}_i)=\alpha_i\Sigma\alpha_i^T,\quad \operatorname{Cov}(\mathbf{Y}_i,\mathbf{Y}_j)=\alpha_i\Sigma\alpha_j^T \end{equation*} Var(Yi)=αiΣαiT,Cov(Yi,Yj)=αiΣαjT
求解主成分的过程即为求解:
α i = arg ⁡ max ⁡ α i Σ α i T s.t. ⁡ { ∣ ∣ α i ∣ ∣ = 1 , i = 1 , 2 , … , n α i Σ α j = 0 , j < i \begin{gather*} \alpha_i=\arg\max\alpha_i\Sigma\alpha_i^T \\ \operatorname{s.t.} \begin{cases} ||\alpha_i||=1,\;&i=1,2,\dots,n\\ \alpha_i\Sigma\alpha_j=0,\;&j<i \end{cases} \end{gather*} αi=argmaxαiΣαiTs.t.{∣∣αi∣∣=1,αiΣαj=0,i=1,2,,nj<i
在这里插入图片描述
于是上述结论成立。

因子载荷的定义

将第 i i i个主成分 Y i \mathbf{Y}_i Yi与变量 X j \mathbf{X}_j Xj的相关系数 ρ ( Y i , X j ) \rho(\mathbf{Y}_i,\mathbf{X}_j) ρ(Yi,Xj)称为因子载荷。可推得:
ρ ( Y i , X j ) = λ i α i j σ j j , i , j = 1 , 2 , … , n \begin{equation*} \rho(\mathbf{Y}_i,\mathbf{X}_j)=\frac{\sqrt{\lambda_i}\alpha_{ij}}{\sqrt{\sigma_{jj}}},\;i,j=1,2,\dots,n \end{equation*} ρ(Yi,Xj)=σjj λi αij,i,j=1,2,,n
由相关系数的定义:
ρ ( Y i , X j ) = Cov ⁡ ( Y i , X j ) Var ⁡ ( Y i ) Var ⁡ ( X j ) = Cov ⁡ ( α i X , e j T X ) λ i σ j j = α i Σ e j λ i σ j j = e j T Σ α i λ i σ j j = e j T λ i α i λ i σ j j = λ i α i j σ j j \begin{align} \rho(\mathbf{Y}_i,\mathbf{X}_j) &=\frac{\operatorname{Cov}(\mathbf{Y}_i,\mathbf{X}_j)}{\sqrt{\operatorname{Var}(\mathbf{Y}_i)\operatorname{Var}(\mathbf{X}_j)}}=\frac{\operatorname{Cov}(\alpha_i\mathbf{X},e_j^T\mathbf{X})}{\sqrt{\lambda_i\sigma_{jj}}} \\ &=\frac{\alpha_i\Sigma e_j}{\sqrt{\lambda_i\sigma_{jj}}}=\frac{e_j^T\Sigma\alpha_i}{\sqrt{\lambda_i\sigma_{jj}}}=\frac{e_j^T\lambda_i\alpha_i}{\sqrt{\lambda_i\sigma_{jj}}}=\frac{\sqrt{\lambda_i}\alpha_{ij}}{\sqrt{\sigma_{jj}}} \end{align} ρ(Yi,Xj)=Var(Yi)Var(Xj) Cov(Yi,Xj)=λiσjj Cov(αiX,ejTX)=λiσjj αiΣej=λiσjj ejTΣαi=λiσjj ejTλiαi=σjj λi αij

总体主成分的性质

总体主成分具有如下性质:

  1. Cov ⁡ ( Y ) = diag ⁡ { λ 1 , … , λ n } \operatorname{Cov}(\mathbf{Y})=\operatorname{diag}\{\lambda_1,\dots,\lambda_n\} Cov(Y)=diag{λ1,,λn}
  2. Y \mathbf{Y} Y的方差之和等于 X \mathbf{X} X的方差之和,即 ∑ i = 1 n λ i = ∑ i = 1 n σ i i \sum\limits_{i=1}^{n}\lambda_i=\sum\limits_{i=1}^{n}\sigma_{ii} i=1nλi=i=1nσii
  3. i i i个主成分与原变量的因子负荷量满足:
    ∑ j = 1 n σ j j ρ 2 ( Y i , X j ) = λ i \begin{equation*} \sum_{j=1}^{n}\sigma_{jj}\rho^2(\mathbf{Y}_i,\mathbf{X}_j)=\lambda_i \end{equation*} j=1nσjjρ2(Yi,Xj)=λi
  4. 原变量的第 j j j个分量与所有主成分的因子负荷量满足:
    ∑ i = 1 n ρ 2 ( Y i , X j ) = 1 \begin{equation*} \sum_{i=1}^{n}\rho^2(\mathbf{Y}_i,\mathbf{X}_j)=1 \end{equation*} i=1nρ2(Yi,Xj)=1
    证明:
    1. 由PCA求解过程直接可得。
    2. 显然:
      ∑ i = 1 n Var ⁡ ( Y i ) = tr ⁡ [ Cov ⁡ ( Y ) ] = tr ⁡ [ Cov ⁡ ( A X ) ] = tr ⁡ ( A Σ A T ) = tr ⁡ ( Σ A T A ) = tr ⁡ ( Σ ) = ∑ i = 1 n Var ⁡ ( X i ) \begin{align*} \sum_{i=1}^{n}\operatorname{Var}(\mathbf{Y}_i) &=\operatorname{tr}[\operatorname{Cov}(\mathbf{Y})]=\operatorname{tr}[\operatorname{Cov}(A\mathbf{X})]=\operatorname{tr}(A\Sigma A^T) \\ &=\operatorname{tr}(\Sigma A^TA)=\operatorname{tr}(\Sigma)=\sum_{i=1}^{n}\operatorname{Var}(\mathbf{X}_i) \end{align*} i=1nVar(Yi)=tr[Cov(Y)]=tr[Cov(AX)]=tr(AΣAT)=tr(ΣATA)=tr(Σ)=i=1nVar(Xi)
    3. 显然:
      ∑ j = 1 n σ j j ρ 2 ( Y i , X j ) = ∑ j = 1 n λ i α i j 2 = λ i α i α i T = λ i \begin{equation*} \sum_{j=1}^{n}\sigma_{jj}\rho^2(\mathbf{Y}_i,\mathbf{X}_j)=\sum_{j=1}^{n}\lambda_i\alpha_{ij}^2=\lambda_i\alpha_i\alpha_i^T=\lambda_i \end{equation*} j=1nσjjρ2(Yi,Xj)=j=1nλiαij2=λiαiαiT=λi
    4. 因为 A A A是正交矩阵,所以 A A A可逆,于是 X \mathbf{X} X可以表示为 Y 1 , … , n \mathbf{Y}_1,\dots,\mathbf{n} Y1,,n的线性组合,所以二者的复相关系数为 1 1 1。由复相关系数性质可直接得出结论。

贡献率定义

称第 i i i个主成分 Y i \mathbf{Y}_i Yi的方差与所有主成分方差之和为 Y i \mathbf{Y}_i Yi的方差贡献率,记为 η i \eta_i ηi,即:
η i = λ i ∑ j = 1 n λ j \begin{equation*} \eta_i=\frac{\lambda_i}{\sum\limits_{j=1}^{n}\lambda_j} \end{equation*} ηi=j=1nλjλi
将:
∑ i = 1 k λ i ∑ i = 1 n λ i \begin{equation*} \frac{\sum\limits_{i=1}^{k}\lambda_i}{\sum\limits_{i=1}^{n}\lambda_i} \end{equation*} i=1nλii=1kλi
称为主成分 Y 1 , … . Y k \mathbf{Y}_1,\dots.\mathbf{Y}_k Y1,.Yk的累计方差贡献率。称主成分 Y 1 , … . Y k \mathbf{Y}_1,\dots.\mathbf{Y}_k Y1,.Yk与变量 X j \mathbf{X}_j Xj之间的复相关系数的平方 R 2 R^2 R2 Y 1 , … . Y k \mathbf{Y}_1,\dots.\mathbf{Y}_k Y1,.Yk X j \mathbf{X}_j Xj的贡献率,其计算公式为:
R 2 = ∑ i = 1 k λ i α i j 2 σ i i \begin{equation*} R^2=\sum_{i=1}^{k}\frac{\lambda_i\alpha_{ij}^2}{\sigma_{ii}} \end{equation*} R2=i=1kσiiλiαij2

由前述,我们一般通过选择主成分的个数来实现对数据的降维,即选择主成分的个数使它们的累计方差贡献率达到一定比例(一般为 85 % 85\% 85%)。

样本主成分分析

假设对 n n n维随机变量 X \mathbf{X} X进行 m m m次独立观测,得到 m m m n n n维样本 x 1 , … , x m x_1,\dots,x_m x1,,xm。在样本主成分分析中,我们使用样本来估计 X \mathbf{X} X的协方差矩阵,即:
S = ( s i j ) , s i j = 1 m − 1 ∑ k = 1 m ( x k i − X ^ i ) ( x k j − X ^ j ) , i , j = 1 , 2 , … , n \begin{equation*} S=(s_{ij}),\;s_{ij}=\frac{1}{m-1}\sum_{k=1}^{m}(x_{ki}-\hat{\mathbf{X}}_i)(x_{kj}-\hat{\mathbf{X}}_j),\;i,j=1,2,\dots,n \end{equation*} S=(sij),sij=m11k=1m(xkiX^i)(xkjX^j),i,j=1,2,,n
其中:
X ^ i = 1 m ∑ j = 1 m x j i , i = 1 , 2 , … , n \begin{equation*} \hat{\mathbf{X}}_i=\frac{1}{m}\sum_{j=1}^{m}x_{ji},\;i=1,2,\dots,n \end{equation*} X^i=m1j=1mxji,i=1,2,,n
其余步骤与总体主成分分析一致。

注意事项

多重共线性问题

当原始变量出现多重共线性时,PCA的效果会受到影响,这是因为重复的信息在方差占比中重复进行了计算。我们可以通过计算协方差矩阵的最小特征值来判断是否出现多重共线性的情况。若最小特征值趋于 0 0 0,则需要对纳入研究的变量进行考察与筛选。

相关矩阵导出主成分

上面我们都是对协方差矩阵的特征值分解进行计算,但在现实中,我们可能会对数据进行标准化处理来消除量纲带来的影响,注意到标准化后数据的协方差矩阵即为相关矩阵,此时将相关矩阵作对应的特征值分解即可。但需要注意:标准化后各变量方差相等均为 1 1 1,损失了部分信息,所以会使得标准化后的各变量在对主成分构成中的作用趋于相等。因此,取值范围在同量级的数据建议使用协方差矩阵直接求解主成分,若变量之间数量级差异较大,再使用相关矩阵求解主成分。

算法流程

在这里插入图片描述

主成分分析的应用

主成分分类

可以实现对变量之间的分类。将变量进行主成分分析,得到第一主成分与第二主成分,然后画出各变量与两个主成分载荷的二维平面图,即将各变量画在以两个主成分为轴的平面上,变量的两个坐标是主成分在变量上的载荷。可以认为相似变量会聚在平面图中聚在一起。

主成分回归

若数据存在高度的多重共线性,对数据进行主成分筛选,然后用主成分去进行回归。

R语言代码

> # 以鸢尾花数据集作为示例
> data <- iris[1:4]
> # 变量间量纲差异不大,使用协方差矩阵进行分析
> Sigma <- cov(data)
> # 计算特征值,因为是示例就不做处理了
> eigen(Sigma)$values
[1] 4.22824171 0.24267075 0.07820950 0.02383509
> # center和scale.控制是否对原始数据进行标准化
> # 注意scale.,后面有一个点,不是scale
> x <- prcomp(data, center=FALSE, scale.=FALSE)
> # 呈现结果
> summary(x)
Importance of components:PC1     PC2     PC3     PC4
Standard deviation     7.8613 1.45504 0.28353 0.15441
Proportion of Variance 0.9653 0.03307 0.00126 0.00037
Cumulative Proportion  0.9653 0.99837 0.99963 1.00000
> # 输出因子载荷矩阵,显示出的矩阵其实就是A^T
> # 可以自己尝试证明一下,利用协方差的性质以及Y之间的线性无关性
> x$rotationPC1        PC2         PC3        PC4
Sepal.Length -0.7511082  0.2841749  0.50215472  0.3208143
Sepal.Width  -0.3800862  0.5467445 -0.67524332 -0.3172561
Petal.Length -0.5130089 -0.7086646 -0.05916621 -0.4807451
Petal.Width  -0.1679075 -0.3436708 -0.53701625  0.7518717
> # 如果输入x,则输出训练样本经过主成分分析后的结果,即Y值
> # 如果输入一组新的数据newdata,则输出newdata经过主成分分析后的结果
> # 这里因为数据太多就用head函数控制只显示前10行
> head(predict(x), 10)PC1      PC2          PC3          PC4[1,] -5.912747 2.302033  0.007401536  0.003087706[2,] -5.572482 1.971826  0.244592251  0.097552888[3,] -5.446977 2.095206  0.015029262  0.018013331[4,] -5.436459 1.870382  0.020504880 -0.078491501[5,] -5.875645 2.328290 -0.110338269 -0.060719326[6,] -6.477598 2.324650 -0.237202487 -0.021419633[7,] -5.515975 2.070904 -0.229853120 -0.050406649[8,] -5.850929 2.148075  0.018793774 -0.045342619[9,] -5.158920 1.775064  0.061039220 -0.031128633
[10,] -5.645001 1.990001  0.224852923 -0.057434390
> # 画碎石图,即样本主成分与方差贡献率之间的曲线图或条形图
> screeplot(x, type = "barplot")
> screeplot(x, type = "lines")

在这里插入图片描述
在这里插入图片描述

主成分分析在R语言中还有另一个函数叫做princomp,但官方更推荐使用prcomp。主要是因为求解算法问题,prcomp使用svd分解进行求解,后面我会对这里进行一些补充。

Python代码

import numpy as np
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris# 加载数据
iris = load_iris()
X = iris.data
y = iris.target
feature_names = iris.feature_names# 对数据进行标准化(可选)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)# 初始化 PCA,保留所有主成分
pca = PCA(n_components=4)
X_pca = pca.fit_transform(X_scaled)print("各主成分解释的方差比例:")
print(pca.explained_variance_ratio_)
print("累计解释方差:", np.cumsum(pca.explained_variance_ratio_))# 每个主成分上的特征权重(特征向量)
loadings = pd.DataFrame(pca.components_.T,columns=[f'PC{i+1}' for i in range(pca.n_components_)],index=feature_names)print(loadings)

参考文献

  1. 薛毅,统计建模与R软件
  2. 何晓群,多元统计分析——基于R语言
  3. 李航,统计学方法
  4. Richard A.Johnson,Applied Multivariate Statistical Analysis

后续会补充的内容

  1. 具体数值求解算法
  2. R语言两个函数的具体差异
  3. 为什么特征值接近于0就意味着多重共线性
  4. R2的性质,即为什么R2等于所有自变量与因变量相关系数平方的加和

相关文章:

  • 【图像处理基石】什么是去马赛克算法?
  • springboot+vue3+mysql+websocket实现的即时通讯软件
  • 热门算法面试题第19天|Leetcode39. 组合总和40.组合总和II131.分割回文串
  • PyTorch基础笔记
  • 【笔记】SpringBoot实现图片上传和获取图片接口
  • MAC-从es中抽取数据存入表中怎么实现
  • 23种设计模式-结构型模式之适配器模式(Java版本)
  • 23种设计模式-结构型模式之装饰器模式(Java版本)
  • 延长(暂停)Windows更新
  • 学习设计模式《四》——单例模式
  • Halcon应用:相机标定
  • Deepseek输出的内容如何直接转化为word文件?
  • 大模型面经 | 介绍一下CLIP和BLIP
  • QSS【QT】
  • React 文章 分页
  • TDengine 性能监控与调优实战指南(一)
  • Docker Compose 外部网络(`external: true`)与内部网络的区别
  • 5、openfeign
  • 对于在线教育或知识付费类网站视频处理方案
  • 学习笔记:黑马程序员JavaWeb开发教程(2025.3.24)
  • 两岸基层民生发展交流会在浙江开幕
  • 海拔四百公里的救赎
  • 山西一国道发生塌陷,造成4车追尾2人死亡
  • 财政部:一季度证券交易印花税411亿元,同比增长60.6%
  • 42岁北京大学科学技术与医学史系副教授陈昊逝世
  • 腾讯启动史上最大就业计划:三年新增2.8万个校招实习岗位,今年技术岗位占六成