PCA主成分分析算法
在数据分析中,如果特征太多,或者特征之间的相关性太高,通常可以用PCA来进行降维。比如通过对原有10个特征的线性组合, 我们找出3个主成分,就足以解释绝大多数的方差,该算法在高维数据集中被广泛应用。
算法(没时间看版本):
- 将数据标准化,即把所有数据转换以原点为中心;
- 划一条通过原点的直线,将所有点投影到该直线上,然后计算这些投影点到原点的距离平方和。设想我们不停的转动该直线,最终找到一条直线使得这个距离平方和最大,也就是该直线最接近所有的点,该直线为特征向量的方向,称为PC1,这个距离平方和即为特征值;
- 按同样的方法,找到第二条直线,该直线与PC1垂直且距离平方和最大,为PC2;
- 重复该过程直到找到所有的PC;
- 根据需求,确定头部的几个PC可以解释绝大多数方差。
下面先给出几个相关的概念。
协方差和散度矩阵
样本均值:
x
ˉ
=
1
n
∑
i
=
1
N
x
i
\bar{x} = \frac{1}{n} \sum_{i=1}^N x_i
xˉ=n1?i=1∑N?xi?
样本方差:
S
2
=
1
n
?
1
∑
i
=
1
n
(
x
i
?
x
ˉ
)
2
S^2=\frac{1}{n-1} \sum_{i=1}^n {(x_i-\bar{x})}^2
S2=n?11?i=1∑n?(xi??xˉ)2
样本X和样本Y的协方差:
C
o
v
(
X
,
Y
)
=
E
[
(
X
?
E
(
X
)
)
(
Y
?
E
(
Y
)
)
]
=
1
n
?
1
∑
i
=
1
n
(
x
i
?
x
ˉ
)
(
y
i
?
y
ˉ
)
Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})
Cov(X,Y)=E[(X?E(X))(Y?E(Y))]=n?11?i=1∑n?(xi??xˉ)(yi??yˉ?)
- 方差的计算是针对一维特征的,即针对同一特征不同样本的取值来进行计算得到;而协方差必须要求至少满足二维特征;方差是协方差的特殊情况。
- 方差和协方差的除数是
n
?
1
n-1
n?1,这是为了得到方差和协方差的无偏估计。
协方差为正时,说明X和Y是正相关关系;为负时负相关关系;为0时相互独立。 C o v ( X , X ) Cov(X,X) Cov(X,X)就是X的方差。当样本是n维数据时,它们的协方差实际上是协方差矩阵(对称方阵)。
散度矩阵
S
=
∑
k
=
1
n
(
x
k
?
m
)
(
x
k
?
m
)
T
S=\sum_{k=1}^{n}(x_k-m)(x_k-m)^T
S=k=1∑n?(xk??m)(xk??m)T
其中
m
=
1
n
∑
k
=
1
n
x
k
m=\frac{1}{n}\sum_{k=1}^{n}x_k
m=n1?∑k=1n?xk?
对于数据X的散度矩阵为
X
X
T
XX^T
XXT。其实协方差矩阵和散度矩阵关系密切,散度矩阵就是协方差矩阵乘以(总数据量-1)。因此它们的特征值和特征向量是一样的。同时散度矩阵是SVD奇异值分解的一步,因此PCA和SVD有密切关系。
特征值分解矩阵原理
- 特征值与特征向量
如果一个向量v是矩阵A的特征向量,则一定可以表示成下面的形式:
A v = λ v Av=\lambda v Av=λv
其中, λ \lambda λ是特征向量v对应的特征值,一个矩阵的一组特征向量是一组正交向量。 - 特征值分解矩阵
对于矩阵A,有一组特征向量v,将这组向量进行正交化单位化,就能得到一组正交单位向量。特征值分解,就是将矩阵A分解为如下式:
A = Q ∑ Q ? 1 A=Q\sum Q^{-1} A=Q∑Q?1
其中,Q是矩阵A的特征向量组成的矩阵, ∑ \sum ∑则是一个对角阵,对角线上的元素就是特征值。
SVD分解矩阵原理
奇异值分解是一个能使用任意矩阵的一种分解的方法,对于任意矩阵A总是存在一个奇异值分解:
A
=
U
∑
V
T
A=U\sum V^T
A=U∑VT
假设A是一个
m
×
n
m\times n
m×n矩阵,那么得到的U是一个
m
×
m
m\times m
m×m的方阵,U里面的正交向量被称为左奇异向量。
∑
\sum
∑是一个
m
×
n
m\times n
m×n矩阵,
∑
\sum
∑除了对角线其他元素都为0.对角线上的元素称为奇异值。
V
T
V^T
VT是V的转置矩阵,是一个
n
×
n
n\times n
n×n的方阵,它里面的正交向量被称为右奇异值向量。通常
∑
\sum
∑上的值按从大到小的顺序排列。
SVD算法:
- 求 A A T AA^T AAT的特征值和特征向量,用单位化的特征向量构成U;
- 求 A T A A^TA ATA的特征值和特征向量,用单位化的特征向量构成V;
- 将 A A T AA^T AAT或者 A T A A^TA ATA的特征值求平方根,然后构成 ∑ \sum ∑。
基于特征值分解协方差矩阵实现PCA算法
输入:数据集 X = x 1 , x 2 , x 3 , . . . , x n X={x_1,x_2,x_3,...,x_n} X=x1?,x2?,x3?,...,xn?,需要降到k维。
1.去平均值(即去中心化),即每一位特征减去各自的平均值。
2.计算协方差矩阵 1 n X X T \frac{1}{n}XX^T n1?XXT,注:这里除或不除样本数量 n n n或 n ? 1 n-1 n?1,其实对求出的特征向量没有影响。
3.用特征值分解方法求协方差矩阵 1 n X X T \frac{1}{n}XX^T n1?XXT的特征值与特征向量。
4.对特征值从大到小排序,选择其中最大的k个。然后将对应的k个特征向量分别作为行向量组成特征向量矩阵P。
5.将数据转换到k个特征向量构建的新空间中,即 Y = P X Y=PX Y=PX。
基于SVD分解协方差矩阵实现PCA算法
输入:数据集 X = x 1 , x 2 , x 3 , . . . , x n X={x_1,x_2,x_3,...,x_n} X=x1?,x2?,x3?,...,xn?,需要降到k维。
1.去平均值(即去中心化),即每一位特征减去各自的平均值。
2.计算协方差矩阵 1 n X X T \frac{1}{n}XX^T n1?XXT,注:这里除或不除样本数量 n n n或 n ? 1 n-1 n?1,其实对求出的特征向量没有影响。
3.用SVD分解方法求协方差矩阵 1 n X X T \frac{1}{n}XX^T n1?XXT的特征值与特征向量。
4.对特征值从大到小排序,选择其中最大的k个。然后将对应的k个特征向量分别作为行向量组成特征向量矩阵。
5.将数据转换到k个特征向量构建的新空间中。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!