主成分分析

数据降维

在某些限定条件下,降低随机变量个个数,得到一组“不相关”主变量的过程。

作用:

  • 减少模型分析数据量,提升处理效率,降低计算难度
  • 实现数据可视化

主成分分析(PCA)

目标: 寻找k(k<n)维新数据,使他们反映事物的主要特征

核心: 在信息损失尽可能少的情况下,降低数据维度

投影后的不同数据特征尽可能分得开(即不相关)可以保留主要的信息;

实现方式:使投影后数据的方差最大,因为方差越大数据也越分散

计算过程:

  1. 原始数据预处理(标准化:$\mu=0, \sigma=1$)
  2. 计算协方差矩阵特征向量、及数据在各特征向量投影后的方差
  3. 根据需求(任务指定或方差比例)确定降维维度k
  4. 选取k维特征向量,计算数据在 其形成空间的投影