20
基本步骤如下:
标准化
输入数据集变量的范围标准化,以使它们中的每一个均可大致成比例地分析。如果初始变量的范围之间存在较大差异,那么范围较大的变量将占据范围较小的变量(例如,范围介于0和100之间的变量将占据0到1之间的变量),这将导致主成分的偏差。因此,将数据转换为可比较的比例可避免此问题。
协方差矩阵计算
了解输入数据集的变量是如何相对于平均值变化的。
计算协方差矩阵的特征向量和特征值,用以识别主成分。
特征向量和特征值都是线性代数概念,需要从协方差矩阵计算得出,以便确定数据的主成分。
希望以上回答能对您有所帮助,谢谢。