TomatoSCI分析日记——PCA(主成分分析)
PCA又叫主成分分析,一些刚入门的小伙伴经常将它和PCoA混淆,虽然它们都是降维分析,但实际上它们的关系并不密切。PCA通过提取数据中的主成分,用于探索数据的结构;而PCoA则是基于距离矩阵分析样本间的相似性,侧重于样本间的关系探索。
老规矩,理论内容我就不说了,网上很多,总的来说PCA就是用来精简地解释变量的之间的关联情况,下面进实例。
01 PCA实例展示
在数据方面,我们把各变量看作一种平等的关系,而不是像冗余分析一样有响应变量和解释变量之分,要注意的是,这些变量都要是连续变量(图1)。

图2是PCA分析的可视化结果,这个图主要内容三个:
- 解释方差比例:即图中Dim1和Dim2的比例,加起来越高越好,降维分析只要出现百分比都是越高越好。
- 箭头夹角:两个变量箭头之间的夹角的余弦值(cosine)反映了它们的相关性。夹角为0度为完全正相关(cos值为1),夹角为90度为无相关(cos值为0),夹角为0度为完全负相关(cos值为-1),这和RDA也是一样的。
- 箭头长度(颜色深浅):箭头长度和颜色深度是一致的,当一个变量的箭头越长(颜色越深),那么它在样本之间的变异的主导性就越强。
总的来说,箭头较长的变量可能是研究中的关键变量。

图3是输出的结果文件,呈现的是各个维度的解释比例以及各变量在各维度上的载荷。

02 PCA相对于相关性的优势
- PCA综合多个变量能够反映变量之间的整体关联结构,而不仅仅是相关性中的两两关系。
- PCA通过提取主成分,可以发现变量之间共享的变化模式,这些模式可能揭示出潜在的系统性关系,而相关性只显示变量之间直接的线性关系,无法揭示多个变量共同作用的潜在模式。
- PCA通过将高度相关的变量组合到2个主成分中,减少了冗余信息,简化了数据的表示形式;而当变量之间高度相关时,相关性矩阵会包含大量冗余信息(多对变量之间可能都显示高相关性)。