TomatoSCI分析日记——PCA(主成分分析)

PCA又叫主成分分析,一些刚入门的小伙伴经常将它和PCoA混淆,虽然它们都是降维分析,但实际上它们的关系并不密切。PCA通过提取数据中的主成分,用于探索数据的结构;而PCoA则是基于距离矩阵分析样本间的相似性,侧重于样本间的关系探索。

老规矩,理论内容我就不说了,网上很多,总的来说PCA就是用来精简地解释变量的之间的关联情况,下面进实例。

01 PCA实例展示

在数据方面,我们把各变量看作一种平等的关系,而不是像冗余分析一样有响应变量和解释变量之分,要注意的是,这些变量都要是连续变量(图1)。

PCA Figure 1

图2是PCA分析的可视化结果,这个图主要内容三个:

  1. 解释方差比例:即图中Dim1和Dim2的比例,加起来越高越好,降维分析只要出现百分比都是越高越好。
  2. 箭头夹角:两个变量箭头之间的夹角的余弦值(cosine)反映了它们的相关性。夹角为0度为完全正相关(cos值为1),夹角为90度为无相关(cos值为0),夹角为0度为完全负相关(cos值为-1),这和RDA也是一样的。
  3. 箭头长度(颜色深浅):箭头长度和颜色深度是一致的,当一个变量的箭头越长(颜色越深),那么它在样本之间的变异的主导性就越强。

总的来说,箭头较长的变量可能是研究中的关键变量。

PCA Figure 2

图3是输出的结果文件,呈现的是各个维度的解释比例以及各变量在各维度上的载荷。

PCA Figure 3

02 PCA相对于相关性的优势

  1. PCA综合多个变量能够反映变量之间的整体关联结构,而不仅仅是相关性中的两两关系。
  2. PCA通过提取主成分,可以发现变量之间共享的变化模式,这些模式可能揭示出潜在的系统性关系,而相关性只显示变量之间直接的线性关系,无法揭示多个变量共同作用的潜在模式。
  3. PCA通过将高度相关的变量组合到2个主成分中,减少了冗余信息,简化了数据的表示形式;而当变量之间高度相关时,相关性矩阵会包含大量冗余信息(多对变量之间可能都显示高相关性)。

直接下单:

TomatoSCI 科研数据分析平台,欢迎大家来访!数据分析无需登录,专业在线客服答疑,还可在线传输文件,五折优惠码 "tomatosci" 开放使用中。