PCA（主成分分析）的核心逻辑丨TomatoSCI分析方法研究

PCA又叫主成分分析，一些刚入门的小伙伴经常将它和PCoA混淆，虽然它们都是降维分析，但实际上它们的关系并不密切。PCA通过提取数据中的主成分，用于探索数据的结构；而PCoA则是基于距离矩阵分析样本间的相似性，侧重于样本间的关系探索。

老规矩，理论内容我就不说了，网上很多，总的来说PCA就是用来精简地解释变量的之间的关联情况，下面进实例。

01 PCA实例展示

在数据方面，我们把各变量看作一种平等的关系，而不是像冗余分析一样有响应变量和解释变量之分，要注意的是，这些变量都要是连续变量（图1）。

图2是PCA分析的可视化结果，这个图主要内容三个：

解释方差比例：即图中Dim1和Dim2的比例，加起来越高越好，降维分析只要出现百分比都是越高越好。
箭头夹角：两个变量箭头之间的夹角的余弦值（cosine）反映了它们的相关性。夹角为0度为完全正相关（cos值为1），夹角为90度为无相关（cos值为0），夹角为0度为完全负相关（cos值为-1），这和RDA也是一样的。
箭头长度（颜色深浅）：箭头长度和颜色深度是一致的，当一个变量的箭头越长（颜色越深），那么它在样本之间的变异的主导性就越强。

总的来说，箭头较长的变量可能是研究中的关键变量。

图3是输出的结果文件，呈现的是各个维度的解释比例以及各变量在各维度上的载荷。

PCA综合多个变量能够反映变量之间的整体关联结构，而不仅仅是相关性中的两两关系。
PCA通过提取主成分，可以发现变量之间共享的变化模式，这些模式可能揭示出潜在的系统性关系，而相关性只显示变量之间直接的线性关系，无法揭示多个变量共同作用的潜在模式。
PCA通过将高度相关的变量组合到2个主成分中，减少了冗余信息，简化了数据的表示形式；而当变量之间高度相关时，相关性矩阵会包含大量冗余信息（多对变量之间可能都显示高相关性）。

直接下单：

TomatoSCI数据分析平台，陪你过完最后一关！✅冗余分析一键完成 ✅ 免登录 ✅ 实时专业答疑 ✅ 附参考资料。