RDA(冗余分析)出错案例——过拟合丨TomatoSCI分析方法研究
这是第二个许多朋友在做冗余分析时经常出现的问题,我们先来看看图中有问题的地方。

01 常见过拟合现象
- 图上箭头基本和坐标轴重叠
- 百分比数值高得离谱
这就是典型的数据输入问题,导致过拟合。
02 为什么会过拟合
我们可以看到,代表自变量的红色箭头有7个,但是代表因变量的黑色箭头只有1个,说明数据的因变量只有1列数据,强行用RDA分析,这也是解释度百分比加起来达到100%的原因。
这是冗余分析常见的误区:冗余分析要求自变量和因变量都至少要两个以上。像上面提到的例子,1个因变量、多个自变量的情况下适合多元回归分析,只有因变量和自变量都有2个以上的情况下才可能考虑冗余分析。
03 关于“过拟合”的更多说明
过拟合通俗地说就是过于“完美”。做统计分析基本不存在完美拟合、完全理想的情况,一般出现R方过高、解释度百分百、相关系数接近1或-1这种情况就要考虑是不是数据有问题,比如数据造假、输入的变量可以互相换算等。
过拟合与共线性通常都会一起出现,两者都会导致分析结果的可靠性下降。
04 实务建议与方法选择
- 当因变量只有1列、自变量≥2列时,更适合采用多元回归分析;
- 仅当因变量与自变量都≥2列时,才考虑冗余分析(RDA);
- 建模前进行共线性与合理性检查,避免变量间可互相换算、或异常完美相关;
- 警惕“解释度百分百”“R方接近1”等异常信号。