RDA(冗余分析)出错案例——过拟合丨TomatoSCI分析方法研究

这是第二个许多朋友在做冗余分析时经常出现的问题,我们先来看看图中有问题的地方。

RDA过拟合示例图

01 常见过拟合现象

  • 图上箭头基本和坐标轴重叠
  • 百分比数值高得离谱

这就是典型的数据输入问题,导致过拟合。

02 为什么会过拟合

我们可以看到,代表自变量的红色箭头有7个,但是代表因变量的黑色箭头只有1个,说明数据的因变量只有1列数据,强行用RDA分析,这也是解释度百分比加起来达到100%的原因。

这是冗余分析常见的误区:冗余分析要求自变量和因变量都至少要两个以上。像上面提到的例子,1个因变量、多个自变量的情况下适合多元回归分析,只有因变量和自变量都有2个以上的情况下才可能考虑冗余分析。

03 关于“过拟合”的更多说明

过拟合通俗地说就是过于“完美”。做统计分析基本不存在完美拟合、完全理想的情况,一般出现R方过高、解释度百分百、相关系数接近1或-1这种情况就要考虑是不是数据有问题,比如数据造假、输入的变量可以互相换算等。

过拟合与共线性通常都会一起出现,两者都会导致分析结果的可靠性下降。

04 实务建议与方法选择

  • 当因变量只有1列、自变量≥2列时,更适合采用多元回归分析
  • 仅当因变量与自变量都≥2列时,才考虑冗余分析(RDA)
  • 建模前进行共线性与合理性检查,避免变量间可互相换算、或异常完美相关;
  • 警惕“解释度百分百”“R方接近1”等异常信号。

直接下单:

TomatoSCI数据分析平台,陪你过完最后一关!✅冗余分析一键完成 ✅ 免登录 ✅ 实时专业答疑 ✅ 附参考资料。

TomatoSCI数据分析平台展示