彩票走势图

Minitab小技巧:如何避免过度拟合您的回归模型?

翻译|使用教程|编辑:况鱼杰|2020-06-10 11:54:34.703|阅读 824 次

概述:过度拟合模型是执行回归分析时需要注意的一个实际问题。 过拟合模型会导致误导回归系数,p值和R平方统计量。 没有人希望如此。本文将会研究一下什么是过拟合模型,以及如何避免掉入过拟合陷阱。

# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>

相关链接:

Minitab Statistical Software是一款无与伦比的可视化统计分析软件,它会审视当前及过往的数据,以找出趋势并预测规律、发现变量之间隐藏的关系、可视化数据交互作用并识别重要因素,从而解答最棘手的问题、应对最严峻的难题。

点击立即下载Minitab


过度拟合模型是执行回归分析时需要注意的一个实际问题。 过拟合模型会导致误导回归系数,p值和R平方统计量。 没有人希望如此。本文将会研究一下什么是过拟合模型,以及如何避免掉入过拟合陷阱。

简而言之,对于您正在分析的数据而言,过拟合模型过于复杂。 过度拟合回归模型可以反映您所收集的特定样本的噪声,异常和随机特征,而不是完全反映整个种群。 发生这种情况时,过拟合模型不太可能拟合另一个来自相同总体的随机样本,而后者可能会有其自身的怪癖。

一个好的模型不仅应该适合您拥有的样本,还应该适合您从相同总体中收集的任何新样本。有关过度拟合回归模型的危险的示例,请查看以下拟合线图:

Example of an overfit regression model

即使此模型看起来可以解释响应中的很多变化,但对于此样本数据而言,它太复杂了。在总体中,如此处详细说明的那样,在预测变量和此响应之间没有真正的关系。

推论统计基础

为了更深入地了解过度拟合的问题,让我们回顾一下推理统计的基本概念,在该概念中,可以尝试从随机样本中得出有关总体的结论。样本数据用于提供总体参数和关系的无偏估计,还用于检验关于总体的假设。

在推论统计中,样本的大小会影响您可以收集的有关总体的信息量。如果您想了解更多信息,则需要更大的样本量。试图从一个小样本中获取太多信息并不能很好地工作。

例如,样本量为20,您可能会很好地估计出单个总体平均值。但是用总样本量为20来估计两个总体均值是一个风险较高的主张。如果您想用相同的样本估算三个或更多的总体均值,则得出的任何结论都是非常粗略的。

换句话说,尝试从样本中学习太多会导致结果不如我们所希望的可靠。在此示例中,随着每个参数的观察值从20减少到10到6.7甚至更多,参数估计将变得更加不可靠。一个新样本可能会产生不同的参数估计值。

样本量如何与过拟合模型相关

同样,过度拟合回归模型的原因是试图从太小的样本中估计太多的参数。在回归中,使用单个样本来估计模型中所有项的系数。这包括每个预测变量,交互作用和多项式项。结果,可以安全容纳的术语数取决于样本的大小。

较大的样本允许使用更复杂的模型,因此,如果您要研究的问题或过程非常复杂,则需要足够大的样本量来支持这种复杂性。由于样本量不足,您的模型将不可靠。

因此,您的样本需要针对每个术语进行足够的观察。在多元线性回归中,每项10-15个观察值是一个很好的经验法则。因此,具有两个预测变量且具有交互作用的模型将需要30到45个观察值,如果您具有较高的多重共线性或较小的效应量,则可能需要更多观察值。

避免过拟合模型

您可以通过交叉验证来检测过度拟合-确定模型对新观测值的适应程度。对数据进行分区是一种评估模型如何拟合未用于估计模型的观测值的方法。

对于线性模型,Minitab会计算预测的R平方,这是一种不需要单独样本的交叉验证方法。为了计算预测的R平方,Minitab会系统地从数据集中删除每个观察值,估计回归方程,并确定模型对移除的观察值的预测程度。

在预测删除的观察结果时表现不佳的模型可能符合样本中的特定数据点,并且不能推广到全部人群。

过度拟合问题的最佳解决方案是避免。确定重要变量并考虑可能要指定的模型,然后提前计划以收集足够大的样本来处理您的响应变量可能需要的所有预测变量,交互作用和多项式项。

Minitab的更多应用感兴趣吗?联系在线客服了解更多产品详情。



标签:

本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@pclwef.cn

文章转载自:minitab

为你推荐

  • 推荐视频
  • 推荐活动
  • 推荐产品
  • 推荐文章
  • 慧都慧问
扫码咨询


添加微信 立即咨询

电话咨询

客服热线
023-68661681

TOP