学习回归分析篇---之逐步回归分析

in cn •  6 years ago 

向前逐步与向后逐步回归的效应估计差异

1. 前 言

逐步回归有向前逐步(Step forward简记作SF)和向后逐步(Step backwards 简记作 SB)两种。 向前逐步回归与向后逐步回归的计算结果是有差别的,只有当样本相当大时才会一样。 我们现在用模拟实验的方法来验证这一结果。

假设一个实验过程的响应与实验因子之间的关系可用以下函数表达

y=f(x)=0.35+2 x1 - 0.54 x2+0.07x23 - 0.0093x1x2 + 0.432x1x3+0.371x1x2x3 ------(1)

用(1)式作试验数据发生器,实验在三维区域 D:{(-1,3),(0,4),(-2,5)}上进行, 分别随机产生两组数据, 其中一组不含误差,另一组含标准偏差为0.214832 的均匀分布误差。 分别用向前逐步和向后逐步两种方法使用不同的数学模型从这两组数据样本选取显著变量和估算回归系数, 再与(1)式进行比较。

模拟的指导思路是假定我们只知道是一个三元过程但不知道实验过程的机理模型, 分别猜想三种数学模型来估计回归参数。显然,如果得到了原函数,这个参数估计在任何地方的预报都会是准确的,这个方法是好的。 如果得到的不是原函数,这个函数在模拟区域内具有某种近似性,近似的程度需要进行检验。 在模拟区域之外的模拟一定是无效的。一定会在某些地方发生错误的预报。这个方法不好。 如果一种方法在无误差数据中都不能得到原函数,这个方法一定有问题。

模型 1------y=f(x)=b0 + b1 x1 + b2 x2 + b33x23 + b12x1x2 + b13x1x3 + b123x1x2x3 + e

模型 2------y=f(x)=b0 + b1 x1 + b2 x2 + b3 x3 + b11 x21 + b22 x22 + b33x23 + b12x1x2 + b13x1x3 + b23x2x3 + b123x1x2x3 + e

模型 3------y=f(x)=b0 + b1 x1 + b2 x2 + b3x3 + b11 x21 + b22 x22 + b33x23 + b111 x31 + b222x32 + b333x33 + b12x1x2 + b13x1x3 + b23x2x3 + b123x1x2x3 + e

2. 不含实验误差的模拟

表 1. 模型 1 的无误差实验数据回归系数估计

解说:使用与实验数据发生器相同的模型( 7 个待定参数),只需要比参数数多 2 个实验,向后逐步回归就能得到与原函数相同的(误差由计算机表数误差引起)参数估计。而向前逐步则不能,直到使用了 25 个实验数据才得到了与向后逐步相同的结果(中间结果省略)。
表 2. 模型 2 的无误差实验数据回归系数估计

解说:使用与实验数据发生器不同的模型(11 个待定参数),用 13 个实验,向后逐步回归得到相当好的参数估计,预报误差将很小,但还少系数很小的一项,追加了两个实验之后,准确地得到了与原函数相同的结果。当样本尺寸不够大时,即使实验无误差,向前逐步也不能选择到全部显著因子。直到使用了 25 个实验数据才得到了与向后逐步相同的结果。 如果样本不够大,逐步回归可能遗漏显著因子,向前逐步尤甚。即使实验无误差,要得到相同的结果,向前逐步也需要比向后逐步成倍增多的实验。

3. 含均匀分布(σ=0.214832)误差的模拟

表 3. 模型 1 的含均匀分布实验误差数据的回归系数估计

解说:由于误差的存在,即使使用符合过程机理的数学模型,也不能得到与原模型完全相同的回归系数。参数估计含有误差。随着样本的增大,误差变小。 即使是样本达到 25,二者的差距还是非常大。当样本达到 30 个实验时,向前逐步与向后逐步结果相同。
表 4. 模型 3 的含均匀分布实验误差数据的回归系数估计

解说:回归模型含有14个参数,即使30个实验数据,影响不大的因子(x1x2)的效应被误差淹没。在 x1,x2不大的区域,预报偏差不大。 一个回归项没有进入预报方程,原因有二:一是实验范围较小;二是实验范围中,x1,x2的取值比较小。所以,实验设计合理是很重要的。

小 结

文献早已经指出,向前逐步回归可能丢失显著因子,所选择的因子也未必全是显著的。

为筛选到显著因子,向后逐步回归较向前逐步所需样本小,如果样本量相同, 向后逐步更准确。 仅当样本充分大时,二者结果相同。向后逐步回归的优势是显然的。 向后逐步回归先实施完全逐步回归,将全部因子收入显著子集,然后逐一反复检验每个因子的显著性。 比向前逐步要麻烦一点,慢一点,在计算机发达的今天,交由计算机程序解决,不是问题。

向后逐步回归允许试验设计的变量之间有一定的相关性,有能力从变量全集中经过分析选取出显著子集。 其拟合精度取决于试验的误差大小。试验误差越小,所需试验数目越少,参数估计越精确。 但是,变量间过高的相关性不宜。过高的相关性意味着矩阵蜕化的风险,可能导致回归过程异常中止。 所以,最好是采用正交设计。

从实验中 我们也得到启示,当样本没有达到一定规模时,山重水复,甚至陷入迷茫,也许增加一个试验之后,便觉柳暗花明。 当感到结果不够理想时,适当追加试验会出现转机。然而当样本已经达到足够规模还不见曙光,盲目追求扩大样本不能解决问题。

向后逐步样本规模不得小于回归变量数+2,当实验总数达到或超过因子总数的三倍而没有显著成果就应该检查实验模型和系统设计了。 如果一个显著因子不在观察视野中,它必不可能进入预报方程。在现有系统之外寻找显著因子。也就是修正实验模型和系统设计。

推荐向后逐步回归,不意味着完全否定向前逐步回归,不排除其在某些方面的应用。 例如,某个过程的的精确模拟是一个复杂的函数,为了实现精确的控制,控制器件的构造相应复杂。 控制反应相对也较慢。在控制过程的实际应用区域,将函数简化,使其具有更少的控制参数,控制器件的构造简单, 而反应更快,成本更低,控制效果更好。这个近似函数可以用向前逐步来简化。

注:
  1. 本实验于1986年进行,当时还构造不出正交超立方设计,所以采用超立方随机设计。
  2. 回归分析程序由我自己编写,语言:DOS BASIC,运行系统:IBM 286。

参 考

  1. 茆诗松,丁元,周纪芗,吕乃刚编著,《回归分析及其试验设计》,华东师范大学出版社,上海,1981
  2. R.I.Jennrich Mathematical methods for digital computers,Vol.3
  3. R.I.Jennrich 编著,杨自强译,逐步回归,《数字计算机上用的数学方法》卷Ⅲ(4), 科学出版社,北京,1981
  4. T.Hastie,R.Tibshirani,J.Friedman, The Elements of Statistical learning, Springer-Verlag,New York,2001
  5. J.S.Milton, Jesse C.Arnold, Introduction To Probability and Statistics,(Third Edition ),1995
  6. Technometrics,12.621-625 (1970)
  7. Technometrics,13.455-457 (1971)
Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!
Sort Order:  

Congratulations @shenzehe! You received a personal award!

Happy Birthday! - You are on the Steem blockchain for 2 years!

You can view your badges on your Steem Board and compare to others on the Steem Ranking

Vote for @Steemitboard as a witness to get one more award and increased upvotes!