学习回归分析篇---之一元线性回归分析应用例

in cn •  6 years ago  (edited)

我们首先来研究一个实例。

一个活塞,底部为一个均匀地排布了网状小孔的漏筛,筒里装有粘性流体,流体在重力作用下,会从小孔漏出。 顶部有一个活塞,活塞上部可以加砝码。加载的砝码越重,流体流出越快。 这个装置用来测试粘性流体的流动性能,表征流体的加工性能。这种装置有标准,供测试塑料加工性能之用。

图 3.1 测试粘性流体的流动特性的装置

一次测试的数据样本如表 3.1 所示 (注:这里所有表格和图形都取自我自己写的工艺优化软件,OAO V1.0, 关于这个软件,我们以后介绍。)

表 3.1 测试数据样本(在回归分析程序中的显示形态)

显然,随活塞顶部加砝码重量不同,底部流出的量不同。流体力学认为,流出量与顶部压力成正比,

y∝b1x ------(3.1)

这六个试验点描绘在坐标系统上,如图 3.2 所示

图 3.2 测试数据点绘(在回归分析程序中的显示形态)

试验数据并未整齐地表现出这种正比关系。试验总是有误差的,每个点都可能有误差。 假定每个试验的误差为ei(i=1,2,...,6)。 实验误差是多少是未知的。实验误差的估计与试验范围的大小有关,试验范围越宽,误差估计越精确。 实验误差的估计还与试验样本的大小有关,试验点数越多(样本越大),误差估计越精确。 重复试验可以帮助更精确地估计误差,重复的次数越多,误差的估计越精确。详见有关教程。

我们如何估计在其他负重情况下的流出量呢?这就是回归分析的任务。根据式(3.1)表达的实验模型, 建立回归模型。

y=b0+b1x + e ------(3.2)
调用回归分析过程可以估计出回归方程中的参数 b0 和 b1,得到预报方程
y=β01x ------(3.3)
它就是 图 3.3 中的那条直线。

图 3.3 回归直线

关于回归分析的算法,我们后面介绍。首先研究上面这个例子的一些问题。

按照这个测试的实验模型,当顶部不加砝码时,活塞没有负荷, x=0 时, 应该有 y=0. 即,回归直线应该通过坐标原点。现实并非如此,如何解释?

即使 x=0, 被测试物质有自重。这个重量加在筒底,会使被测试物质漏出。只不过速度很慢就是了。 这个值是直线的截距。这个值应该大于 0,而回归方程中的截距小于 0,这就意味着实验误差。 我们来观察各个实验的误差估计,

图 3.4 误差描绘

回归直线与每个试验点的距离就是那个点的实验误差估计。某些点有正误差,另一些点有负误差。 代入回归方程会发现,正负误差相等。所以,回归直线一定通过 x,y 的中值点(x-,y-)。 如果能够断定,回归直线一定通过坐标原点,那么,坐标原点与(x-,y-) 就决定了这条直线。

回归直线是否恰当地表达了样本中的两个变量之间的关系?需要有一个衡量、检验的标准。 这个标准可以是两个变量的相关系数。回归分析图 3.3 中给出了本例的相关系数为 r=0.9451。 严格来说,单用相关系数来衡量是不够的。相关系数的大小依赖于样本的大小。统计需要有一个临界值。 大样本和小样本的统计效果不一样。统计学上用相关性置信水平 α 或置信概率 p(=1-α) 来衡量。 通常,如果置信概率大于或等于0.95,就说该判断在统计学意义上有0.95的可靠性。 如果置信概率大于或等于0.99,就说该判断在统计学意义上有0.99的可靠性。 于本例,

图 3.5 置信概率估计

置信概率大于 0.99。用线性模型拟合样本足够好。

有关回归分析的数学描述,我们下一节介绍。

参 考

  1. 茆诗松,丁元,周纪芗,吕乃刚编著,《回归分析及其试验设计》,华东师范大学出版社,上海,1981
  2. T.Hastie,R.Tibshirani,J.Friedman, The Elements of Statistical learning, Springer-Verlag,New York,2001
  3. J.S.Milton, Jesse C.Arnold, Introduction To Probability and Statistics,(Third Edition ),1995

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!