学习回归分析篇---之一元线性回归分析算法

in cn •  6 years ago 

如果系统只有一个自变量 x,一个响应变量 y (可以有多个应变量,为方便起见,暂假定只有一个应变量) 的 n 次试验的试验样本具有下表形式:

假设过程是线性的,那么就可以写出数学模型,

yi= a +bxi + ei,(i=1,2,...,n) ------(4.1)
其中 e=(e1,...,en)T 为观察的误差向量,假定它服从正态分布。 这里,a 和 b 是待确定的参数。即,未知数是 a 和 b。求 a 和 b 的过程,使用最小二乘法。俗称 配直线 。 因为实验有误差,算出来的 a, b 也是有误差的,所以叫做估计值。 以后我们用 β 表示估计值,文献标准写法,应该加一个帽子,因为 HTML 加这个帽子太麻烦,我们省略这个帽子。 就是说,我们要配的直线是回归直线
y^= β0 + β1 x-----(4.1')

根据最小二乘原理,为了确定 β0 和 β1, n 个观察应使

Q=∑ni=1(yi -y^i)2
为最小。其中 y^i 为回归值。所谓回归值就是对应于回归直线上的预报值, 根据极值原理,要求
∂Q/∂β0= -2∑ni=1(yi01xi)=0,------(4.2)

∂Q/∂β1=-2∑ni=1(yi0ixi)xi=0 ------(4.3)

ni=1(yi01xi)=0, -----(4.4)

ni=1(yi0ixi)xi=0。 ------(4.5)

由 (4.4) 得
β0=y-1x-,------(4.6)

其中
x-=∑ni=1xi/n,------(4.7)

y-=∑ni=1yi/n。 ------(4.8)

由 (4.5) 进而得
β1=(∑ni=1xiyi-nx-y-) / (∑ni=1xi2-nx-2)。------(4.9)

直接从样本求得估计值 β1,代入 (4.6) 得到 a 的估计值β0。 β0称为回归直线的截距,即回归常数,β1 是回归直线的斜率。 如果过程机制决定回归直线应过坐标系原点 (0,0),此时称回归直线无截距,则由 (4.6) 得
β0 = 0 ,------(4.10)
β1=y-/x-.------(4.11)

规定一个记号代表一种算法,
(x,y) = ∑ni=1 xi yi,
称向量 x,y 的内积为 (x,y) 。把 cf(x,y)=nx-y- 称为修正量。 在不致误会的情况下, cf(x,y) 简记做 cf 。把
Lxy=(x,y)- cf(x,y)------(4.12)
称为差乘和。则
β1=Lxy/Lxx ------(4.13)
如果变量的均值为0,
β1= (x,y)/(x,x) ------(4.14)

不能配一条直线就算,y 与 x 之间到底是不是线性关系,需要满足统计学条件:
r= Lxy/(LxxLyy)1/2------(4.15)
这个关系称为相关系数(correlation coefficient)。相关系数的最大值为 1,称为正相关,最小值为 -1,负相关。 绝对值 |r | 越接近于 1,y 与 x 之间的线性关系越好; 离 1 越远,其线性关系越差。当 r=0 ,线性关系不存在或说没有关系。 用 r 来衡量 y 与 x 之间是否有线性关系, r 需要达到一个起码值(临界值), 相关系数临界值记作 rα(n-2) 。它依赖于自由度 n-2 和置信系数 α 两个参数。 这个临界值可以查统计学相关系数临界值表。也可以由近似计算得到,在我的计算程序中,由近似计算提供。 如果
r< rα(n-2) ------(4.16)
就说 y 与 x 之间以置信水平 α 相关,否则称以置信水平 α 不相关。 相关不相关,就看 α 与 1 之间的差距的大小。 1-α 被认为是置信概率。 有时简单地记作 P=1-α 并称为 P 值。P 值太小,置信概率太低。在统计学上没有意义。 说在统计学意义上不相关。 由此,当 P 接近但不等于 1,我们说 y 与 x 之间是高相关的,当 P 接近但不等于 0,弱相关。

调整 α 使 rα(n-2) 从右侧接近 r , 用一个参数 α 或 P 判断 y 与 x 之间的线性相关关系具有同等效力。 自由度不同的相关性也可以比较。“门槛”是人定的,统计学上定 P=0.95。 具体定多少,依工程具体情况确定。 当目的是认定事物之间的相关性时,为防止误判断,把 α 取得小一些,即 P 取得大一些。 当目的是认定事物之间的无关性时,标准放得宽些,防止“证据不足”。 当把安全性放在第一位,把警戒指数降低,报警频率提高;要想降低报警频率,就把警戒指数提高, 到有更大把握时才发警报。当观察误差比较大时,有时把 α 定得比较大。 当 α>0.3, p<0.7 以后,相关性较弱,点的分布散乱,通常认为不足以证明其相关。 统计学以 0.05 为界,若 α<0.05, p>0.95 说“在统计学意义上显著”, 若 α<0.01, P>0.99 则说“在统计学意义上非常显著”。 这是诉讼判决时用的。在科学研究中,我主张放松,在化工过程中,我使用 p=0.75。 在观察过程中,p=0.6 也不放过。最后认定依据两个原则:统计学上的 α=0.05 原则和实践原则。 所谓实践原则,就是反复实践认为某个判断是正确的,哪怕没有达到 p=0.75 的标准,也作出判定。 在化学实验中,执行 0.05 准则太高,会丢失很多优化机会或者丧失许多判断机会。

平面上矩形区域中的一组点,点的纵横坐标分别组成两个向量。这两个向量的相关系数 r 或置信系数 α 反映这一组点的分布均衡性状况。分布均衡分散,则相关系数趋向于 0, 置信系数 α 趋向于 1, P 趋向于 0。相反,相关系数的绝对值趋向于 1,置信系数 α 趋向于 0,P 趋向于 1,点子分布成一直线。如下图左图点子分布均衡分散,相关系数 r= 0.2,右图点子成一直线,r=1。
图 4.1. 6个点的不同分布与相关系数之间的关系

n 个观察值对其平均值的偏差平方和可以分解为
S=∑ni=1 (yi-y-)2 =∑ni=1[(yi - y^i)+( y^i-y-)]2 =∑ni=1[(yi - y^i)2+(y^i-y-)2] =S+S. ------(4.17)
其中, S=∑ni=1(y^i-y-)2 称为回归平方和,即自变量的变化引起因变量的变化。 S =∑ni=1(yi - y^i)2 称为剩余平方和,由实验误差所引起。

根据回归分析理论,回归系数 β 的波动不仅与误差的方差σ2 有关,而且还与观察点的分布范围大小有关。 xi 分布越宽,则 β 的波动越小,即对 β 的估计越精确。β 的波动还与试验样本的大小有关,n 越大,估计越精确。

在什么地方取样,样本就是那个地方的信息,它不代表其他地方的信息。 基于局部的回归结果,除了机理模型外不能向实验区域之外延拓,不能预报实验区域以外的值。 可以尝试去预报,未经检验证实无效,那是高风险的。

参 考

  1. 茆诗松,丁元,周纪芗,吕乃刚编著,《回归分析及其试验设计》,华东师范大学出版社,上海,1981
  2. T.Hastie,R.Tibshirani,J.Friedman, The Elements of Statistical learning, Springer-Verlag,New York,2001
  3. J.S.Milton, Jesse C.Arnold, Introduction To Probability and Statistics,(Third Edition ),1995

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!