学习回归分析篇---之最小二乘回归概述

in cn •  6 years ago 

工艺优化的全部工作就是如何设计试验使得到的这些数据能够代表过程的实际状况, 从而从对这些数据的分析中得到对过程规律的认识,并利用这种认识去找到优化的工艺, 达到优化生产的目的。所谓优化的工艺,在数学上就是一组好的参数,它使生产出来的产品质量好而成本低。 好的开发技术则使实验数少,开发周期短,需要的开发资金少,更快地得到这组优化的参数。

现代开发技术借助数学方法来达到这一目的。数学有一个分支叫做统计学,借助统计学方法, 从凌乱的实验数据中找出数据间的规律。回归分析是最重要的一种方法之一。 它找出试验变量与响应变量之间的关系。

我们现在假定一组反映过程性质的试验数据已经得到,演示如何处理数据得到预报方程? 首先去掉表 1 的表格形式,得到一个矩阵,如表 2.1。

表 2.1 实验数据从实验数据整理格式转化为矩阵形式
这张表称为试验样本,左边只与自变量有关,记作 X,右边部分只与因变量有关,记作 Y。可以简单地写作
(X; Y) ------(2.1)
表 2.1 也被称作信息矩阵,X 与 Y 也分别是矩阵,X 称为采样方案(试验设计),Y 称为响应矩阵。 表 2.1 的每一行是一个实验,那么,第 i 个试验可以这样写,(xi,yi)=(xi1,xi2,...,xim; yi1,yi2,...yiq). 其实,我们最关心的是试验设计 X 的列,一个列反映一个因子(变量)的水平分布状况。第 i 个因子(列)这样写, xi=(x1i,x2i,...,xni)T, 这里“ T” 表示把一个竖立的列横着写,占地方小。 在这一记号下,试验设计简单地记成: X=(x1,x2,...,xm)。 为简单起见,我们暂时假定只研究一个响应变量,用一个小写的 y 表示,全部 n 个试验结果, 写成y=(y1,y2,...,yn)T

试验分析的全部操作在于找出响应变量与因子之间的关系。 掌握住了这个关系就掌握了这个过程的规律。 用户需要什么样的产品,就可以调节参数生产出什么样的产品,质量好,消耗低。 最小二乘回归分析只处理线性模型,假定 y 与 X 之间的关系具有线性形式,
y=b0+ b1x1 + b2x2 +...+ bbxm + e ------(2.2)
式中 e 代表误差。一个实验的误差是多少是不知道的,回归分析程序会估计这些误差。如果过程的规律不是这个形式,就必须化成这种形式。多项式可以通过建立虚拟变量,把那些非线性项代换成一个虚拟变量,例如,可以建立一个虚拟的变量,xk=x1x2。某些函数,log,exp,sin,cos 等等也可以参照这样的方法处理。更复杂的函数,可能需要展开成多项式,然后再代换。

为方便起见,我们暂时假定,我们研究的过程就是线性的。后面我们先介绍一元线性回归,然后介绍一元非线性过程的处理。任何一本统计学教程都会讲回归分析,后面要反复用到这些知识。要了解更多,请参考有关著作。 中文著作,我推荐茆诗松 丁元 周纪芗 吕乃刚编著《回归分析及其试验设计》(华东师范大学出版社(1981)), 尤其推荐 R.I.Jennrich,杨自强译 逐步回归《数字计算机上用的数学方法》卷Ⅲ(4),(科学出版社(1981))等。 英文著作中, T.Hastie, R.Tibshirani, J.Friedman, The Elements of Statistical learning (Springer, New York,(2001)), 和 J.S.Milton, Jesse C.Arnold, Introduction To Probability and Statistics,(Third Edition ),(Irwin McGraw-Hill NY 1995) 是美国工科高校的教材。

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!