回归试验设计的质量要素

in experimental-designs •  6 years ago 

1. 回归试验设计的质量要素

试验设计的品质直接关系到试验的结果,因此,对试验设计需要有一些品质要求。 20 世纪初,试验设计创立时,基于区组设计,费歇提出了实验设计应遵循的三个原则:随机化,局部控制和重复。这一思想当今仍然有效。但试验设计与数据处理技术较那时有了重大进展。各种数据处理技术对试验设计的要求不尽相同。根据回归分析技术的特点,回归试验设计应该具有随机性,均衡性和适度稠密三项品质要素。

2. 随机性

如果采样点不是随机的,就会发生偏颇,被忽略的区域没有试验点,这些区域的特性就不能反映出来。 系统有可能被人为操控或由偶然性导致样本偏畸,结论失去或部分失去客观公正性而带有主观色彩。 甚至被利用来制造假数据,诱导出伪理论,欺世盗名。 荒谬的结论不一定都由主观故意,有两种技术上的原因。第一,偶然性的巧合能使拟合模型错误。 如所周知,周期函数的周期与采样点的某种巧合可以把曲线误解释为直线。 四个试验点可以巧合成平面上的四个点,从而把曲面误判为平面。采样点随机地安排,巧合的概率就会非常小。 第二,试验设计不合理,实验模型错误,导致错误的结论。这种情况屡见不鲜。这与试验点是否随机无关,另当别论。

3. 基于概率论的均匀分布理论

为了讨论均匀性,我们首先回顾概率论与统计学关于均匀分布的结果。

均匀分布是概率论与统计学的一个范畴,在某些概率与统计学著作中曾经用专门的节(目)加以论述, 某些著作则放在习题中[4],意味着这个概念的常识化。实际上,这个概念是个很难理解的概念,远远没有达到常识化的程度。辑录一些资料,以供参考。

3.1. 一元随机变量的均匀分布[1]

如果一个质点落在 (a,b) 中任何区间内的概率与这个区间的长度成正比,则称这个随机变量 ξ 服从均匀分布。

换一种写法,分布函数为
分布密度函数为
其数学期望与方差分别为:
E(x)=(a+b)/2;
D(x)=(b-a)2/12.

3.2. 二元随机变量的均匀分布


G 是平面上的有界矩形区域,面积为 A,若二维随机变量 (X,Y) 具有概率密度



则称 (X,Y) 在 G 上服从均匀分布[2]

3.3 二元随机变量的均匀分布问题的一个习题[3]

设随机变量 (ξ, η) 在矩形区域 a≤x≤b, c≤y≤d 内服从均匀分布。

  1. 求联合分布密度及边际分布密度;
  2. 检验随机变量 ξ 与 η 是否独立;
  3. 求 (ξ, η)的联合分布函数

解:

  1. 依题意可设 (ξ, η) 联合分布密度为
    按分布密度性质有
  2. 为了检验 ξ, η 是否独立,求出它们的边际分布密度。在矩形 (a,b;c,d) 上有

    可见,不论 (x,y) 如何,总有 φ(x,y)=φξ(x)φη(y), 即, ξ与 η 是独立的随机变量.

  3. ξ, η 的联合分布函数是

    当 x< a 或 y< c 时,积分区域内 φ(x,y)=0,此时

    F(x,y)=0;

    当 a≤x≤b,c≤y≤d 时,

    当 x>b,c≤ y≤d 时,

    当 a≤x≤b,y>d 时,

    当 x>b,y>d 时,

    3.4. 多元随机变量的均匀分布

    不难将概率论关于均匀分布的定义引伸到多元随机变量。

    3.4.1 多元随机变量均匀分布的定义


    设 D 是 m 维有界区域,体积为 V, 若随机变量ξ=(ξ1,...,ξm) 具有联合分布密度



    则称 ξ 在 D 上服从均匀分布。

    3.4.2 均匀分布的多元随机变量的数字特征

  4. ξ=(ξ1,...,ξm) 在矩形区域 D:{ai,bi|i=1,...m} 上具有性质:

    (a) ξ 的数学期望 E(ξ)=(Eξ1,...,Eξm)= (ai + bi)/2|(i=1,2,...,m);

    (b) ξ 的方差是一个单位矩阵 I

    且 ξi相互独立。

    3.4.3 多元试验设计试验点分布的均匀性判别问题

由 3.2 目,一个多元随机变量的分布如果是均匀的,它就具有该节的两个数字特征。 其中 (a) 常常被表述为边际分布是均匀的。(b) 则表述为它是(零相关)正交的。 注意加粗的 6 个字。把这命题换成否命题,也是正确的。但逆命题是不正确的。 也就是说, 如果一个设计的边际分布是均匀的,而且也是正交的,其分布可以不是均匀的。 我们已经看到了许多这样的例子。详见 堆叠法 。 所谓 ξ 的方差是一个单位矩阵I ,只不过是这些变量的相关系数的一种平衡。 只要两个变量的二元点阵的二级矩在该矩形区域上是平衡的,这两个变量就会是正交的,包括 × 形分布。 因此,上述条件不是均匀性判别准则,仅仅是一个判别的必要条件而不是充分条件。

显然,不满足这个必要条件的设计绝不是均匀分布的。换句话说,不正交的设计绝不是均匀设计。 因此,均匀设计存在于正交设计集合之中,是其子集,从其中遴选。

在我们的日常生活中,常常使用均匀,比较均匀,很不均匀,用这样的语言表示均匀性差异,与概率论与统计学的均匀分布范畴不相同。在试验设计中,使用均衡一词可以避免这种误会。就是说,概率论与统计学中的均匀分布是做不到的,我们还无法判别一个分布是否是均匀的。但我们可以力求均衡,也就是我们日常所说的尽量均匀一些的意思。

关于均匀性判别的理论,讨论起来比较麻烦。方开泰描述了一些准则。我个人认为不够准确。方开泰定义偏差(discrepancy) 这个统计量作为判别量。理论上,只有偏差是 0 才是均匀的。而这些统计量的计算公式是一个泛函经过多次简化的结果。这个泛函是个多重积分,积分的核是个有理函数,数值积分积不出一个精确的值。 本身就有很大的误差,他怎么去做判官。偏差永远不会是 0. 在任何情况下不能判别一个设计是否均匀。 至少我没有在任何版本的均匀表中找到一个均匀分布的设计,连正交也不是。

均匀设计可欲而不可求。但是相对的均匀性、均衡性可求。我们可以在正交阵列中寻找均衡性比较好的列向量作为优选对象。坦率地说,目前在微机上实现这种优选也非常困难,所需计算时间太长。我们目前对超立方设计采取的办法是,设 (L-1)2<n≤L2, 在两个因子的变化区域中将每个变量的取值区间均匀划分成 L 段,两个变量的矩形区域被网格划分为 L2 个小区域。因为平均每个小区域不多于一个点,每个这样的小区域不应该包含两个及其以上的点数,如果出现了这种情况,该设计相对不够均匀,包含两个及以上点数的小区域越多,越不均匀。坦率地说,让每两个因子之间的点阵都是每个小区域不多于一个点,做不到。实践表明,即使每个小区域恰有一个点的设计并不一定零相关正交。因此,这种优选应该在正交阵列的集合中选择。

4. 试验点密度对结果的影响

试验点的密度应该与试验范围的大小相适应,试验点密度太低,试验范围内试验点筹码度不够,意味着大片大片区域的信息没有得到反映。 这是不均匀性的一种表现形式。

除非事前能肯定地知道过程是线性的,否则不能使用二水平试验方案。作了这样的安排,就必须安排一个中心点诊断过程的线性性是否成立。二水平试验规模再大,最大值点一定在区域边界上,也不能确定区域内部优化的,参考极值原理. 因此,如果优化点在研究区域的内部,不宜使用二水平设计。如果试验范围很大,即使插入中心点,可以验证线性假设,要确定优化点,显然不会很精确。估计的优化点离真正的优化点可能有一定的距离。需要增加试验点,或增加一组试验去提高优化精度。

理论上,通过三水平试验的效应估计去用抛物线拟合估计极值点位置。如果试验范围很大,估计精度不会精确,估计的优化点离真正的优化点可能有一定的距离。需要增加试验点,或增加一组试验去提高优化精度。 需要特别指出,齐整正交表用于回归设计,三水平试验每个因子自身占一列,交互效应需要两列。 如果过程是非线性的,L9(34) 甚至不能完成两个因子的研究。 忽略交互效应,则势必出现效应的叠加与混合。增加试验点稠密度,需要增加水平数,试验数会迅速增加。 而四水平试验的一个交互效应需要占用三个四水平列。L16甚至不能完成两个因子的研究。 所以,齐整正交表用于回归设计不是很合适。非齐整不能规则的正交设计就有了用武之地,参见 弱相关试验设计(修订)介绍正交超立方试验设计表 。 在回归分析中,一个因子只占用一个自由度,交互因子也不例外。 我们以后将进一步介绍。

5. 注

正交(零相关)或弱相关是试验设计的重要品质,但不是必要的。 如果具备向后逐步回归(向前逐步回归需要大样本,效果远不如向后逐步回归)或具有类似能力的试验分析条件,允许试验设计具有一定的相关性。 可以估计出各个因子的效应。如果不具备此类条件,试验设计就应该是正交的或弱相关的,以便用简单的计算工具可以估计因子的效应而较少相关性,选择显著因子子集。 有关回归分析方法的问题,我们另文介绍。

参考

  1. 复旦大学数学系主编,《概率论与数理统计》(第二版),上海科学技术出版社,上海,1961
  2. 浙江大学数学系高等数学教研组编,《概率论与数理统计》,人民教育出版社,北京,1979
  3. 关家骥,瞿永然编,《概率统计习题解答》,湖南科学技术出版社,长沙,1980
  4. J.S.Milton, Jesse C.Arnold, Introduction To Probability and Statistics,(Third Edition ),1995
  5. 方开泰, 均匀设计, 应用数学学报,1980, 卷3(4)363-372
  6. 方开泰, 《均匀设计与均匀设计表》,1994,科学出版社
  7. 方开泰,马长兴 著,《正交与均匀实验设计》,科学出版社,北京, 2001
  8. 茆诗松,丁元,周纪芗,吕乃刚编著,《回归分析及其试验设计》,华东师范大学出版社,上海,1981
  9. R.I.Jennrich 编著,杨自强译,逐步回归,《数字计算机上用的数学方法》卷Ⅲ(4),科学出版社,北京,1981

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!