1. 回归试验设计的质量要素
试验设计的品质直接关系到试验的结果,因此,对试验设计需要有一些品质要求。 20 世纪初,试验设计创立时,基于区组设计,费歇提出了实验设计应遵循的三个原则:随机化,局部控制和重复。这一思想当今仍然有效。但试验设计与数据处理技术较那时有了重大进展。各种数据处理技术对试验设计的要求不尽相同。根据回归分析技术的特点,回归试验设计应该具有随机性,均衡性和适度稠密三项品质要素。
2. 随机性
如果采样点不是随机的,就会发生偏颇,被忽略的区域没有试验点,这些区域的特性就不能反映出来。 系统有可能被人为操控或由偶然性导致样本偏畸,结论失去或部分失去客观公正性而带有主观色彩。 甚至被利用来制造假数据,诱导出伪理论,欺世盗名。 荒谬的结论不一定都由主观故意,有两种技术上的原因。第一,偶然性的巧合能使拟合模型错误。 如所周知,周期函数的周期与采样点的某种巧合可以把曲线误解释为直线。 四个试验点可以巧合成平面上的四个点,从而把曲面误判为平面。采样点随机地安排,巧合的概率就会非常小。 第二,试验设计不合理,实验模型错误,导致错误的结论。这种情况屡见不鲜。这与试验点是否随机无关,另当别论。
3. 基于概率论的均匀分布理论
为了讨论均匀性,我们首先回顾概率论与统计学关于均匀分布的结果。
均匀分布是概率论与统计学的一个范畴,在某些概率与统计学著作中曾经用专门的节(目)加以论述, 某些著作则放在习题中[4],意味着这个概念的常识化。实际上,这个概念是个很难理解的概念,远远没有达到常识化的程度。辑录一些资料,以供参考。
3.1. 一元随机变量的均匀分布[1]
如果一个质点落在 (a,b) 中任何区间内的概率与这个区间的长度成正比,则称这个随机变量 ξ 服从均匀分布。
3.2. 二元随机变量的均匀分布
设 G 是平面上的有界矩形区域,面积为 A,若二维随机变量 (X,Y) 具有概率密度
则称 (X,Y) 在 G 上服从均匀分布[2]。
3.3 二元随机变量的均匀分布问题的一个习题[3]
设随机变量 (ξ, η) 在矩形区域 a≤x≤b, c≤y≤d 内服从均匀分布。
- 求联合分布密度及边际分布密度;
- 检验随机变量 ξ 与 η 是否独立;
- 求 (ξ, η)的联合分布函数
解:
- 依题意可设 (ξ, η) 联合分布密度为
-
为了检验 ξ, η 是否独立,求出它们的边际分布密度。在矩形 (a,b;c,d) 上有
可见,不论 (x,y) 如何,总有 φ(x,y)=φξ(x)φη(y), 即, ξ与 η 是独立的随机变量.
-
ξ, η 的联合分布函数是
当 x< a 或 y< c 时,积分区域内 φ(x,y)=0,此时
F(x,y)=0; 当 a≤x≤b,c≤y≤d 时,
当 x>b,c≤ y≤d 时,
当 a≤x≤b,y>d 时,
当 x>b,y>d 时,
3.4. 多元随机变量的均匀分布
不难将概率论关于均匀分布的定义引伸到多元随机变量。3.4.1 多元随机变量均匀分布的定义
设 D 是 m 维有界区域,体积为 V, 若随机变量ξ=(ξ1,...,ξm) 具有联合分布密度
则称 ξ 在 D 上服从均匀分布。
3.4.2 均匀分布的多元随机变量的数字特征
ξ=(ξ1,...,ξm) 在矩形区域 D:{ai,bi|i=1,...m} 上具有性质:
(a) ξ 的数学期望 E(ξ)=(Eξ1,...,Eξm)= (ai + bi)/2|(i=1,2,...,m);
(b) ξ 的方差是一个单位矩阵 I。
且 ξi相互独立。
3.4.3 多元试验设计试验点分布的均匀性判别问题
由 3.2 目,一个多元随机变量的分布如果是均匀的,它就具有该节的两个数字特征。 其中 (a) 常常被表述为边际分布是均匀的。(b) 则表述为它是(零相关)正交的。 注意加粗的 6 个字。把这命题换成否命题,也是正确的。但逆命题是不正确的。 也就是说, 如果一个设计的边际分布是均匀的,而且也是正交的,其分布可以不是均匀的。 我们已经看到了许多这样的例子。详见 堆叠法 。 所谓 ξ 的方差是一个单位矩阵I ,只不过是这些变量的相关系数的一种平衡。 只要两个变量的二元点阵的二级矩在该矩形区域上是平衡的,这两个变量就会是正交的,包括 × 形分布。 因此,上述条件不是均匀性判别准则,仅仅是一个判别的必要条件而不是充分条件。
显然,不满足这个必要条件的设计绝不是均匀分布的。换句话说,不正交的设计绝不是均匀设计。 因此,均匀设计存在于正交设计集合之中,是其子集,从其中遴选。
在我们的日常生活中,常常使用均匀,比较均匀,很不均匀,用这样的语言表示均匀性差异,与概率论与统计学的均匀分布范畴不相同。在试验设计中,使用均衡一词可以避免这种误会。就是说,概率论与统计学中的均匀分布是做不到的,我们还无法判别一个分布是否是均匀的。但我们可以力求均衡,也就是我们日常所说的尽量均匀一些的意思。
关于均匀性判别的理论,讨论起来比较麻烦。方开泰描述了一些准则。我个人认为不够准确。方开泰定义偏差(discrepancy) 这个统计量作为判别量。理论上,只有偏差是 0 才是均匀的。而这些统计量的计算公式是一个泛函经过多次简化的结果。这个泛函是个多重积分,积分的核是个有理函数,数值积分积不出一个精确的值。 本身就有很大的误差,他怎么去做判官。偏差永远不会是 0. 在任何情况下不能判别一个设计是否均匀。 至少我没有在任何版本的均匀表中找到一个均匀分布的设计,连正交也不是。
均匀设计可欲而不可求。但是相对的均匀性、均衡性可求。我们可以在正交阵列中寻找均衡性比较好的列向量作为优选对象。坦率地说,目前在微机上实现这种优选也非常困难,所需计算时间太长。我们目前对超立方设计采取的办法是,设 (L-1)2<n≤L2, 在两个因子的变化区域中将每个变量的取值区间均匀划分成 L 段,两个变量的矩形区域被网格划分为 L2 个小区域。因为平均每个小区域不多于一个点,每个这样的小区域不应该包含两个及其以上的点数,如果出现了这种情况,该设计相对不够均匀,包含两个及以上点数的小区域越多,越不均匀。坦率地说,让每两个因子之间的点阵都是每个小区域不多于一个点,做不到。实践表明,即使每个小区域恰有一个点的设计并不一定零相关正交。因此,这种优选应该在正交阵列的集合中选择。
4. 试验点密度对结果的影响
试验点的密度应该与试验范围的大小相适应,试验点密度太低,试验范围内试验点筹码度不够,意味着大片大片区域的信息没有得到反映。 这是不均匀性的一种表现形式。
除非事前能肯定地知道过程是线性的,否则不能使用二水平试验方案。作了这样的安排,就必须安排一个中心点诊断过程的线性性是否成立。二水平试验规模再大,最大值点一定在区域边界上,也不能确定区域内部优化的,参考极值原理. 因此,如果优化点在研究区域的内部,不宜使用二水平设计。如果试验范围很大,即使插入中心点,可以验证线性假设,要确定优化点,显然不会很精确。估计的优化点离真正的优化点可能有一定的距离。需要增加试验点,或增加一组试验去提高优化精度。
理论上,通过三水平试验的效应估计去用抛物线拟合估计极值点位置。如果试验范围很大,估计精度不会精确,估计的优化点离真正的优化点可能有一定的距离。需要增加试验点,或增加一组试验去提高优化精度。 需要特别指出,齐整正交表用于回归设计,三水平试验每个因子自身占一列,交互效应需要两列。 如果过程是非线性的,L9(34) 甚至不能完成两个因子的研究。 忽略交互效应,则势必出现效应的叠加与混合。增加试验点稠密度,需要增加水平数,试验数会迅速增加。 而四水平试验的一个交互效应需要占用三个四水平列。L16甚至不能完成两个因子的研究。 所以,齐整正交表用于回归设计不是很合适。非齐整不能规则的正交设计就有了用武之地,参见 弱相关试验设计(修订)和 介绍正交超立方试验设计表 。 在回归分析中,一个因子只占用一个自由度,交互因子也不例外。 我们以后将进一步介绍。
5. 注
正交(零相关)或弱相关是试验设计的重要品质,但不是必要的。 如果具备向后逐步回归(向前逐步回归需要大样本,效果远不如向后逐步回归)或具有类似能力的试验分析条件,允许试验设计具有一定的相关性。 可以估计出各个因子的效应。如果不具备此类条件,试验设计就应该是正交的或弱相关的,以便用简单的计算工具可以估计因子的效应而较少相关性,选择显著因子子集。 有关回归分析方法的问题,我们另文介绍。
参考
- 复旦大学数学系主编,《概率论与数理统计》(第二版),上海科学技术出版社,上海,1961
- 浙江大学数学系高等数学教研组编,《概率论与数理统计》,人民教育出版社,北京,1979
- 关家骥,瞿永然编,《概率统计习题解答》,湖南科学技术出版社,长沙,1980
- J.S.Milton, Jesse C.Arnold, Introduction To Probability and Statistics,(Third Edition ),1995
- 方开泰, 均匀设计, 应用数学学报,1980, 卷3(4)363-372
- 方开泰, 《均匀设计与均匀设计表》,1994,科学出版社
- 方开泰,马长兴 著,《正交与均匀实验设计》,科学出版社,北京, 2001
- 茆诗松,丁元,周纪芗,吕乃刚编著,《回归分析及其试验设计》,华东师范大学出版社,上海,1981
- R.I.Jennrich 编著,杨自强译,逐步回归,《数字计算机上用的数学方法》卷Ⅲ(4),科学出版社,北京,1981