做审稿专家在审稿过程中偷窃作者的创意和结果,加以改写,抢先发表变成自己的成果,这种行为严重侵蚀了学术的纯洁性。由于改写过程通常伴随偷换概念,叙述错误,传播谬误。C.Devon Lin 与 Boxin Tang 演示了一个典型案例。
2006 年 3 月 5 日,我给《数学的实践与认识》投了一篇稿件《弱相关试验设计》, 初审竟达 19 个月,2007 年10月 6 日收到《修复录用》通知。三条修改建议,两条可改可不改,一条是错的。 2007 年 12 月 2 日提交修改稿。又等了 7 个月,才收到交纳版面费后排队付印通知。 缴费后又等了9个月,2009年 2 月刊于 Vol.39, No.3, 99-107, (以下简称 He(2009))。比正常稿件多了一年。 我很纳闷,这三年里,我的稿件在谁手里耽误。
2016 年,偶然发现加拿大著名的 Simon Fraser 大学的 Chunfang Devon Lin, Boxin Tang 两位博士的一些论文, 我的稿件中的创意、系统设计和包括零相关试验设计与弱相关试验设计的概念定义、零相关设计的存在性定理、 优化准则、交换算法、零相关-弱相关设计的直接构造方法,堆叠运算的定义及正交矩阵的堆叠原理等 在内的几乎所有创新要素都出现在他们的论文中。
两个独立作者怎么可能有那么多巧合。如果 Boxin Tang 不是我的稿件的审稿人便一定是审稿人的密友, 作为 Tang 的博士生,Lin 是代理审稿人,她(他) 控制了我的稿件的审稿进程,并系统性地偷窃了我的作品。
Lin 的博士论文批准之日为 2008年6月20日,恰在其后三天 2008 年 6 月 24 日我收到那个缴纳版面费排队付印的通知。 在我提供修改稿后两个月内,Lin 和 Tang 紧急发表了一篇纯粹为了抢注他人成果的短而粗糙的论文[Biometrika, Volume 96, Issue 1, March 2009, Pages 243–247]、
该文具有显著的偷窃抢注特征:
缺乏基本的知识准备;
缺乏基本的理论准备;
缺乏基本的工具准备;
文章粗糙,造假与欺骗;
投稿仓促,抢时间快速发表;
拉名人署名;
拉熟人审稿。
什么是LHD, OLHD 和 NOLH?文中没有定义。文章主体节描述的是 Steinberg & Lin (2006)的构造 Ye(1998) 定义的OLHD的方法。可以理解为遵从文献定义,但在 Lin(2008) 和 Line(2010) 中,作者明明白白不遵从文献定义,用Ye(1998) 的 LHD 类的实例定义 LHD 类,用零相关定义 OLHD。 Hedayat 在拉丁空间(离散)定义 OA,准确地注释,术语 Orthogonal 不意味着内积是 0。 Lin 等给拉丁符号赋予数值属性,给拉丁向量赋予数字特征, 把实欧氏空间的全部属性都搬进拉丁空间,使其变成了实欧氏空间,连起码的说明都没有。
Steinberg & Lin (2006) 方法显然不能构造出所有 OLHD,但作者抢注的不是用这一方法构造出来的,而是用我的方法构造出来的。
我的稿件有完整的交代。零相关矩阵采用序贯构造方法,以 “ R 中绝对值最大的非主对角线元素” mcc 为优化目标函数,通过选择分量进行交换使 mcc 极小化。 “有两种情况引起构造弱相关设计的要求:当 n=4k+2 时不存在零相关阵列,可以用弱相关矩阵来近似;当零相关列数太少,可以补充一些弱相关列来满足设计的需要。......弱相关矩阵可以看作为含有小误差的零相关矩阵,微弱的相关性可以忽略,总体的回归系数的最小二乘估计相关性比较弱。...同零相关设计一样,可以序贯地构造。如果存在零相关矩阵,在零相关矩阵的基础上,继续采用前面的方法,逐步追加新的列向量;如果不存在零相关矩阵,从第 2 个列向量开始追加新列。可以得到 n x (n-1) 维弱相关矩阵。本文方法构造的弱相关矩阵各级子阵的最大相关系数逐列递增不减。要使设计获得小的相关性,可以空闲出右边的某些列,直至只用零相关列。”
作者正是这样做的:“In each of these, the maximum absolute correlation between any two columns is at most 0·05. Above each nearly orthogonal Latin hypercube, we show the vector (max, ave, det), where ‘max’ is maximum absolute correlation,..." 这里the maximum absolute correlation between any two columns 就是我的 mcc。作者的记号是 max。 就是这个max,在其提交修改稿(2008年6月)的同一个月宣读博士论文时,作者声明使用的优化准则是 ρ2M 而不是 ρM , 即 Lin(2009) 中的 max, 亦即 mcc, 都来自 Bingham(2008)。这里暴露了作者的骗局。 总导演 Boxin Tang 安排 Bingham(2009) 先行抢注 ρM,由于紧急抢注 OLHD 和 NOLH 的需要, 紧急投稿 Lin(2009) 并提前 1 年与 Bingham(2009) 在同一期发表,临时定义一个 max。 博士论文在2.4.3 节编造的是一场欺骗读者并掩盖盗窃真相的谎言。
采用不同的优化准则意味着不同的构造算法。mcc 的形式最简单,编程最容易,运行速度最快,而且它能直接计算出相关性置信概率 p 值;而 ρ2 形式最复杂,编程最麻烦,计算速度最慢,不能计算 P 值。粗略地比较,在同样的条件下执行程序,如果 mcc 需要的时间为 1,ρ2 大约需要 2.4。 作者的搜索循环限是9×106, ρ2 需要的时间将远远大于10, 以 runs=12 为例,Lin 算法所需时间是He 算法的时间的 2000 多倍。当 runs=21, Lin 算法所需时间是 He(2009)算法的 220 多倍。 如果 He(2009) 运行一轮需要 10 分钟,则 Lin 算法需要 2200 分钟,即 37 小时。应该采用什么准则,一目了然。 Lin & Tang 隐藏真实的算法,以假的算法示人,这不是造假是什么?这不是欺骗是什么?
作者用等值的计算公式定义相关矩阵和相关系数;用门槛冒充相关系数临界值。 关于相关系数的定义与计算公式的概念差异推荐参考《J.S.Milton, Jesse C.Arnold, Introduction To Probability and Statistics,(Third Edition )》(1995) 第425页和427页,或者复旦大学数学系主编,《概率论与数理统计》(第二版),上海科学技术出版社,上海,(1961), 或者任何一本严肃的统计学著作。 给 Nearly orthogonal 赋予弱相关意义,定义弱相关门槛 0.05. 作者的相关性与自由度无关,除了正交就都是 Nearly orthogonal。 世界上只有我定义了弱相关试验设计,解决了超立方类型,固定水平及混合水平阵列的存在条件问题,并且在笔记本电脑上构造了直到 33×32 维弱相关设计。 (注:目前已经算到 n=38 的包括此范围内的全部超立方类型和固定水平类型和部分混合水平类型阵列例), 在我的稿件中有声明,也有示例。作者的结果与我的结果完全相同。不同仅在于他们使用 0.05 的门槛代替相关系数临界值。
难道统计学家不懂临界值的概念?没有这样的统计学博士吧?我更相信该作者不是不懂,而是没有计算 Critical value for correlation coefficient 的计算程序。 我的全部软件包括回归分析系统和弱相关阵列的构造与统计检验系统都是自己在2005年设计的,1985年曾经在IBM 286 上用 FORTRAN IV 实现正交设计与回归分析系统。 Lin & Tang 借助现有 R 或类似统计软件包实现的,R 中当时没有相关系数临界值包。想偷,没有准备好工具,只好明火执仗地抢。 请比较
Critical value for correlation coefficient 不是我杜撰的。做数据处理的,这是常识。即使没有计算程序,可以查表。作者连查表的功课都不做,恐怕是真不懂了。 在中国的试验设计专家可以查阅 茆诗松,丁元,周纪芗,吕乃刚编著,《回归分析及其试验设计》(华东师范大学出版社,上海,1981)。
弱相关具有相对性,依应用工程不同而有别,相关性置信概率的门槛(这个门槛与该作者的门槛不同,是相关性置信概率而不是相关系数) 应根据应用对象的相关性要求的强度来确定。统计学规定 0.05,0.01 两种显著性水平,在误差比较大的工业试验中,相关性 0.25 甚至 0.4 这种信息也并非完全没有意义,它可能预示重要发现。但在确认和正式的学术报告中应当坚持 0.05 和 0.01 的显著性检定标准。依我的经验,作为试验设计,因子相关性越小越好,如果有向后逐步回归软件处理试验数据,试验设计的因子相关性可以放宽一些,向后逐步回归会在很大程度上矫正估计偏差,但计算比较麻烦,需要较长计算时间,效应估计偏差会大一些。所以,在构造弱相关设计模板时,我坚持构造 n-1 列,把选择权留给应用者。Lin 等给相关系数限定为 0.05,有什么理论根据或实践根据?上例中,根据什么排除相关系数 0.1071 的列?其相关性置信水平 α=0.819, p=0.181)。 如果你把这个 0.05 与相关性检定的0.05 显著性水平混为一谈,概念差异真不止十万八千里。作者在用错误概念搪塞,强行抢注。审稿专家赦免这样的错误,如果不是熟人故意干脏活就是拿了作者什么好处。
相关系数 0.05,对小样本 (小自由度) 表示低的相关性,对于大样本,其相关性置信概率可能很大, 意味着效应估计的相关性增大和回归分析增广矩阵蜕化的风险增加。 当 runs=10, r=0.05, 对应的 p= 0.1091,相关性比较弱。 当 runs=1000, r=0.05, p= 0.8857,当 runs=2000, r=0.05, p= 0.9746. 这些相关性很强。 即使作者文中用于抢注的例 NOLH(81,70),NOLH(121,108) 或 NOLH(169,168),按的计算报告是 当 n=169,p=0.481445; n=121, p=0.4140625; n=81, p=0.3422852。 In most applications, a maximum absolute correlation of at most 0·05 is acceptable 这种语言实在是对自己没有做好功课的搪塞。 这些 NOLH 都在你的可接受范围内。如果你不是装不懂,那你可能是真没有做好功课。如此匆忙抢注是为何?
为了提供一个讨论环境,请见
C.D.Lin and Boxin Tang Of QU and SFU Are Suspected Of Academic Theft And Fraud 。
Its An English edition of which is in a google website,
C.D.Lin etc PhDs of SFU Are Suspected Of Academic Theft and Fraud
欢迎您参与讨论。