论最小二乘法回归分析中的几个问题
回归分析方法是常用的数理统计方法,它用来处理变量之间的相关关系,在科学研究、工程技术等各个领域均有广泛的应用。由于回归分析是通过试验数据研究变量之间的相关关系,故使用此方法时,需要判断相关关系是否密切(对回归方程进行显著性检验)。水文计算的一些文献[1][2]中,指出相关系数的绝对值|r|>0.8作为判别标准,而没有明确使用此标准的前提。另外,使用最小二乘估计,有时尽管回归方程显著,但回归方程中回归系数的符号与实际问题不符,即回归系数出现错误符号,显然这种情况下的回归方程是不能使用的。本文针对相关系数的绝对值|r|>0.8判别标准的来历以及回归系数错误符号的原因分析等进行论述,以期达到回归方法的正确使用。
1 相关系数临界值0.8的来历
水文上,常用0.8作为判别相关关系是否密切的监界值。例如文献[1][2]中均提到相关系数绝对值|r|>0.8时,认为相关密切。事实上,这一标准是针对一元线性回归观察值组数n≥10时的一种简便的判别方法,不具有普遍意义。若忽略了n≥10这一条件,则可能会导致错误的结论。关于这一点可以从相关系数显著性检验制成的相关系数临界值表中容易得到解释。
对于多元线性回归,F检验法的统计量F和复相关系数R分别为[3]:
式中 n——观测数据组数
m——自变量个数
u——回归平方和
Q——残差平方和
设显著性水平为a、自由度为(m,n-m-1)的F检验法的临界值为:Fa(m,n-m-1),并简记为Fa,利用式(1)(2)可以导出F≥Fa等价于:
时相关系数灵敏检验法的临界值,以下简记为Ra。
当R≥Ra时,线性回归方程显著。
对于一元线性回归,令Ra(n-2)=ra,简单线性相关系数r2=u/(Q+u),|r|=R,当|r|≥ra时,线性回归方程显著。
对于Ra已制成相关系数检验临界值表[3,4]。以一元线性回归为便,由此表可得表1中的数据。
可见,当a=0.01,n=10,|r|≥0.765≈0.8,回归方程效果显著。
由上表可知,当a=0.01,n≥10时,|r|>0.8>ra。即n>10时,ra<0.8。在水文计算中回归分析用于插补延长系列,从避免有较大误差提高设计成果精度的角度,将n≥10时|r|>0.8作为相关密切的简易判别标准。但绝不能不问n等于多少,而笼统地认为只要|r|>0.8,则相关密切。
同时,还应注意,相同a相关系数临界值Ra将随自变量个数m的增大而增大。便如对于三元线性回归,当n=10时,由文献[4]中相关系数临界值表可查得a=0.01时,R0.01=0.911。切忌不分具体情况,一概而论,盲目使用|r|>0.8的判别标准。
2 回归系数错误符号的原因及分析方法
为讨论方便,需引进一般多元线性回归模型
通常称X为多元回归模型的设计阵。
最小二乘原则确定回归系数具有良好的性质,例如当假设ε~N(0,σ2)时,可对回归方程进行显著性检验,经验回归系数是理论回归系数的无偏估计量等。但最小二乘估计有时会出现某些自变量的回归系数的符号与实际问题不符的不合理现象,以下实例就说明了这一点。
某承压水漏斗区漏斗中心历年最低水位、历年开采量资料见表2。漏斗中心最低水位出现在每年6月底、7月初。利用水均衡方程分析表明,影响第t+1年漏斗中心最低水位的主要因素为第t年漏斗中心最低水位和第t年漏斗区开采量。根据1976~1995年数据建立线性回归方程为:
h(t+1)=0.8963 h(t)+0.0150 Q(t)-9.3952 (5)
式中h(t)、h(t+1)分别为第t年、第t+1年漏斗中心年最低水位m; Q(t)为第t年年开采量,106m3。
从物理成因上分析容易得出,开采量对漏斗中心最低水位的影响为负相关,即开采量越大,漏斗中心水位越低,但回归方程中Q(t)的系数却为正值,显然是不合理的。尽管式(5)经过显著性检验回归效果显著(复相关系数R=0.969,相关系数临界值R0.01=0.662),但这样的模型是不符合实际的。
为什么回归系数会出现错误符号?理论分析[5]和实践均表明,当设计阵X接近奇异时,正规方程组的唯一解虽然存在,但最小二乘估计的性能会变坏。X接近奇异,也就是X的列向量接近线性相关,这种自变量之间的近似线性关系,称为复共线关系,或复共线性。复共线关系的存在是回归系数错误符号的主要原因。
判断设计阵复共线性关系的简便方法是计算自变量之间的相关系数。实例中h(t)与Q(t)的样本相关系数为-0.90,有近似线性关系,也即设计阵X的列向量接近线性相关,这正是导致式(5)回归系数错误符号的原因。
对于复共线关系存在且各自变量确实对倚变量均影响显著,则应该用其它回归方法,例如岭回归、残差绝对值准则回归等,不能将回归系数存在错误符号的回归方程应用于实际。
3 结语
本文论述了水文计算中采用相关系数0.8作为相关是否密切的判别标准的来历和使用条件,指出此标准并不具备普遍意义。结合实例分析了导致回归系数错误符号的原因,给出了判断设计阵存在复共线性的简易方法。搞清这些对于正确使用最小二乘法回归计算,进行有效的数据分析,将具有重要的意义。
参考文献
?1?蒋金珠.工程水文及水利计算?M?.北京:水利电力出版社,1992.
?2?殷兆熊.水文水利计算?M?.北京:中国水利水电出版社,1994.
?3?王俊德.水文统计?M?.北京:水利水电力出版社,1993.
?4?费勤贵.水文统计学?M?.北京:水利电力出版社,1991.
?5?方开泰.实用回归分析?M?.北京:科学出版社,1988.
- 1污水泵站施工组织设计60p
- 2中铁二局股份有限公司副总经理林原到成都地铁项目指导华阳站大干工作
- 3浅谈如何搞好柞蚕场水土保持工作
- 4高位转换超高层整体结构振动台试验设计
- 5管理者常见的11种错误做法,你中招没
- 6焊接检验-7
- 7某机场航站楼防台应急预案
- 8管道疏通作业谨防发生中毒
- 9QHSE三标整合与一体化探讨
- 10工信部连发七文解读中国制造2025
- 11委托代理式管理模式特点
- 12如何选用天然饰面石材?
- 13国那里灌区节水灌溉建设工作总结
- 14高层住宅现浇混凝土外墙外保温体系的施工实践
- 152015年监理工程师《三控》专家预测题(6)
- 16[广东]铁路工程框架型板式无砟轨道施工方案
- 17一级建造师管理与实务复习要点:供热管道
- 18一级建造师管理与实务复习要点:桥梁分段施工
- 19河坝堤防工程投标文件
- 20浅析强夯法在实际工作中的应用
- 21攀缘植物在园林造景中的应用初探
- 22转变城市发展理念 综合破解“水”问题
- 232015招标师采购合同管理第三章命题点:国内外货物的评标价格构成
- 24国企类型化改革路径
- 25某水库防洪抢险应急预案
- 26六盘山特长大隧道掘进破万米 预计2016年10月完工
- 27让世界更畅通 使企业更辉煌——访中国港湾工程有限责任公司董事长莫文贺
- 282015年咨询工程师考试《咨询概论》讲义精选四(3)
- 29烟海高速连接线工程进展顺利
- 30电气安装预算常识
成都公司:成都市成华区建设南路160号1层9号
重庆公司:重庆市江北区红旗河沟华创商务大厦18楼