一、一元线性回归基础概念
1、回归模型的数学方程:
Y=β0+β1*X1+β2*X2+…+βn*Xn+e
其中Y是因变量,也称为响应变量。X1,X2…,Xn,是自变量,也称为解释变量。β0是截距项,β1,β2.…,βn是自变量的系数,e是误差项。其中e~N(0,O2),且独立同分布。
2、回归系数的显著性检验
回归系数的显著性检验是检验变量Xj的系数是否为0,即假设检验为
Hj0:βj=0,Hj1:βj !=0,J=1,…,n
此时用t统计量检验,如果t统计量的P值<a(通常取0.05),则拒绝原假设,认为βj !=0。
3、回归方程的显著性检验
回归方程的显著性检验是检验是否可用线性方程来处理数据,也就是说,方程的系数是否全为0,即假设检验为:
H0:β0=β1=…=βn=0,H1:β0 , β1 , ……,βn不全为0。此时用F统计量检验,如果F统计量的P值<a,则拒绝原假设,即可以用线性方程来处理问题。
4、相关性检验
相关系数的平方定义为:R2=SSR/SST
用它来衡量Y与X1,X2 ,…,Xn,之间相关的密切程度,其中SST称为总体离差平方和,并且满足SST=SSE+SSR。当R2接近于0,可以认为Y与X1,X2 ,…,Xn之间不相关,接近于1表示相关。因此,可以使用R2作为衡量自变量与因变量是否相关的重要指标。
二、元线性回归分析
步骤:A.建立回归模型;B.求解回归模型中的参数;C.对回归模型进行检验。
R中,与线性模型有关的函数有:lm()、summary()、anova()和predict()。我们由例子入手,逐步学习这些函数。
例题:财政收入与税收有密切的依存依存关系。数据给出我们1978年改革开放以来到2000年共23年的税收(x,百亿元)和财政收入(y,百亿元)数据,试分析税收与财政收入之间的依存关系。
t | y | x |
1978 | 11.3262 | 5.1928 |
1979 | 11.4638 | 5.3782 |
1980 | 11.5993 | 5.717 |
1981 | 11.7579 | 6.2989 |
1982 | 12.1233 | 7.0002 |
1983 | 18.6695 | 7.5559 |
1984 | 16.4286 | 9.4735 |
1985 | 20.0482 | 20.4079 |
1986 | 21.2201 | 20.9073 |
1987 | 21.9935 | 21.4036 |
1988 | 23.5724 | 23.9047 |
1989 | 26.649 | 27.274 |
1990 | 29.371 | 28.2187 |
1991 | 31.4948 | 29.9017 |
1992 | 34.8337 | 32.9691 |
1993 | 43.4895 | 42.553 |
1994 | 52.181 | 51.2688 |
1995 | 62.422 | 60.3804 |
1996 | 74.0799 | 69.0982 |
1997 | 86.5114 | 82.3404 |
1998 | 98.7595 | 92.628 |
1999 | 114.4408 | 106.8258 |
2000 | 133.9523 | 125.8151 |
1、读入数据
dat=read.table("clipboard",header=T) ##在Excel中选取B1:C24区域,然后拷贝.
2、拟合模型
fm=lm(y~x,data=dat)
fm
于是得到回归方程:
3、作回归直线
plot(dat$x, dat$y)
abline(fm)
4、回归方程的假设检验
(1)模型的方差分析
anova(fm)
由于p<0.05,于是在0.05水平处拒绝原假设,即本例回归系数有统计学意义,x与y间存在直线回归关系。
(2)回归系数的显著性检验
summary(fm)
由于p<0.05,于是在0.05水平处拒绝原假设,即本例回归系数有统计学意义,x与y间存在回归关系。
5、预测值
当经过检验,回归方程是有意义时,可以用它作预测其他值。
new<-data.frame(x=700) ##输入新的点x=700,这里即时是一个点,也要采用数据框形式
lm.pred<-predict(fm,new,interval="prediction",level=0.95)##给出预测值,interval="prediction"指给出预测区间,level=0.95表示相应概率为0.95。
lm.pred ##fit为预测值,lwr是95%下限,upr是95%上限