应用回归分析实验报告
日期:20 14 年 月 日
第二篇:实验报告4 回归分析(1)
实验四 回归分析的SAS过程(1)
实验目的:掌握利用SAS建立多元回归方程的方法,掌握PROC REG过程,并能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制.
实验要求:编写程序,结果分析.
实验内容:
1.写出多元线性回归模型,给出经验回归方程,回归系数向量、误差方差的估计
公式;
2.写出平方和分解公式,线性回归方程、回归参数的显著性检验步骤(假设、统计量及分布、检验p值),说明何时线性关系显著? 给出因变量预测值及置信区间?
3.书上作业 2.3(单) 2.4
1:多元线性回归模型:
N组数据()(i=1,2,....,n)
矩形形式 ,
观测向量;
经验回归方程:
其中
回归系数向量:
误差方差的估计:
2:(1)平方和分解公式
——总离差残差平方和(Total Sum of Squares)
——残差平方和(Error Sum of Squares)
——回归平方和(Regression Sum of squares)
(2)线性回归方程
(3)回归参数的显著性检验步骤
1. 总离差平方和分解
——总离差残差平方和(Total Sum of Squares)
——残差平方和(Error Sum of Squares)
——回归平方和(Regression Sum of squares)
2. 复相关系数及检验
检验假设:
定义 ——复相关系数
引进统计量
给出显著性水平,则拒绝域为:.
检验值,,时,落入拒绝域,因此拒绝,认为与线性回归显著;否则线性关系不显著.
注意:SST自由度,SSR自由度,SSE自由度.
3.预测及统计推断
一元线性回归模型
样本
系数的点预测和区间估计
点估计
的置信区间
因变量的点估计和区间估计
给出,的预测值
的置信区间
3:作业2.3
(1)
(2)
(3)
作业2.4
data examp2_4;
input y x1-x2;
cards;
162 274 2450
120 180 3254
223 375 3802
131 205 2838
67 86 2347
169 265 3782
81 98 3008
192 330 2450
116 195 2137
55 53 2560
252 430 4020
232 372 4427
144 236 2660
103 157 2088
212 370 2605
;
run;
procreg data=examp2_4;
model y=x1-x/i;
run;
data bb;
set examp2_4;
z=x1*x2;
run;
procreg data=bb;
model y=x1-x2 z;
run;
procreg data=examp2_4;
model y=x1-x2;
output out=a p=predict r=resid h=h student=r ;
run;
data b;
set a;
drop x1-x2;
run;
procprint data=b;
run;
(1)关于的预测
SAS 系统
The REG Procedure
Model: MODEL1
Dependent Variable: y
Number of Observations Read 15
Number of Observations Used 15
X'X Inverse, Parameter Estimates, and SSE
Variable Intercept x1 x2 y
Intercept 1.2463484164 0.0002129664 -0.000415671 3.4526127899
x1 0.0002129664 7.732903E-6 -7.030252E-7 0.4960049761
x2 -0.000415671 -7.030252E-7 1.9771851E-7 0.0091990809
y 3.4526127899 0.4960049761 0.0091990809 56.883565559
由上表1-4行,2-5列构成的矩阵为
,,代入得
--------经验回归方程
(2)由方差分析表进行统计推断:
SAS 系统
The REG Procedure
Model: MODEL1
Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 2 53845 26922 5679.47 <.0001
Error 12 56.88357 4.74030
Corrected Total 14 53902
Root MSE 2.17722 R-Square 0.9989
Dependent Mean 150.60000 Adj R-Sq 0.9988
Coeff Var 1.44570
从方差分析表得出;
线性回归关系显著性检验:
统计量,其观测值
,拒绝,认为与的线性回归关系是高度显著的.
另外,由方差分析表给出, 也表明线性回归关系高度显著.
Model: MODEL1
Dependent Variable:
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 3.45261 2.43065 1.42 0.1809
x1 1 0.49600 0.00605 81.92 <.0001
x2 1 0.00920 0.00096811 9.50 <.0001
由程序结果给出参数估计值,检验假设,
对给出显著性水平,由参数估计表最后一列检验值看出,,拒绝,认为()对均有显著影响.
(3)回归参数的区间估计
进一步,取置信水平,由于,利用表中的参数估计值和相应的标准差估计式,求得的置信度95%的置信区间分别为
(4)交叉乘积项全模型拟合检验程序
SAS 系统
The REG Procedure
Model: MODEL1
Dependent Variable: y
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 4.90113 8.53869 0.57 0.5775
x1 1 0.49110 0.02832 17.34 <.0001
x2 1 0.00867 0.00312 2.78 0.0180
z 1 0.00000170 0.00000956 0.18 0.8622
说明添加交叉乘积项后,自变量对影响反而不如未添加显著。不用引入交叉成绩项。
(5)
对于给定的值,由经验回归方程可得预测值
令,由直接计算可得
的置信度为95%的置信区间
此置信区间的长度较小,因而对实际有较好的参考价值.
(6)
SAS 系统
Obs y predict resid r h
1 162 161.896 0.10428 0.05194 0.14974
2 120 122.667 -2.66732 -1.31981 0.13837
3 223 224.429 -1.42938 -0.72773 0.18613
4 131 131.241 -0.24062 -0.11483 0.07374
5 67 67.699 -0.69928 -0.35782 0.19432
6 169 169.685 -0.68486 -0.34674 0.17701
7 81 79.732 1.26806 0.66641 0.23617
8 192 189.672 2.32800 1.22833 0.24224
9 116 119.832 -3.83202 -1.92482 0.16388
10 55 53.291 1.70948 0.91733 0.26740
11 252 253.715 -1.71506 -0.92966 0.28203
12 232 228.691 3.30921 1.89100 0.35396
13 144 144.979 -0.97934 -0.46960 0.08250
14 103 100.533 2.46693 1.24299 0.16906
15 212 210.938 1.06194 0.57619 0.28343
由表student对应列可知, 中有落在(-1, 1)内;
有落在(-1.5, 1.5)内; 有落在(-2, 2)内.由此可见学生化残差落在上述各区间内的频率与分布的相应概率相差均不大,因此对所给数据没有理由拒绝模型误差项服从正态分布的假定.
代码:
procreg data=examp2_4;
model y=x1-x2;
output out=c student=r ;
run;
proccapability data=c graphics noprint;
qqplot r/normal(mu=0 sigma=1);
run;
故服从正态分布。