SAS作业
发布时间:2016-11-29 15:07:57
发布时间:2016-11-29 15:07:57
实验设计与数据处理
第三章
(7)
(1) 金球。将数据输入SAS生成数据文件。
打开SAS Analyst选择数据文件。
采用One-Sample t-test for a Mean,将待分析变量x送入Variable中,在单击Tests,选中Interval,设置confidence level设置为90.0%。
SAS处理结果。
Sample Statistics for x
N Mean Std. Dev. Std. Error
-------------------------------------------------
6 6.68 0.00 0.00
Hypothesis Test
Null hypothesis: Mean of x = 0
Alternative: Mean of x ^= 0
t Statistic Df Prob > t
---------------------------------
4228.344 5 <.0001
90 % Confidence Interval for the Mean
Lower Limit: 6.67
Upper Limit: 6.68
μ的置信度为0.9的置信区间 (6.67,6.68)。
金球σ2置信度为0.9的置信区间。
采用One-Sample Test for a Variance,将待分析变量x送入Variable中,并在Null:Var中设置一个大于0的数,再单击Intervals,选中Interval,设置confidence level设置为90.0%。
Sample Statistics for x
N Mean Std. Dev. Variance
---------------------------------------------
6 6.6782 0.0039 15E-6
Hypothesis Test
Null hypothesis: Variance of x = 1
Alternative: Variance of x ^= 1
Chi-square Df Prob
---------------------------------
0.000 5 <.0001
90% Confidence Interval for the Variance
Lower Limit Upper Limit
----------- -----------
676E-8 0.0001
σ2的置信度为0.9的置信区间(676E-8,0.0001)。
(2) 铂球
铂球均值置信度为0.9的置信区间。
将数据输入SAS生成数据文件。
打开SAS Analyst,然后选择数据文件。
采用One-Sample t-test for a Mean,将待分析变量y送入Variable中,在单击Tests,选中Interval,设置confidence level设置为90.0%。
Sample Statistics for x
N Mean Std. Dev. Std. Error
-------------------------------------------------
5 6.66 0.00 0.00
Hypothesis Test
Null hypothesis: Mean of x = 0
Alternative: Mean of x ^= 0
t Statistic Df Prob > t
---------------------------------
4967.052 4 <.0001
90 % Confidence Interval for the Mean
Lower Limit: 6.66
Upper Limit: 6.67
μ置信度为0.9的的置信区间 (6.66,6.67)。
铂球方差置信度为0.9的置信空间。
设置参数,采用One-Sample Test for a Variance,将待分析变量y送入Variable中,并在Null:Var中设置一个大于0的数,再单击Intervals,选中Interval,设置confidence level设置为90.0%。
结果输出。
Sample Statistics for x
N Mean Std. Dev. Variance
---------------------------------------------
5 6.664 0.003 9E-6
Hypothesis Test
Null hypothesis: Variance of x = 1
Alternative: Variance of x ^= 1
Chi-square Df Prob
---------------------------------
0.000 4 <.0001
90% Confidence Interval for the Variance
Lower Limit Upper Limit
----------- -----------
379E-8 507E-7
由运行结果可知,σ的置信度为0.9的置信区间(379E-8,507E-7)。
(13)
本题是两个正态总体的参数假设检验问题。题目中已知两个总体方差相等,且相互独立。关于均值差u1-u2的检验,其SAS程序如下:
将数据输入SAS生成数据文件,然后运行:
打开SAS Analyst,然后选择数据文件,打开:
设置参数,采用Two Sample t-test for Means,并设置Mean1-Mean2=0,再将confidence level设置为95.0%:
结果输出:
Sample Statistics
Group N Mean Std. Dev. Std. Error
----------------------------------------------------
x 8 0.231875 0.0146 0.0051
y 10 0.2097 0.0097 0.0031
Hypothesis Test
Null hypothesis: Mean 1 - Mean 2 = 0
Alternative: Mean 1 - Mean 2 ^= 0
If Variances Are t statistic Df Pr > t
----------------------------------------------------
Equal 3.878 16 0.0013
Not Equal 3.704 11.67 0.0032
说明:因为在t 检验中p-value 值0.0013<0.05 (显著性水平),所以拒绝原假设,即认为两个作家所写的小品文中包含由3个字母组成的词的比例有显著的差异。
(14)
本题也是两个正态分布参数的假设检验问题,对方差进行假设检验,采用F检验,其相关SAS程序如下:
运行13题的数据文件,并且打开SAS Analyst,然后选择数据文件:
设置参数,采用Two Sample test for Variances,选择None,并将confidence level设置为95.0%:
结果输出。
Sample Statistics
Group N Mean Std. Dev. Variance
--------------------------------------------------
x 8 0.231875 0.0146 0.000212
y 10 0.2097 0.0097 0.000093
Hypothesis Test
Null hypothesis: Variance 1 / Variance 2 = 1
Alternative: Variance 1 / Variance 2 ^= 1
- Degrees of Freedom -
F Numer. Denom. Pr > F
----------------------------------------------
2.27 7 9 0.2501
说明:因为在F检验中p-value 值0.2501>0.05 (显著性水平),所以接受原假设,即认为两总体方差无显著性差异。
第四章
(1)
本题目属于单因素试验的方差分析,且题目中已知各总体服从正态分布,且方差相同,其SAS程序如下:
将数据输入SAS生成数据文件,然后运行:
打开SAS Analyst,然后选择数据文件,打开:
设置参数,选择Statistics → ANOVA → ONE-WAY ANOVA,将分类变量su送入Independent中,将响应变量x送入Dependent中:
结果输出:
The ANOVA Procedure
Class Level Information
Class Levels Values
c 5 1 2 3 4 5
Number of observations 20
The ANOVA Procedure
Dependent Variable: y
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 4 1480.823000 370.205750 40.88 <.0001
Error 15 135.822500 9.054833
Corrected Total 19 1616.645500
R-Square Coeff Var Root MSE y Mean
0.915985 13.12023 3.009125 22.93500
Source DF Anova SS Mean Square F Value Pr > F
c 4 1480.823000 370.205750 40.88 <.0001
说明:由于概率Pr小于0.0001,即远小于0.01,说明这些抗生素百分比的均值有高度显著的差异。
(2)将数据输入SAS生成数据文件,然后运行:
打开SAS Analyst,然后选择数据文件,打开:
设置参数,选择Statistics → ANOVA → FATORIAL ANOVA,将分类变量concentration和temperature送入Independent中,将响应变量R送入Dependent中:
结果输出:
The GLM Procedure
Class Level Information
Class Levels Values
浓度C 3 1 2 3
温度T 4 1 2 3 4
Number of observations 24
The GLM Procedure
Dependent Variable: R
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 11 82.8333333 7.5303030 1.39 0.2895
Error 12 65.0000000 5.4166667
Corrected Total 23 147.8333333
R-Square Coeff Var Root MSE Mean
0.560316 22.34278 2.327373 10.41667
Source DF Factoid SS Mean Square F Value Pr > F
C 2 44.33333333 22.16666667 4.09 0.0442
T 3 11.50000000 3.83333333 0.71 0.5657
C* T 6 27.00000000 4.50000000 0.83 0.5684
说明:由于浓度C的概率Pr为0.0442,即小于0.05,说明浓度C的作用是显著的。而温度T的Pr为0.5657,大于0.05,C* T的Pr为0.5684,大于0.05,说明温度与温度和浓度的交互作用都是不显著的。
第五章
(1)用L9(34)确定配比试验方案。如表所示
试验方案
因素主次是A B C 优方案是A2B2C3
趋势图如下图
(3)
用L9(34)确定配比试验方案:
试验方案
以1号试验为例,表中四个数值的组成比为:
A:B:C:D=0.1:0.3:0.2:0.5
配比方案中,要求各行四个比值之和为1。在1号试验中,四种数值分别是
其余各号实验条件可按照相同方法得出。
第六章
(5)做散点图,利用SAS/INSIGHT进行操作,其SAS程序及结果如下:
将数据输入SAS生成数据文件,然后运行:
打开SAS Interactive data analysis,然后选择数据文件,打开:
设置参数,Analyze→Scatter Plot,在Scatter Plot窗口中将自变量x送入X, 将因变量y送入Y:
结果输出:
回归方程求解:根据题意求y与x、x2之间的回归方程,因此令x1=x,x2=x2,采用SAS/INSIGHT进行求解,其相应的SAS程序及结果如下:
对“WORK.ADDITIVE”进行修改,得到新的数据集。
设置参数,Analyze→Fit,将Fit窗口中的自变量x1, x2送入X, 将因变量y送入Y
结果输出:
结果第一部分提供了关于多元线性回归模型拟合的一般信息和模型方程, 方程表明截距估计值为19.0333,1.0086表明在固定x2 时, x1每增加1个单位时,y 增加1.7853,同理可知-0.0204的意义。
结果第二部分是模型拟合的汇总度量表,其中的相应均值(Mean of Response)是因变量 y 的平均值,模型决定系数R2为0.6140,表明变量 y 变异有61.40%可由x1,x2两个因素变动来解释. 校正-R2为0.5497,考虑了加入模型的变量数,所以比较不同模型时用校正-R2更适合。
结果第三部分是方差分析表,是对模型作用是否显著的假设检验。由于p-value值0.0033<0.05,所以拒绝原假设,即认为有足够的理由断定该模型比所有自变量斜率为0的基线模型要好。
结果第四部分是三型检验表(Type III Tests),是F统计量和相联系的p值检验各自变量的回归系数为零的假设.0.0152(<0.05)表明x1的回归系数在统计上作用显著,不能舍去.同理0.0393(<0.05)表明 x2的回归系数在统计上作用显著,不能舍去。
结果第五部分是参数估计表,给出了排除其它因素的各回归系数的显著性,包括对截距和变量x1,x2 的显著性检验.其中<0.0001(<0.05)表明截距的作用显著,不能舍去。
将x1=x,x2=x2,代入回归方程即可得到x、x2、y之间的回归方程为:y=19.0333+1.0086x-0.0204x2 。
(6)利用SAS/INSIGHT进行多元线性回归分析SAS操作,最终得到所求的线性回归方程,其相应程序如下:
将数据输入SAS生成数据文件,然后运行:
打开SAS Interactive data analysis,然后选择数据文件,打开:
设置参数,Analyze→Fit,将Fit窗口中的自变量x1, x2,x3送入X, 将因变量y送入Y
结果输出:
(1)回归方程为:y=9.9000+0.5750x1+0.5500x2+1.1500x3。
当α=0.1时:
对于截距,因P<0.0001<0.1,表明其在统计上作用显著,不能舍去。
对于x1,因P=0.0501<0.1,故x1的回归系数在统计上作用显著,不能舍去。
对于x2,因P=0.0568<0.1,故x2的回归系数在统计上作用显著,不能舍去。
对于x3,因P=0.0052<0.1,故x3的回归系数在统计上作用显著,不能舍去。
由方差分析可知该该模型的 P=0.0119 < 0.1,故作用显著。
(2)当α=0.05时:
对于截距,因P<0.0001<0.05,表明其在统计上作用显著,不能舍去。
对于x1,因P=0.0501≈0.05,故x1的回归系数在统计上作用显著,不能舍去。
对于x2,因P=0.0568>0.05,故x2的回归系数在统计上作用不显著,应该舍去。
对于x3,因P=0.0052<0.05,故x3的回归系数在统计上作用显著,不能舍去。
由以上分析可得多元性回归方程为:y=9.9000+0.5750x1+1.1500x3。
(9)建立回归模型:y=b0+b1*x1+b2*x2+b3*x3+b4*x4+b5*x11+b6*x12+b7*x13+b8*x14+b9*x22+b10*x23+b11*x24+b12*x33+b13*x34+b14*x44
其中:x11=x1*x1;x12=x1*x2;x13=x1*x3;x14=x1*x4;
x22=x2*x2;x23=x2*x3;x24=x2*x4;
x33=x3*x4;x34=x3*x4;x44=x4*x4;
采用逐步回归法找出主要因子,利用SAS/分析员应用操作,SAS程序如下:
将数据输入SAS生成数据文件,然后运行:
打开SAS Analyst,然后选择数据文件,打开:
设置参数,Statistics →Regression → Linear…,在Linear …窗口中将变量x1, x2, x3 , x4, x11,x12,x12,x14,x22,x23,x24,x33,x34,x44送入Explanatory, 将变量y送入Dependent中→Model → 选中stepwise selection→OK
结果输出:
由逐步分析过程知,截距,x24及x3的作用显著,所以回归方程为:y=18.33483-1.89938x3+0.01173x24,将x3=x3,x24=x2*x4代入得y=18.33483-1.89938x3+0.01173x2*x4
(10)散点图绘制,利用SAS/INSIGHT进行操作,其SAS程序及结果如下:
将数据输入SAS生成数据文件,然后运行:
打开SAS Interactive data analysis,然后选择数据文件,打开:
设置参数,Analyze→Scatter Plot,在Scatter Plot窗口中将自变量x送入X, 将因变量y送入Y:
结果输出:
由散点图可以看出,该组数据的散点图呈现S形增长趋势,可以尝试采用Gompertz、Logistic、Richards、Margan-Mercer-Flodin、Welbull等非线性回归模型拟合此数据,在这里可以采用Logistic模型来拟合。
(2)将α、β、γ改为a,b,c表示参数,x是自变量,由x,y的观察值通过REG过程作线性回归求初值a=22、b=3.1、c=0.6。采用SAS系统编程如下:
结果输出:
所以,拟合后的方程为y=21.5089/[1+exp(3.9573-0.6222x)]+ε
(3)α=a为当x趋近于无穷时,y的极限值,所以取在y的观察之中最大的稍大一些值;β=b和γ=c分别为接近这些点的直线的截距和斜率的相反数。
(4)①对于模型Y=b0+b1x+b2x2 +ε,令x1=x, x2=x2,利用SAS/INSIGHT进行多元线性回归分析SAS操作,相关程序和结果如下:
将数据输入SAS生成数据文件,然后运行:
打开SAS Interactive data analysis,然后选择数据文件,打开:
设置参数,Analyze→Fit,将Fit窗口中的自变量x1, x2送入X, 将因变量y送入Y
结果输出:
由输出知,模型的方程为y=-3.2078+2.7017x-0.0618x2其截距和x2的Pr值均>0.05,对方程的影响不显著;x1的Pr值<0.05,对方程的影响显著。
本题采用Newton法最好,因为在计算过程中还要给出参数的二阶偏导表达式,保证了其一阶偏导的连续性,同时采用Logistic模型其P<0.0001,因此模型为高度显著。
第七章
(1)设。
作变换,则x1=1,x2=2,x3=3,…,x9=9。
并可设y= b0+b1φ1(x)+b2φ2(x)+b3φ3(x)+b4φ4(x),对于n=9,查附表6,利用SAS软件进行回归多项式分析,相关程序和结果如下:
①将数据输入SAS生成数据文件并完成程序编写,然后运行:
②结果输出:
The ORTHOREG Procedure
Dependent Variable: y
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 4 1.5430950272 0.3857737568 45.57 0.0014
Error 4 0.0338605284 0.0084651321
Corrected Total 8 1.5769555556
Root MSE 0.0920061525
R-Square 0.9785279121
Standard
Variable DF Parameter Estimate Error t Value Pr > |t|
Intercept 1 2.07222222222222 0.0306687175 67.57 <.0001
w1 1 0.1195 0.0118779432 10.06 0.0005
w2 1 0.01527777777777 0.0017475124 8.74 0.0009
w3 1 -0.00629292929292 0.0029241475 -2.15 0.0978
w4 1 0.00017482517482 0.0020562922 0.09 0.9363
由结果分析得,w3、w4的P值都大于0.05,说明三次项、四次项不显著,回归方程只需要配到二次就可以了。
只保留一次项、二次项进行SAS 操作:
The ORTHOREG Procedure
Dependent Variable: y
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 2 1.5038288889 0.7519144444 61.69 <.0001
Error 6 0.0731266667 0.0121877778
Corrected Total 8 1.5769555556
Root MSE 0.1103982689
R-Square 0.953627947
Standard
Variable DF Parameter Estimate Error t Value Pr > |t|
Intercept 1 2.07222222222222 0.036799423 56.31 <.0001
w1 1 0.1195 0.0142523552 8.38 0.0002
w2 1 0.01527777777777 0.0020968417 7.29 0.0003
从结果可以看到模型的Pr<.0001,说明模型更加显著了。b1、b2的值分别是0.1195、0.01527777777777。
查附表6,当n=9时,
将代入上式得所求多项式回归方程:
(3)本题目属于一次回归的正交设计,采用二水平,做变换
按改造过的正交表L8(27)安排实验,其中令y’=y-87,得到相应表格如下:
本题的SAS程序如下:
结果输出:
由分析结果可得回归方程为:
y-87=-0.0625+2.5375x1+1.3875x2+0.1625x3-0.0375x4,即:
y=87.0625+2.5375[(z1-310)/10]+1.3875[(z2-25)/5]+0.1625[(z3-225)/25]-0.0375[(z4-90)/10 ]
y=1.8+0.2538z1+1.3875z2+0.1625z3-0.0375z4。从方差分析表可知:模型的pr值0.0483<0.05,所以方程是显著的。
第八章
(1)对于三个因素中每个因素的水平,题目要求按每个因素水平等间距取值,故三个因素的取值分别为:
因素z1: 2.0、3.4、4.8、6.2
因素z2: 500、600、700、800
因素z3: 18、20、22、24
题目要求安排三因素四水平的方案,查附表7可知选用U5(54)表。又因为是4次试验,是偶数次,故在U5(54)表中去掉最后一行。为了保证设计的均匀性,我们选择将三个因素分别放在U5(54)表的1、2、4列。
综上所述,即得试验方案如下表:
第九章
(1)这四个点中A点的指标值最小,即为去掉的试验点;保留试验点为B,C,D.其形心O为﹙﹚,即(,)
根据改进单纯形的新试验点公式:
,计算得反射点E的坐标(5,)。
(2)当YE=25时,E点指标与B、C、D点相比是最大的,说明反射成功,下一步可使用较长的步长,α>1;
当YE=14时,E点指标与B、C、D点相比是最小的,且小于劣点A,说明反射失败,下一步进行内收缩,α<0;
当YE=19时,E点指标大于劣点A,小于B、D点,且大于C点,下一步进行收缩,0<α<1。
(3)若要进行整体收缩,以指标最好的点B(2,4,3)为基点,由基点到单纯型各个试验点距离的一半为新点,构成新的单纯型A1、B1、C1、D1 :
即
基点B不变,即B1(2,4,3)
即
即
第十章
(4)本题求的是三元二次回归方程,采用ADX模块分析,相关SAS程序和结果如下:
散点图分布情况
各因素(项)的适合度(即显著性)检验
由上述检验结果可以发现,x1,x2,x3的Pr均大于0.05(显著性水平),不显著,二次项及交互项的Pr均小于0.05(显著性水平),为显著。
最优适宜条件,采用SAS程序如下:
结果输出:
从以上分析结果可知,当x1=-0.0149,x2=0.2310 ,x3=-0.3107时,y取得最大值,即当z1=6.485, z2=111.5504 ,z3=0.3447时,是最适宜条件。
第十三章
(1)对指标进行主成份分析并解释主成份
利用主成份对12个行业排序和分类
本题目是用主成分分析法来分析城市的主体结构。对data81运行得:
利用分析员应用系统进行主成份分析,得到相关SAS程序和结果如下:
结果输出:
综合指标=3.1049/(3.1049+2.8974+0.9302)*prin1+2.8974/(3.1049+2.8974+0.9302)*prin2+0.9302/(3.1049+2.8974+0.9302)* prin3=0.4479* prin1+0.4179* prin2+0.1342* prin3
由上表可得3个主成份与原8个指标的线性组合如下:
Prin1=0.476650x1+0.472808x2+…+0.055034x8
Prin2=0.295991x1+0.277894x2+…+0.272736x8
Prin3=0.104190x1+0.162983+…+(-0.891162)x8
主成分的解释:
在第一主成份Prin1的表达式中,x1,x2,x3三相指标的系数均为正,且相差不大,这表示他们对综合指标起着同向的、相当的作用,而x4,x5,x6三相指标的系数均为负,这表示他们对综合指标起着反向的作用;
在第二主成份Prin2中除x7外其它指标的系数均为正,且相差不大,这表示他们对综合指标起着同向的、相当的作用,而x7指标却起着反向的作用;
第三主成份Prin3中,x5相对较大,而x8起着反向作用,且跟其它值相差较大,可以把第三主成份看成主要是由x5、x8反应的一个综合指标。
(2)利用主成分对12个行业进行排序和分类:
利用SAS系统中的INSIGHT模块对其进行排序和分类,相关程序操作如下:
根据第一主成份进行排序
根据第二主成份进行排序
根据第三主成份进行排序
第十四章
(1)先归一化处理得向量
权重向量a=(0.30 0.25 0.15 0.20 0.10)
a·R=(0.1333,0.4833,0.2223,0.1611)
根据最大隶属度原则0.48333所对应的评语为一般。
根据秩加权平均原则,用1、2、3、4分别代表差、一般、良好、优,
A=1×0.1611+2×0.2223+3×0.4833+4×0.1333=2.588
得A=2.2588,即位于一般与良好之间,且该食品一般偏良。
100×0.1611+80×0.2223+60×0.4833+40×0.1333=68.2245
评分值为:P=68.2245分。
(2)
第一步
第二步
所以得到了隶属向量为
第十五章
(3)相关SAS程序和结果输出如下:、
结果输出:(1)类平均法聚类分析
分类图形:
(1)当采用类平均法聚类时,其步骤为:
九类: {3, 5}成一类,其余各自成一类.
八类: {3, 5,1}成一类,其余各自成一类.
七类: {3, 5,1}, {8, 10}各为一类, 其余各自成一类.
六类: {3, 5,1,6}, {8, 10}各为一类, 其余各自成一类.
五类: {3, 5,1,6}, {8,10,9}各为一类, 其余各自成一类.
四类: {3, 5,1,6,2}, {8,10,9}各为一类,其余各自成一类.
三类: {3, 5,1,6,2,8,10,9}为一类,其余各自成一类.
二类: {3, 5,1,6,2,8,10,9,4}, {7}各自成一类.
第十六章
某年级44名学生的期末考试成绩(数据见程序行dat data 91),试对闭卷(x1,x2)和开卷(x3,x4,x5)进行典型相关分析。
V1=0.6565x1+0.5560x2
W1=0.86x3+0.5018x4-0.5060x5
X1 和X2对v1的影响差别不大
但x3对W1的影响显著