思考与练习

发布时间:2020-05-14 11:24:19

第十四章 直线回归分析

【思考与习题】

一、思考题

1.试述建立直线回归方程的步骤以及散点图的作用。

2.如何将方差分析运用于回归系数的假设检验简述其思想。

3.简述直线相关和直线回归的区别与联系。

4回归系数进行假设检验可以采用哪些方法

二、案例辨析题

某研究采用火箭电泳法对已知浓度标准血清进行测量,其免疫球蛋白IgA浓度(μg/ml)火箭电泳高度(mm)如表14-1所示。研究者据此数据建立直线回归方程,用于测定未知样品血清中的IgA浓度以上分析正确吗?

表14-1 标准品的IgA浓度(μg/ml)火箭电泳高度(mm)

标准品的IgA浓度 x

火箭电泳高度 y

采用最小二乘法建立直线回归方程,得到,经假设检验得,故此回归方程可用于测定未知样品血清中的IgA含量。

三、最佳选择题

1. 对于一组服从双变量正态分布的资料,经直线相关分析得相关系数,若对该资料拟合回归直线,其回归系数

A.

B.

C.

D.

E.

2. 一组服从双变量正态分布的资料,经直线相关分析得相关系数,则有

A.

B.

C.

D.

E.

3.直线回归中的标准差相等时,则有

A.

B.

C.

D.

E.

4.若直线回归系数,则一定有

A.截距等于0

B.截距等于

C.等于0

D.等于0

E.等于

5.组服从双变量正态分布的资料,若两样本,则有

A.

B.

C.

D.

E.

6.最小二乘法的原理是各观测点

A.距回归直线的纵向距离相等

B.距回归直线的纵向距离平方和最小

C.距回归直线的垂直距离相等

D.距回归直线的垂直距离平方和最小

E.距回归直线的纵向距离最小

7.直线回归分析中,直线方程代入两点绘制回归线,以下选项中正确的是

A.所有实测点都应在回归直线上

B.所绘回归直线必过点

C.回归直线必过原点

D.的取值范围为

E.实测值与估计值之差的平方和必小于零

8.同一资料进行直线回归与直线相关分析下列说法正确的是

A.时,

B.时,

C.时,

D.时,

E.

四、综合分析题

1. 为了研究女大学生胸围(cm)与肺活量(L)的关系,随机抽取某高校一年级女生15名,测量其胸围与肺活量数据如表14-2所示

表14-2 15名一年级女大学生的胸围(cm)与肺活量(L)

学生编号

胸围

肺活量

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

(1) 建立肺活量与胸围的回归方程;

(2) 用两种方法对回归系数进行假设检验;

(3) 计算总体回归系数的95%置信区间;

2.为研究肺癌患者肺组织中的DNA加合物含量(/108核苷酸)与吸烟的关系,某研究者用“同位素标记法测定12名肺癌患者肺组织DNA加合物含量(),并调查其每日吸烟量(),结果如表14-3所示

表14-3 肺组织中DNA加合物含量(/108核苷酸)与每日吸烟量(支/天)

5

5

10

15

15

15

20

20

20

25

25

30

(1) 问该资料有无可疑的离群点?

(2) 试建立直线回归方程来分析肺组织DNA加合物含量与每日吸烟量之间的关系。

【习题解析】

一、思考题

1.建立直线回归方程的步骤绘制自变量与应变量的散点图,观察是否有可疑的离群值及两变量是否有直线趋势利用最小二乘法计算回归系数b截距a得到样本回归方程对回归系数进行假设检验。在此过程中应当注意考察资料是否满足模型假设条件,即应变量与自变量关系是否为线性、误差是否服从正态分布且方差相等、各观测值是否独立。通过散点图可以初步考察两变量间是否直线关系及识别可能的离群值。

2.方差分析的基本思想是将总的变异按照设计和需要分解成2个或2个以上的部分,在对回归系数的假设检验中,将应变量y的变异分解为可以用yx直线关系解释的部分不能用yx线性关系解释的部分如果两变量间直线关系确实存在,回归的均方应大于误差的均方,大到何种程度时可以认为具有统计学意义,可根据的关系构造检验统计量成立的假设下,服从自由度为分布,可根据分布曲线下面积确定P值,作出统计推断结论。

3. 区别:资料要求上直线相关要求服从双变量正态分布而直线回归要求在给定某个值时服从正态分布,须为可精确测量和严格控制的值。应用上说明两变量间相互关系用相关,此时两变量的关系是平等的;而说明应变量自变量在数量上的依存关系则用直线回归分析。意义上相关系数说明两变量直线相关的方向与密切程度回归系数表示改变一个单位时,的平均改变计算取值范围没有单位,有单位。

联系:对于服从双变量正态分布的同一组数据,既可作直线相关分析又可作直线回归分析,计算出的符号一致。对于同一样本,相关系数与回归系数的假设检验等价。对于服从双变量正态分布的同一组资料,其相关系数r和回归系数b可以相互换算:用回归可以解释相关决定系数

4有以下方法:方差分析总体回归系数的t检验计算总体回归系数置信区间。若资料服从双变量正态分布,除上述方法外,因为相关系数与回归系数的假设检验等价,还可采用总体相关系数的t检验计算总体相关系数置信区间等方法来推断总体回归关系是否成立

二、案例辨析题

要进行直线回归分析,首先应绘制自变量与应变量的散点图,观察两变量是否有直线趋势。如图14-1所示,两变量散点呈曲线趋势,不宜进行直线回归分析

图14-1 火箭电泳高度与IgA浓度的关系

因此直接用原始数据建立直线回归方程得到不正确。对自变量进行对数变换,令,再观察的散点图,图14-2所示可见对数转换后其直线趋势较为明显。

图14-2 火箭电泳高度与IgA浓度对数值的关系

建立的直线回归方程得到,对回归系数进行假设检验,得,回归方程有统计学意义。进一步检查两次回归的决定系数,直接IgA浓度为自变量时=,而以IgA浓度的对数值为自变量时=,拟合效果更好。此案例强调了直线回归分析之前绘制散点图的重要性。

三、最佳选择题

2. C

四、综合分析题

1.解:

(1) 建立肺活量y与胸围x的回归方程

1) 作两变量的散点图以胸围为横坐标,肺活量为纵坐标绘制散点

(见SPSS结果),散点呈直线趋势,故可进行直线回归分析。

2) 由样本数据计算如下统计量

3) 计算回归系数b及截距a

4) 得直线回归方程为:

(2) 对回归系数进行假设检验

方法一:采用方差分析对回归系数进行假设检验

1) 建立检验假设,确定检验水准

:胸围与肺活量之间无直线回归关系

:胸围与肺活量之间有直线回归关系

2) 计算检验统计量

3) 确定值,作出统计推断

,查F界值表(表4),按水准拒绝,回归方程有统计学意义,可以认为女大学生的胸围与肺活量之间有直线回归关系

方法二:采用t检验对回归系数进行假设检验

1) 建立检验假设,确定检验水准

:胸围与肺活量之间无直线回归关系

:胸围与肺活量之间有直线回归关系

2) 计算检验统计量

3) 确定P值,作出统计推断

,查t界值表(表3),得,按水准拒绝回归方程有统计学意义,可认为女大学生的胸围与肺活量之间有直线回归关系

(3) 计算总体回归系数的95%置信区间

由以上计算结果可知t界值表得。回归系数的95%置信区间为:

SPSS操作

数据录入:

打开SPSS Data Editor窗口,点击Variable View标签,定义要输入的胸围x、肺活量y,再点击Data View标签,录入数据(见图14-3,图14-4)。

图14-3 Variable View窗口内定义要输入的变量

图14-4 Data View窗口内录入数据

分析:

绘制散点图:

Graphs Scatter/Dot … Simple Scatter

Define

y Axis框:y

x Axis框:x

OK

回归分析:

Analyze Regression Linear …

Dependent 框: y

Independent(s) 框: x

Statistics Regression Coefficients

Estimates

Confidence intervals

Model fit

Continue

OK

输出结果

2.解:

(1) 以每日吸烟量为横坐标,DNA加合物含量为纵坐标绘制散点图(见SPSS结果),散点呈直线趋势,不存在离群点故可进行直线回归分析。

(2) 建立DNA加合物含量y每日吸烟量x的回归方程

由样本数据计算如下统计量

计算回归系数b及截距a

得直线回归方程为:

采用方差分析对回归系数进行假设检验

1) 建立检验假设,确定检验水准

:DNA加合物含量与每日吸烟量之间无直线回归关系

:DNA加合物含量与每日吸烟量之间有直线回归关系

2) 计算检验统计量

3) 确定值,作出统计推断

,查F界值表(表4),按水准拒绝,回归方程有统计学意义,可以认为肺癌患者肺组织DNA加合物含量与每日吸烟量之间有直线回归关系

SPSS操作

数据录入:

打开SPSS Data Editor窗口,点击Variable View标签,定义要输入的每日吸烟量x、DNA加合物含量y,再点击Data View标签,录入数据(见图14-5,图14-6)。

图14-5 Variable View窗口内定义要输入的变量

图14-6 Data View窗口内录入数据

分析:

绘制散点图:

Graphs Scatter/Dot … Simple Scatter

Define

y Axis:y

x Axis:x

OK

回归分析

Analyze Regression Linear …

Dependent : y

Independent(s) : x

Statistics Regression Coefficients

Estimates

Confidence intervals

Model fit

Continue

OK

输出结果

思考与练习

相关推荐