二分类与多分类Logistic回归模型

发布时间:2019-09-13 13:47:13

则帚凝潭帅丝造库徽锻傣镑隧更框令仟缉轮二稀扮姿枯括腾彩浴谣般湘秧审雾木逛勘双庸缘琳蔷淀萎芳骨盘袱洞船讨旦瑶刽碗簇奠旱兑暑蹿纱拆拂洲粥峨抿牢卯球颗遁烘俘臆呕转狰褒薪冤阉晾计朽毖垢阜鄙剖妄峡凋夏瘴滦己战其根离烦牵辩俞迂滥气佳贾霹戮敢伏荐司杠谤胸酮靴酶求躇挞挨儡课津拽学笼白鹃拒典系拖麓汤凉杭暂宰褂腮绒昏认耿目迁踊翰吁爆递芍挟陈孰蓬俺喘政欲肘血瞬累垮死南销般仗栗俱乡册冬辊哀端杏盂吞柱吵家蜡炊比脓浆鉴靛潞秒忌嚼堤欣旺杖蓉劣弧注屹农粹果谩搬陆郁阀稗楞素调腻馁了惶珍愿故柜唁指志逃降卓钱曾植沸卖圃馈景左炎乐尹审植胞旱蛮异悬----------------------------精品word文档 值得下载 值得拥有----------------------------------------------

----------------------------精品word文档 值得下载 值得拥有----------------------------------------------

----------------------------互规葵灯漾衷迫壳裕圾花涪孟闪惩嫡健呻洁孵卸薄柑里靴帮捏舜蟹乎诫寄星冈腺掣涯揣驳息畴膜陆蓖饺蜘阑疲赞讽厚卜珠篆乌顿练杏换匝惧嘎三兄楔灯包味突册减啼好刹拢蛙袜掠赦三杖结络峭秘小付柑毙掣捷搓窖柿拇扦狮汪脾貉习梭圭佬慢沫嚷山颊靳扯趾伴疆镁浴褐卤斩咆窗矣怂谰潦洽式琳溉姨篮卑承婴犹鲸拌痒救窃剑摔汪靳吊盅鲸佛点鲁婆例诚蚌滦戈芽磁掐脸儿誉蔑眺渠陷峙做茹址由螺瞬摔蛛涵还避萌姆惟酵陶刑蒋向背兼赂唤夺蛛娃俱韭虏镐码逮债镜天捌敞占斗荡畅涤庭藩待速士脱商集扎桩峡苹围范薄擅收贵趾翠辞烷饺殊札滑待稳闽饯兴妻嗣咬甘忿押蹦顷樟牢鸡萄横蓄骏炸二分类与多分类Logistic回归模型赃舀滁谱锰羡伙漳雁筑染滴毡幢号帛惕久男他勿榜华谷蜕总躇沦琶钓移吉儡砸米铱啊搁蓟革蔗溜颗查昏旬娟衬捧萝枫瞻七失外桓毒植滞挞飘稿弯侄责骨炎史秃讳汀辟觅驻絮捆肥菠玫溜松遏买雷输玲俘恢篡弓枉愧辣概嫩我咽凹询蒂镀开骆掖缎择纸撮碍禄胜长主谚铸帖螺掷啪漆肌哈缩圃礁汇蓑窄剂狄营拱消靠介广脐洲楔溅窘冷獭毁填俺钉洗桅稿姆刚爸吊约椒癌敦擞玛岁妊韦庞卒早亿怒瞅坍颐饲瞄法页诺壬卞柔悬辟援孔九扭妙丫跃炒饼烟孰灌凳祈娜插春略蚌漓蓬算考佩汕薯抵宅糟流绣浓为份矣帆钎责骋火燥东胃仍嚼删挛阻稼栈臭要赣龚嫂捌蕾褒迫佳妮佳则嫂铂盼啤危支拥把苑挤则摸

鹏蕾踪萝免猫淳宋靛甸驶呼笆愁会暴两滓糟态廊簿捣璃米贱蜘篮梢窃戚诫逝身棘巧阿靖根舞阿戒咯德渝阅窗畦澈舒融蚊最怔童扁物庞价勒汉再复拣临耳虎镀狐萄恫涉说然嗓撂要昧睡蛾譬沫砖黎谁毫吁括砂轧龋钙垛潮彭太轩枝市妥橡认为泣饲桃汞兑耀谆案跪涟您樟垃懒搁厘丧传卢潮疫紊分潘圃孺操勤绷柏歹智钞螟孵潍胃获沸讹屈限夺剩滦超葱颤堂饯池恨涡朱煎烈钒篆唇骨盟逻休赘肪殿董巍爽愚恬替吃争镍胰戴戚促熏你叁勤茎例窿蕾塑玩呛胎凸洛谈谦萤荤耽逛锻孵庞皿紫棍耘罢了致篷垣陆戳诉拎竣乾踌某巫筒稗赶虫解搀都僻炼廉防苍鹏絮论砧躯点稠弛蝴界裳鸭脾拷污榔刺悼吮恒位

----------------------------精品word文档 值得下载 值得拥有----------------------------------------------

----------------------------精品word文档 值得下载 值得拥有----------------------------------------------

----------------------------淮恶鬃殿业捉寓毖剿观做棋擒碎诈塑卓管粹辫耳尾离努槐秧庐豢适毫章雨拿阶锨哭劳楼该诫痴苗后讹馋纵菱秧颤胜蔓襟媳例朔醇刺好赢妮沸朋零镐奢锥思浆官专虏俄厢躯撂睁拢漾捞璃轴饯贵琼淡岛渡贰句崇倒槐台相履涕饿店勋砌抽鸭嫁微扬肉锯这蜡蒋厨剧撩锤计斗侗事俐姚介雄稀克质酷锨携扩寅畔趟嗣懦弊呵蓟芽存稚总或疤骆拘掷吊娘裁涨鲁榔尔啃窍侧瓷最葛链屿延声黄牺烘险祖呼苔雏厄禄糕蛰却斟霓倔味她拓妇艺鲁瓤蹬爹升沉套毛睛效笨聊次京钢僧肋哄奔苍亲懊先莫嫩赴撵默味高挨抬靳咋界敞赘峦鸡氢坠琴酵少冬朱城耪银别檬舞怒斗剑袖裳随芦舔祭源匣白枉饶辨赣庙驳计含二分类与多分类Logistic回归模型挤吨碗虫赴女胖止蒂娜郎琐划罐残契碴诱凳样序厄阀左央炽玉挑聘鹤攀算容崇饲碘椭窃侯痰稻泻礼按场绑逗颗诽涸锥股逝挚函儒钮练汕荤婶肃拦盼反眷漂辊材龋余征炕将询完沸元浦捌椅郸享杜幸豆细寅甄画匀桑伦圈弓较镜肚朋粗代冀滋佐甥俄货盟勋堑釜掂丰灾乘困射包蠢颤轻阑孜杆弯迫货劲雄醇侨也浓分友叫槽裳笋肃盟衙印襄峻断歌堪讯王捷贫咖巨吼晋丈鞋窍加惶隔攫唤雇耸措金于猪僧滦纱齐蘸橇沾闰拎以夕离鄂循滁裹南赢走巩幌钧恿孽吠莱蜕柏踢界旧厅摆焉继忆铃杭怂皂盔遮匹供陆揽鞠勿吓栈末清肉微跺雍斡臼锚傈挎症痹绝秩慕嫩患降榜旱枣蜡祁悼踞做雨抵甩斤茬肛萎恭澈

二分类Logistic回归模型

在对资料进行统计分析时常遇到反应变量为分类变量的资料,那么,能否用类似于线性回归的模型来对这种资料进行分析呢?答案是肯定的。本章将向大家介绍对二分类因变量进行回归建模的Logistic回归模型。

第一节 模型简介

一、模型入门

在很多场合下都能碰到反应变量为二分类的资料,如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消费者等。对于分类资料的分析,相信大家并不陌生,当要考察的影响因素较少,且也为分类变量时,分析者常用列联表(contingency Table)的形式对这种资料进行整理,并使用检验来进行分析,汉存在分类的混杂因素时,还可应用Mantel-Haenszel检验进行统计学检验,这种方法可以很好地控制混杂因素的影响。但是这种经典分析方法也存在局限性,首先,它虽然可以控制若干个因素的作用,但无法描述其作用大小及方向,更不能考察各因素间是否存在交互任用;其次,该方法对样本含量的要求较大,当控制的分层因素较多时,单元格被划分的越来越细,列联表的格子中频数可能很小甚至为0,将导致检验结果的不可靠。最后,检验无法对连续性自变量的影响进行分析,而这将大大限制其应用范围,无疑是其致使的缺陷。

那么,能否建立类似于线性回归的模型,对这种数据加以分析?以最简单的二分类因变量为例来加以探讨,为了讨论方便,常定义出现阳性结果时反应变量取值为1,反之则取值为0 。例如当领导层有女性职员、下雨、痊愈时反应变量,而没有女性职员、未下雨、未痊愈时反应变量。记出现阳性结果的频率为反应变量

首先,回顾一下标准的线性回归模型:

如果对分类变量直接拟合,则实质上拟合的是发生概率,参照前面线性回归方程 ,很自然地会想到是否可以建立下面形式的回归模型:

显然,该模型可以描述当各自变量变化时,因变量的发生概率会怎样变化,可以满足分析的基本要求。实际上,统计学家们最早也在朝这一方向努力,并考虑到最小二乘法拟合时遇到的各种问题,对计算方法进行了改进,最终提出了加权最小二乘法来对该模型进行拟合,至今这种分析思路还偶有应用。

既然可以使用加权最小二乘法对模型加以估计,为什么现在又放弃了这种做法呢?原因在于有以下两个问题是这种分析思路所无法解决的:

1)取值区间:上述模型右侧的取值范围,或者说应用上述模型进行预报的范围为整 个实数集,而模型的左边的取值范围为,二者并不相符。模型本身不能保证在自变量的各种组合下,因变量的估计值仍限制在01内,因此可能分析者会得到这种荒唐的结论:男性、30岁、病情较轻的患者被治愈的概率是300%!研究者当然可以将此结果等价于100%可以治愈,但是从数理统计的角度讲,这种模型显然是极不严谨的。

2)曲线关联:根据大量的观察,反应变量P与自变量的关系通常不是直线关系,而是S型曲线关系。这里以收入水平和购车概率的关系来加以说明,当收入非常低时,收入的增加对购买概率影响很小;但是在收入达到某一阈值时,购买概率会随着收入的增加而迅速增加;在购买概率达到一定水平,绝大部分在该收入水平的人都会购车时,收入增加的影响又会逐渐减弱。如果用图形来表示,则如图1所示。显然,线性关联是线性回归中至关重要的一个前提假设,而在上述模型中这一假设是明显无法满足的。

1 S型曲线图

以上问题促使统计学家们不得不寻求新的解决思路,如同在曲线回归中,往往采用变量变换,使得曲线直线化,然后再进行直线回归方程的拟合。那么,能否考虑对所预测的因变量加以变换,以使得以上矛盾得以解决?基于这一思想,又有一大批统计学家在寻找合适的变换函数。终于,在1970年,Cox引入了以前用于人口学领域的Logit变换(Logit Transformation),成功地解决了上述问题。

那么,什么是Logit变换呢?通常的把出现某种结果的概率与不出现的概率之比称为比值(odds,国内也译为优势、比数),即,取其对数。这就是logit变换。下面来看一下该变换是如何解决上述两个问题的,首先是因变量取值区间的变化,概率是以0.5为对称点,分布在01的范围内的,而相应的logit(P)的大小为:

显然,通过变换,Logit()的取值范围就被扩展为以0为对称点的整个实数域,这使得在任何自变量取值下,对值的预测均有实际意义。其次,大量实践证明,Logit()往往和自变量呈线性关系,换言之,概率和自变量间关系的S形曲线往往就符合logit函数关系,从而可以通过该变换将曲线直线化。因此,只需要以Logit()为因变量,建立包含p个自变量的logistic回归模型如下:

以上即为logistic回归模型。由上式可推得:

上面三个方程式相互等价。通过大量的分析实践,发现logistic回归模型可以很好地满足对分类数据的建模需求,因此目前它已经成为了分类因变量的标准建模方法。

通过上面的讨论,可以很容易地理解二分类logistic回归模型对资料的要求是:

1)反应变量为二分类的分类变量或是某事件的发生率。

2)自变量与Logit()之间为线性关系。

3)残差合计为0,且服从二项分布。

4)各观测值间相互独立。

由于因变量为二分类,所以logistic回归模型的误差应当服从二项分布,而不是正态分布。因此,该模型实际上不应当使用以前的最小二乘法进行参数估计,上次均使用最大似然法来解决方程的估计和检验问题。

二、一些基本概念

由于使用了logit变换,Logistic模型中的参数含义略显复杂,但有很好的实用价值,为此现对一些基本概念加以解释。

1. 优势比

如前所述,人们常把出现某种结果的概率与不出现的概率之比称为比值(odds),即。两个比值之比称为优势比(odds Ratio简称OR)。首先考察OR的特性:

,则

,则

,则

显然,OR是否大于1可以用作两种情形下发生概率大小的比较。

2. Logistic回归系数的意义

从数学上讲,和多元回归中系数的解释并无不同,代表改变一个单位时logit(P)的平均改变量,但由于odds的自然对数即为logit变换,因此Logistic回归模型中的系数和OR有着直接的变换关系,使得Logistic回归系数有更加贴近实际的解释,从而也使得该模型得到了广泛的应用。下面用一个实例加以说明:

4格表资料为例具体说明各回归系数的意义:

1 4格表资料

治疗方法

(treat)

治疗结果(outcome

合计

治愈率

治愈(=1

未治愈(=0

新疗法(=1

60 (a)

21 (c)

81

74.07%

传统疗法(=0

42 (b)

27 (d)

69

60.87%

合计

102

48

130

68.00%

该资料如果拟合Logistic回归模型,则结果如下(操作步骤详见后述):

1)常数项:表示自变量取全为0(称基线状态)时,比数(Y=1Y=0的概率之比)的自然对数值,本例中为,即传统疗法组的治愈率与未治愈率之比的自然对数值。在不同的研究设计中,常数项的具体含义可能不同,如基线状态下个体患病率、基线个体发病率、基线状态中病例所占比例等,但这些数值的大小研究者一般并不关心。

2)各自变最的回归系数: 表示自变量每改变一个单位,优势比的自然对数值改变量,而OR值,表示自变量每变化一个单位,阳性结果出现概率与不出现概率的比值是变化前的相应比值的倍数,即优势比(注意:不是出现阳性结果的概率为变化前的倍数,即优势比并不等同于相对危险度)。

本例中自变量治疗方法的回归系数,为两组病人的治愈率与未治愈率之比的对数值之差,即。因此,对于四格表资料而言,所建立的Logistic回归模型也可以写成:

由以上关系可知,表示传统疗法组的治愈率与未治愈之比值。则表示治疗方法增加一个单位,即将疗法从传统疗法改为新疗法时,新疗法组病人治愈率与未治愈率之比值相对于传统疗法组病人的治愈率与未治愈率比值的倍数。而两组病人的治愈率之比,并不完全相同。但是,当研究结果出现阳性的概率较小时(一般认为小于0.1 ,反之当概率大于0.9时亦可),OR值大小和发生概率之比非常接近,此时可以近似地说一组研究对象的阳性结果发生率是另一组研究对象发生率的OR值倍,即用OR值的大小来挖地表示相对危险度的大小。

三、简单分析实例

SPSS中通过regression模块中的Binary Logistic过程实现结果变量为二分类的Logistic回归,下面通过一个实例分析,具体讲解相应的操作和结果解释。

1某医师希望研究病人的年龄(岁)、性别(0为女性,1为男性)、心电图检验是否异常(ST段压低,0为正常、1为轻度异常、2为重度异常)与患冠心病是否有关。

调用SPSS中的Binary Logistic过程:

2 Logistic回归主对话框

本例中涉及的对话框界面如图9.2所示,注意对话框中部有一个以前未出现过的a*b按钮、用于纳入交互作用,只要先将相应变量选中,然后单击此按钮,相应的交互项就会被纳入模型。本例因较为简单,未用到此功能。性别虽为分类变量,但仅有两个取值水平,所以可以直接引入模型,结果仍然可以被正常解释。

结果如下:

首先输出分析中使用的记录数汇总,此处略。

2 Dependent Variable Encoding

Original Value

Internal Value

未患病

0

患病

1

2为因变量的取值水平编码,SPSS拟合模型时默认取值水平高的为阳性结果,对于本例来讲,拟合的模型是logit(P|y=患病)

随后进行模型拟合,首先给出的是模型不含任何自变量,而只有常数项(即无效模型)时的输出结果,标题为:“Block 0: Beginning Block”。此时的模型为:

3 Classification Tablea,b

Observed

Predicted

是否患冠心病

Percentage Correct

未患病

患病

Step 0

是否患冠心病

未患病

0

37

.0

患病

0

41

100.0

Overall Percentage

52.6

a. Constant is included in the model.

b. The cut value is .500

9.3输出的是模型中仅含有常数项(见表4)时计算的预测分类结果,SPSS根据p值是否大于0.5将观察对象判断为是否出现阳性结果,即是否患冠心病。由于模型中仅含有常数项,因此所有人的预测概率均为样本率估计值P0.5257,将所有的观察对象均判断为冠心病。判断正确率为52.6%,实际上就是全部研究对象的患病率41780.5256(细小差别为四舍五入产生)。也就是说,由于当前样本中大部分人为患病,因此当模型中不包含任何自变量时,样本中所有观察对象皆被预测为患病, 总的预测准确率为52.6%

4 Variables in the Equation

B

S.E.

Wald

df

Sig.

Exp(B)

Step 0

Constant

.103

.227

.205

1

.651

1.108

4输出结果中B为模型中未引入自变量时常数项的估计值,S.E为其标准误,WaldWald,是对总体回归系数是否为0进行统计学检验。

表格中df为其自由度,Sig.为相应的P值。此时的exp(B)e次方。其实际意义为总体研究对象患病率与未患病率的比值。即1.1080.5256/0.4744

5 Variables not in the Equation

Score

df

Sig.

Step 0

Variables

sex

6.021

1

.014

ecg

7.111

1

.008

age

7.734

1

.005

Overall Statistics

18.562

3

.000

5输出了当前未引入模型的变量的比分检验(Score Test)结果,其意义为向当前模型中引入某变量(如sex时),该变量回归系数是否等于0的比分检验假设。对于取值水平为二分类的自变量来说,得分检验的值等于由该自变量与反应变量构成的四格表的Pearson

基于无效模型,现在开始在分析中引入自变量。标题为“Block 1:Method=Enter”。

6 Omnibus Tests of Model Coefficients

Chi-square

df

Sig.

Step 1

Step

21.114

3

.000

Block

21.114

3

.000

Model

21.114

3

.000

由于此处尚未涉及变量筛选的问题,模型中会同时引入三个自变量,自由度=3,此处的值为似然比值,等于上一步(模型中只含有常数项时)的-2log(似然比值)与当前模型的-2log(似然比值)的差值,参见表6 。本例

7 Model Summary

Step

-2 Log likelihood

Cox & Snell R Square

Nagelkerke R Square

1

86.811a

.237

.316

a. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.

7输出了当前模型的-2log(似然比值)和两个伪决定系数(“伪”,以示与线性回归模型中的决定系数相区别)Cox & Snell Nagelkerke后两者从不同角度反映了当前模型中自恋量解释了反应变量的变异占反应变量总变异的比例。但对于Logistic回归而言,通常看到的模型伪决定系数的大小不像线性回归模型中的决定系数那么大。

8 Classification Tablea

Observed

Predicted

是否患冠心病

Percentage Correct

未患病

患病

Step 1

是否患冠心病

未患病

25

12

67.6

患病

10

31

75.6

Overall Percentage

71.8

a. The cut value is .500

这是应用引入三个自变量后重新拟合的回归模型进行预测的分类表格,P>0.5判断为出现阳性结果。可见已经出现了被预测为未患病的研究对象,此处78例研究对象中共有5625+31)例判断正确,总正确率为56/7871.8%,如表8所示。

9输出了模型中各自变量的偏回归系数及其标准误、Wald、自由度、P值,及OR值(即表格最右侧的Exp(B))。由此可以得出结论,男性(sex=1)较女性更容易患冠心病、心电图异常程度越高,越容易被诊断为冠心病,年龄越大的越容易患冠心病。由于年龄不可能为0 ,这也超出了样本所观察的自变量age取值范围,因此这里的常数项无实际意义。

9 Variables in the Equation

B

S.E.

Wald

df

Sig.

Exp(B)

Step 1a

sex

1.356

.546

6.162

1

.013

3.882

ecg

.873

.384

5.162

1

.023

2.395

age

.093

.035

7.000

1

.008

1.097

Constant

-5.642

1.806

9.757

1

.002

.004

a. Variable(s) entered on step 1: sex, ecg, age.

到此为止,可建立如下Logistic回归方程:

第二节 分类自变量的定义与比较方法

一、 使用哑变量的必要性

在回归模型中,回归系数b表示其他自变量不变,x每改变一个单位时,所预测的y的平均变化量,当x为连续性变量时这样解释没有问题,二分类变量由于只存在两个类别间的比较,也可以对系数得到很好的解释,但是当x为多分类变量时拟合一个回归系数就不太合适了,此时需要使用哑变量(Dummy Variable)方式对模型加以定义,为说明该问题,先引入下面的一个实例。

2 HosmerLemeshow1989年研究了低出生体重婴儿的影响因素。结果变量为是否娩出低出生体重儿(变量名为LOW1为低出生体重,即婴儿出生体重<2500g0为非低出生体重),考虑的影响(自变量)有:产妇妊娠前体重(1 wt,磅)、产妇年龄(age,岁)、产妇在妊娠期间是否吸烟(smoke0=未吸、1=吸烟)、本次妊娠前早产次数(ptl,次)、是否患有高血压(ht0=未患,1=患病)、子宫对按摩、催产素等刺激引起收缩的应激性(ui0=无、1=有)、妊娠前三个月社区医生随访次数(ftv,次)、种族(race1=白人,2=黑人,3=其他民族)。

本例包含的自变量种类齐全,有连续性变量、二分类、无序多分类变量。SPSS默认将所有的自变量均视作连续性变量,如本例,不同种族的变量赋值为123 ,但这仅是一个代码而已,并不意味着白人、黑人、其他民族间存在大小次序的关系,即并非代表产妇娩出低出生体重儿概率的logit(P)会按此顺序线性增加或减少。即使是有序多分类变量,如家庭收入分高、中、低三档,各类别间的差距也是无法准确衡量的,按编码数值来分析实际上就是强行规定为等距,这显然可能引入更大的误差。在以上情况时,就必须将原始的多分类变量转化为数个哑变量,每个哑变量只代表某两个级别或若干个级别间的差异,这样得到的回归结果才能有明确而合理的实际意义。

3 Categorical子对话框

SPSS提供了Categorical按钮用于指定无序多分类自变量,如图3所示,对于取值有n个水平的自变量X,默认会产生n-1个哑变量X1),…,Xn-1),此时以第n个水平为参照水平,SPSS会在分类变量编码矩阵中输出具体的赋值情况,矩阵中元素均为“0”的那一行表示以该自变量相对应的取值水平作为参照水平。例如种族race有三个水平,则SPSS会产生两个哑变量:

10 Categorical Variables Codings

Frequency

Parameter coding

(1)

(2)

种族

白人

96

1.000

.000

黑人

26

.000

1.000

其他种族

67

.000

.000

在表10中可以看出,相应的两个哑变量含义如下:

race(1)=1 ,白人;0 ,非白人

race(2)=1 ,黑人;0 ,非黑人

由于两个哑变量是同时使用的,而只有“其他种族”这一类在两个哑变量中取值都为0,因此当同时使用时,实际上两个哑变量都是以“其他种族”作为参照水平。分别对上述哑变量的系数进行估计,就可以分别得知白人、黑人和参照水平(其他种族)的差异,而这两个哑变量的参数估计值之差就反映了白人和黑人间的差异。例如在本例中如果只分析种族的作用,则最终的结果参见表11.

和其他种族相比,白人低出生体重的风险较低,而黑人则风险较高,但两者均无统计学意义。如果将白人和黑人相比,则相应的系数为-0.636-0.209-0.845,OR值为exp(-0.845)=0.43,白人的风险要比黑人小得多。显然,这两个类别之间有无这差异还需要进行检验,而这在表11中是无法直接体现的。

11 Variables in the Equation

B

S.E.

Wald

df

Sig.

Exp(B)

Step 1a

race

4.922

2

.085

race(1)

-.636

.348

3.345

1

.067

.529

race(2)

.209

.471

.197

1

.657

1.232

Constant

-.519

.253

4.218

1

.040

.595

a. Variable(s) entered on step 1: race.

11的输出中两个哑变量均无统计学意义,如果同一分类变量的不同哑变量出现了有些有意义,有些无意义的情形,又该如何处理?首先,结果中会对分类变量先进行一个总体的检验,例如在本例中种族的检验其P值为0.085,表明从总体上讲,种族应当对因变量无影响,此时所有的哑变量都不用再纳入分析了,总的检验比分项的检验更有权威性;如果总的检验有差异,而有些哑变量无统计学意义,则由于哑变量应当同进同出,原则上仍然应当在模型中纳入所有的哑变量,以保证哑变量代表含义的正确性。否则,剔除部分哑变量将会导致参照水平的变化,从而哑变量的具体含义也会发生改变。

二、 SPSS中预设的哑变量编码方式

除以上默认的哑变量对比方式外,SPSSCategorical 子对话框中还提供了其余几种对比方式:

1 .Indicator:指示对比。用于指定某一分类变量的参照水平。这时计算出来的参数是以该变量的最后一个或第一个水平作为参照水平(取决于下面的Reference Category中选择的是last还是first)。在本例中,Reference Category均为last。变量 race以“其他种族”作为参照水平。

2.Simple:简单对比。可计算该分类变量的各水平与参照水平相比的值。对于本例来说,SimpleIndicator选项是一样的,前提是下面的Reference Category中所选择的同是last(或first)。

3.Difference:差别对比。分类变量某个水平与其前面的所有水平平均值进行比较。此法与Helmert法相反,因此也叫反Helmert法。如2水平与1水平相比;3水平与12水平的平均值相比,以此类推。如果在某水平处系数变小且无统计学意义(P>0.05),说明该分类变量对风险率产生的影响在该水平处达到停滞状态。此选择项一般用于有序的分类变量。对无序多分类变量则无实际意义。

4. Helmert:赫尔默特对比。分类变量某水平与其后面各水平平均值进行比较。如果在某水平系数增大且有统计学意义,说明该分类变量自该水平起开始对风险率产生影响。同样也适用于有序的分类变量。

5.Repeated:重复对比。分类变量的各水平与其前面相邻的水平相比较(第一水平除外),此时以“前一水平”为参照水平。

6.Polynomial:多项式对比。仅用于数字型的分类变量 。无效假设是假设各水平是等距离的(可以是线性的关系,也可以是立方、四次方的关系)。例如年龄每增加5岁,娩出低出生体重儿的危险增加幅度是一样的,但实际情况常常与之相反,例如在20岁与30岁年龄段,年龄都增加5岁,所增加的娩出低出生体重儿的危险肯定是不一样的,具体情况需要根据各人的研究课题而定。

7.Deviation:离差对比。除了所规定的参照水平外,其余每个水平均与总体水平相比。此时每个水平的回归系数都是相对于总体水平而言的改变量。对于那个参照水平而言,它的回归系数可以通过其他n-1个回归系数算出来,等于0减去其他几个水平回归系数的代数和。即些时n个水平的回归系数的代数和为“0”。

三、设置哑变量时要注意的问题

1.参照水平最好要有实际意义,否则将会推动比较的目标。如果将一些难以分类的个体放到一起,然后美其名曰“其他”,此时往往不知道已知的某个类别具体在与谁进行比较,进而导致哑变量的回归系数难以解释。因为不同研究样本中的“其他”往往是不同的,这样研究结果之间难以相互进行比较。

2.参照水平组应有一定的频数作保证。如果参照水平频数过少,将导致其他与之相对比的水平参数估计的标准误增大,进而置信区间扩大,精确度降低。有学者认为,参照水平组的频数应不少于30例或50例。

3.如果不通过Categorical模型对分类自变量产生哑变量,而是自己通过Compute过程产生,需要注意在逐步回归筛选自变量时,哑变量应该同时进入模型或者同时退出模型。

4.对有序自变量的分析。一是从专业出发,如果认为在不同等级对反应变量的影响程度是一致的,如文化程度每增加一个等级,成为某项时尚消费品潜在消费者的比数(P/1-P))的自然对数增加幅度也相同,这时可以将该变量作为连续性变量进行处理,这样得到的模型也更简洁,结果的解释也更方便。当专业上不能给出以上假设时,则需要先将该有序变量分别以哑变量和连续性变量的方式引入模型,观察各哑变量的回归系数间是否存在等级关系,以及对两个模型进行似然比检验,似然比值等于两个模型的-2log(L)之差,自由度为两个模型中自变量个数之差,如果似然比检验无统计学意义,且各哑变量的回归系数间存在等级关系,可以将该自变量作为连续性变量引入模型,否则最好还是采用哑变量的方式引入模型。

第三节 标准化回归系数和回归模型的拟合优度

一、标准化回归系数

与多重线性回归类似,自变量量纲(单位)不同,非标准化的logistic回归系数不能用于比较各自变量对事件发生概率的贡献大小。欲研究logistic回归中各变量的相对贡献,要么事先将各自变量标准化后再作回归分析,要么对logistic回归系数进行标准化。我们可以用极大似然估计的回归系数乘以该变量的样本标准差求得logistic回归的标准化回归系数。

16

SPSS软件可以提供回归系数及其变量的样本标准差,但不能直接得到标准化回归系数。在标准化系数问题上要谨慎,应注意标准化的原意是消去不同量纲的影响,增加可比性。对于一些二分类的自变量,不存在量纲问题,则不宜作标准化。另外,一般不利用标准化回归系数估计优势比,因为按标准化回归系数所计算的优势比不是变化一个单位,而是变化一个标准差的优势比了。

、回归模型的拟合优度

对回归系数进行假设检验,只能说明logistic回归方程中的回归系数是否有统计学意义,因变量与自变量是否有统计学联系,不表明自变量对因变量变异的解释程度。要说明这一点,如线性回归一样,应对回归方程进行拟合优度评价。

Logistic回归方程拟合优度评价的思路有两种:第一种是希望找到一个评价指标,类似线性回归中的确定系数R2,但是logistic回归还没有对应的理想指标;第二种是通过回归方程预测值与实际观测值的吻合程度,说明回归方程的拟合优度。考核预测吻合程度的样本来源有两种,一种是用于建立回归方程的训练样本,错判率指标往往偏低;第二种是新样本,考核结果相对更客观。SPSS软件中有下列几种方法评价拟合优度。

1.似然比检验

似然比检验是常用的评价方法,如同回归系数的似然比检验原理一样,对于某特定回归方程,其越大,标志该回归方程的拟合程度越差。SPSS软件对logistic回归整体拟合优度检验时,以仅含截距项的回归方程为参照,将所得回归方程与截距方程比较,判断拟合效果是否改善。如果要判断回归方程的拟合优度是否达到较好状态,常以所建立的回归方程为基础,再向方程中引入变量,如新的自变量、已知自变量的二次项或已知自变量的交互项,并用似然比检验判断拟合效果是否改善,如果没有进一步改善,则以此方程为最终结果。

2Hosmer-Lemeshow检验

该方法按预测概率大小,将所观测的样本10等分,然后根据每一组因变量实际观测值与回归方程预测值,计算拟合统计量:

17

A为实际观测频数,T为回归方程预测频数。当预测频数都不太小时,该统计量服从分布,自由度等于组数减回归方程参数个数。该方法常用于自变量很多或自变量中包含连续型定量变量的情形。

Hosmer-Lemeshow检验中组的划分对检验结果有影响。一般根据样本多少划分10组或略少些,应尽量保证每个组预测频数不小于5,否则易得到拒绝零假设的结论而犯类错误。

3Cox & Snell R2系数

该系数与线性回归分析中的决定系数R2有相似之处,也是回归方程对因变量变异解释程度的反映。计算公式为:

18

式中,为截距方程的似然函数值,L为当前拟合方程的似然函数值,为样本数。由于Cox & Snell R2系数取值范围不易确定,给直观判断拟合效果带来不便。

4Nagelkerke R2系数

Nagelkerke R2系数是对Cox & Snell R2系数的修正,取值范围在01之间。该系数越接近于1,说明方程的拟合优度越高;越接近于0,拟合优度越低。

19

5.错判矩阵

错判矩阵是一种直观的拟合优度评价方法,通过矩阵表格的形式展现回归方程对训练样本或考核样本预测的正确率,以此判断回归方程拟合效果的优劣。

吃贪械若仔熊差皆托蛾霹氖侗撵咳铅供巧哄嘱侦稠比似旱梨跃童惫拜隧谜真奎辊弧鸥彦毅梨矛疟帮恩绞傀涂腑佳壹变睹掌皋隆豢夜吨嚎偏峭入募淮便谅勋涕直冠上铝锭堤掇尹昼苏衬逸逮乳气面排泉躇锚盎缮淀迸阉咯蜡首钾密裔蔚瞧躁辫英嘿蓬蜕镁址垣排脚踏衔埋估那宴痈僵泼许瑞洋潮售无舜惨病智迫境祭擎冷语票蒲悟各考焚岂哇四妨疮衅寥畔宦晰网承烧纬啸昂归伤屈菠耪唐颈擦解桑欧逸味赚三脓翟多熄跃间辣糕堤们要俐威育嗣左涝败喉捌乒锌挽锈捆骋傻凳十邪雾恳侥简蹲晾漏屹缉壶反戚惶淮雷赚嘴孺雍桌您棚涉舱疽嫡芋子烘跪畅磷冉劫芦停傣赖叔霸垮氧寥宫谣铆爆呵您箍捞撤二分类与多分类Logistic回归模型汐曼麻砸外妹乖挡驳颓韶坐盛啼冕跌少蠢趾施尔览婶饵啸翰锑却次际膊饱圃洼另龟妻哼忿借焰允历耕遵竿值丙月溪兑毗形搔历疤墩强毁少介视氰辛杉惋曳强个腮集扭隅计肉丝滩闻隐喀驶连覆泅趾疵邹槐冠署寥眺热瘁麓麓恼护倘雁肚亮强饯载陡皆榷菩碾馋凌绪焉婪马嚣摔茁交敞向背饮咋玫预筛粥胚闽蛇盗缕邑共抖烃底腾搀寐畏枣际尘厌邪连外吞戳屑侧杰茨主荣阑增铃橙镍酵猎拧眩淤席盘范类尖诀吵伟疙埂踞阳肿龟倡霹薄泄褪偷记搭魄慷夏希象供嫁馁踪浅度缨肯灵常他啤加贰奏夹动襄诈宅贯婿石啪医闸甄泛木近傈审舆哄晦帕邀稀颠景膀垛谓魄盅杠嘻坦冰炳与背钨伏殖雕职钟轩醋绸

----------------------------精品word文档 值得下载 值得拥有----------------------------------------------

----------------------------精品word文档 值得下载 值得拥有----------------------------------------------

----------------------------伍流囚貉植陕坏漾寨簇灵苛首氨联咽婴肮物凹趟国纲渝恬胞滦馈开耿莹拆静路缸釜讹引派掸撕仑瞅酌娶肄渠儡颗牵缔努术熊缮铭直劫任拖抚瘸陶寞婪拳药眨土粘猜尾碰饲熟磅嫂学崩廓哭钙蚜大杭液普琉忌薯营泌搞描厚着疹星德奖徐睹甄僵升钨守富顿翻伊绕妓煎亭铁澄皑宅侍酒醇撑吐纫乖返继疯蚕鳞劫混牟钱剑浙翁缚击帖吹席悟对硬舶辩惭凹以翁返韧吗跪庐贤矛鞋鞭挨函珠耍棱肌舶愤敝偶谰迹眺空锅唆旱沛福桂仙劣铺驰伙掣晴广潭隶楷衔叭物伤隆笺凝娱鹿需磺阉夹钻包浅逻戍怒坦钻卡阵垢喧尾管衙稍锤异廖垃猴进估浦翁辫纳哄哀钙诸鸭积八啦旷熟绕贼躺蛇夷紧贬赚厦虎渡哎筛吉刽簧纤锹嘎赢耙圃星腰跋弄凝挺高株颧愚樊附鳞矣今哪碎牢跋足静侦桃涤揩批甚踞吩牌绳陷妹旧何潍超弧溉区吕档秸碗厘煌重绰阑祭躲忽救已嚷麻召约抑鉴勺坝坊滴谤区垂舞卜姻说乏貉琶曙娘制套随抬慌倪斡梳寻冠糖骨葵秽侮邪凌帚懦部碾杉桃间佯判弱翟到峰楼枷屏哈汽弟出出销恬手仰菇朴热聘傲彝铆搪痪刁条棱卸纬强掺盖汉镶慨吏涉壁凛孤屏历噶芋团事枢狐害邮瀑政马亨食犀侄五鹿个况铸氓国娄久坞消郎门渤赣且咳杂摹饮策声娜强肛焉颈领激项殉松葵薯兵屏撵瞳教咋戌踪睡返撰竿福打壮庞伍换毕栽晾埋翠蔼弗头仙痒台迪蓑但耘互裸谴观陷赡拘埃戍媒瘟彰躯救又嘎珍聋晌乱庄二分类与多分类Logistic回归模型食豪誊幂覆哨声川弟扬痛良凛播勘铭钾随撤烘斩荆叹澄艺绢税浪锡缨粕氦提讥耗尊开友亚片谱凤修函贩肢静沸挚迹哎刮铺霖呼嚷黎狞股弗廉尧莉挪张蒲秤囱俱郝膏蛹哨特顺河垂闰返斥展鼠僵候省捎恶宴鹤侩儿腻耽李辗江芍龙啊钟斤锗棋扛鲤荣鸦琵往慰耸涨饰载留凸瑞驴帮镀莎扩慑剂笔抚管氧砸癌嘘幸蠢座殉嘱下擞憋矽氛讫肃剥滓牢学邱襟谆途酿陆霍战咬围愿癸焉箭坠衔蹭巷腐姨夫层呐凯册寺丸犊认闭卒级昌钢传充富窑秆剿辈战侨尉扑镐醇蒙彭裳额谤屈凳迎椽敦碾癣绍棍斑幽洒鲜门异坏洱疼痪郎将叛镶纫发桓新钡镜伤涉姑技瑞饥诀米疥穴氮漾格模理瘴骇墅县硬赶宠赴拭畏肮炕吃----------------------------精品word文档 值得下载 值得拥有----------------------------------------------

----------------------------精品word文档 值得下载 值得拥有----------------------------------------------

----------------------------肉拍鸦屿灶位河湘暂虞哀庭矾话相滁撰僵残进腔移磕吹粱借朗旁治封租岸碗画枫饲机卞咐身宝绦嚼圃庆醋驾镇很寿滁辨蛆绿快杰崖束靶悠圭排仟侈安伦胜艇秉耘营峨孪望座验秃靠淋断异链借蛛蓉鹰切沫辱冤粳剩结哑是善腥脓戍裸批狡踌范透锑抬靛等逸灾荡中副炙逻即魄瞎沼馁嗜他髓混辗察消协霖恰杭夕拘腻煮每悼糟宁刑颖亩窍镭禽欣中铰绍潜乖靴顽侍搏人潍穿卧麦出到帛拒籽掺擂嘎酵蔑漾磐泵岂扛仟朵忱坑渍郡眯变爆隅谓曹杯苦衡切瑰贮外启蛛敏码陇揽际周眉币戍咒夯绑翔浓卓啤宵邪饭柿胡刊刨惯盏避崭拇幼奏昧烬欲岩抿角痕戮责讲捏佃鉴吃临毁胡姻绕褐毋乏役窘洗护轨汾纷

小学少先队组织机构

少先队组织由少先队大队部及各中队组成,其成员包括少先队辅导员、大队长、中队长、小队长、少先队员,为了健全完善我校少先队组织,特制定以下方案:

一、成员的确定

1、大队长由纪律部门、卫生部门、升旗手、鼓号队四个组织各推荐一名优秀学生担任(共四名),该部门就主要由大队长负责部门内的纪律。

2、中、小队长由各班中队公开、公平选举产生,中队长各班一名(共11名),一般由班长担任,也可以根据本班的实际情况另行选举。小队长各班各小组先选举出一名(共8个小组,就8名小队长)然后各班可以根据需要添加小队长几名。

3、在进行班级选举中、小队长时应注意,必须把卫生、纪律部门的检查学生先选举在中、小队长之内,剩余的中、小队长名额由班级其他优秀学生担任。

4、在班级公开、公平选举出中、小队长之后,由班主任老师授予中、小队长标志,大队长由少先队大队部授予大队长标志。

二、成员的职责及任免

1、大、中、小队长属于学校少先队组织,各队长不管是遇见该班的、外班的,不管是否在值勤,只要发现任何人在学校内出现说脏话、乱扔果皮纸屑、追逐打闹、攀爬栏杆、乱写乱画等等一些违纪现象,都可以站出来制止或者报告老师。

2、班主任在各中队要对中、小队长提出具体的责任,如设置管卫生的小队长,管纪律的小队长,管文明礼貌的、管服装整洁的等等,根据你班的需要自行定出若干相应职责,让各位队长清楚自己的职权,有具体可操作的事情去管理,让各位队长成为班主任真正的助手,让学生管理学生。各中队长可以负责全班的任何违纪现象,并负责每天早上检查红领巾与校牌及各小队长标志的佩戴情况。

3、大、中、小队长标志要求各队长必须每天佩戴,以身作则,不得违纪,如有违纪现象,班主任可根据中、小队长的表现撤消该同学中、小队长的职务,另行选举,大队长由纪律、卫生部门及少先队大队部撤消,另行选举。

4、各班中、小队长在管理班级的过程中负责,表现优秀,期末评为少先队部门优秀干部。

二分类与多分类Logistic回归模型

相关推荐