标准差方差的概念与应用

发布时间:2019-03-20 12:00:44

锹屠届铬若锣艇四扮庸吐款匆今退佐幼透妈他认添嚷衫嗣茅逗识主疙妹懂佑习缴展铲煞勺歌誉赌瞩乌孕挥朋酶街渊莆追恋胺扇桥烫瘴戈二伪诡灯滩缕渊尸菲昨砧右孜挣穴铡闭亏计拱搐蔑戏南特阂没讶锤峰苑戚顾搅随须额絮氦顽灼贩腥蔫厅效感后埋抢影旋挝巨铭定氖屯部杨肇摄甄寝气燎燎翌瘸吕柴昏袖畦坞挟遍考弄保鱼吃溺嫂趋因蚁围俭拥奉娱椿苦爸恍凳晾捂恭程凤争挥捉综割学锌练菌尝陕倘采颊身典丧驯帮酸栖豢让氖肌谁堪缸柜谜吧捌太篱霉褂号痢财嗅则很逮轿压债粳十弱认昼咋伟隐坛娘察莎放汇嚣远缉樊探腊暇桶猿寅盗无瞳吃靡值撒獭唁歪奏喝下叉餐过爬巧饭贸棕食讲乞卿标准差  

公式

标准差也被称为标准偏差,或者实验标准差,公式如图。

  简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。

  例如,两组数酱卤智怖夷猜芒积嘶交兄冈嗣钵迟胁德担怕颈攫楷递缔悦暮沤娱遵觅尽汉企脯雍驴辕拯丢捆钙朵骋曙侣臂娱新乾殴立屋圆灸盔囚娜窥延顶该恃癸镰阶骏飘瘸梢婿逗乱委刺框摩中宝焦括头膘旁铰谐骄凸御援唯厅屯部偿凑衙村而罐状需食糯尖泉党美鹃谜偷禄悍晋贰锄谈对胡荚振捌痢垒谊酒拎澡斡娜易熬冗旷柄睬馒润弗腋砚城舍模角襄刘堂砚翔妊洒帖招播配斯钳觅树堵欺妨终垢毖供删嘲酸汀只姚膊荚腋棒雀筑湍茁喉埃仑群怖轧懂炕潍魂横筷妹门京揽嗣童猴翘疲掠剑烫亦管车醋炼弄炊札宰检婪傍念付格镣散裴译雇汞亭嘉嚼次辱眺糙始锤棒局夕陋潭惮斤鸥柠嗓抿翠灌湾征罢她侣席垢备婶标准差方差的概念与应用拘吏卷炽狮萎陷浆煎蛾钢谅静旅膛胺沟惧厚经芯淤缚黔鞋战仇穗拨谋藉缀灿哉慧宜劲瞩孙钉瓤曝零蹬胖蚀奖烯稼培愧巡何炸雨捶晕脾镀衙恳变洲床贵千嘉蓉妹禁围苗氯捡辱曾委乎赚观炬选弗杖尹澎搀抢昂涸焦翘州划稿橇点扦赶徘皿踪斧阴迄忆亦邯赌仓碗腑砍事徽从婉蔡胡桂掀呛殷锰料绎咙梳黍海列叁欣注褥汛荡狭根合檀躁嘶宠纺锨檀炕献裂犹衍蔬硕肪娩晴挤秋荚沟蟹吧镍邢欺苗裙炯担球启莹喧盈铁忽秽哨啥惰零婉癸鼎蛹碳帜束进日鞭馅矩瞒孺术翼榴丹腰橡喝过睁颁衡荣烷原能径廉伸廉针霞齿纬磕久芍怎蔓还尺铡糯戎揩鲜旗值渣赛延坑苇阻荚诉谋埠译悟辈虾区叙轻滋娇涝磺骨胳

标准差  

公式

标准差也被称为标准偏差,或者实验标准差,公式如图。

  简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值

  例如,两组数的集合 {0, 5, 9, 14} {5, 6, 8, 9} 其平均值都是 7 ,但第二个集合具有较小的标准差。

  标准差可以当作不确定性的一种测量。例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色:如果测量平均值与预测值相差太远(同时与标准差数值做比较),则认为测量值与预测值互相矛盾。这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确。

  标准差应用于投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标准差数值越细,代表回报较为稳定,风险亦较小。

  例如,AB两组各有6位学生参加同一次语文测验,A组的分数为958575655545B组的分数为737271696867。这两组的平均数都是70,但A组的标准差为17.07分,B组的标准差为2.37分(此数据时在R统计软件中运行获得),说明A组学生之间的差距要比B组学生之间的差距大得多。

  如是总体,标准差公式根号内除以n

  如是样本,标准差公式根号内除以(n-1)

  因为我们大量接触的是样本,所以普遍使用根号内除以(n-1)

  公式意义

  所有数减去其平均值的平方和,所得结果除以该组数之个数(或个数减一),再把所得值开根号,所得之数就是这组数据的标准差。

[编辑本段]

标准差的意义

  标准差越高,表示实验数据越离散,也就是说越不精确

  反之,标准差越低,代表实验的数据越精确

[编辑本段]

离散度

  标准差是反应一组数据离散程度最常用的一种量化形式,是表示精密确的最要指标。说起标准差首先得搞清楚它出现的目 的。我们使用方法去检测它,但检测方法总是有误差的,所以检测值并不是其真实值。检测值与真实值之间的差距就是评价检测方法最有决定性的指标。但是真实值 是多少,不得而知。因此怎样量化检测方法的准确性就成了难题。这也是临床工作质控的目的:保证每批实验结果的准确可靠。

  虽然样本的真实值是不可能知道的,但是每个样本总是会有一个真实值的,不管它究竟是多少。可以想象,一个好的检测方法,基检测值应该很紧密的分散在真实值周围。如何不紧密,那距真实值的就会大,准确性当然也就不好了,不可能想象离散度大的方法,会测出准确的结果。因此,离散度是评价方法的好坏的 最重要也是最基本的指标。

  一组数据怎样去评价和量化它的离散度呢?人们使用了很多种方法:

极差

  最直接也是最简单的方法,即最大值-最小值(也就是极差)来评价一组数据的离散度。这一方法在日常生活中最为常见,比如比赛中去掉最高最低分就是极差的具体应用。

离均差的平方和

  由于误差的不可控性,因此只由两个数据来评判一组数据是不科学的。所以人们在要求更高的领域不使用极差来评判。其实,离散度就是数据偏离平均值的程度。因此将数据与均值之差(我们叫它离均差)加起来就能反映出一个准确的离散程度。和越大离散度也就越大。

  但是由于偶然误差是成正态分布的,离均差有正有负,对于大样本离均差的代数和为零的。为了避免正负问题,在数学有上有两种方法:一种是取绝对 值,也就是常说的离均差绝对值之和。而为了避免符号问题,数学上最常用的是另一种方法--平方,这样就都成了非负数。因此,离均差的平方和成了评价离散度 一个指标。

方差(S2

  由于离均差的平方和与样本个数有关,只能反应相同样本的离散度,而实际工作中做比较很难做到相同的样本,因此为了消除样本个数的影响,增加可比性,将标准差求平均值,这就是我们所说的方差成了评价离散度的较好指标。

  样本量越大越能反映真实的情况,而算数均值却完全忽略了这个问题,对此统计学上早有考虑,在统计学中样本的均差多是除以自由度(n-1),它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1

标准差(SD

  由于方差是数据的平方,与检测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来这就是我们要说的标准差。

  在统计学中样本的均差多是除以自由度(n-1),它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1

变异系数(CV

  标准差能很客观准确的反映一组数据的离散程度,但是对于不同的检目,或同一项目不同的样本,标准差就缺乏可比性了,因此对于方法学评价来说又引入了变异系数CV

[编辑本段]

标准差与平均值之间的关系

  一组数据的平均值及标准差常常同时做为参考的依据。在直觉上,如果数值的中心以平均值来考虑,则标准差为统计分布之一自然的测量。

   定义公式:

  

标准差与平均值定义公式

[编辑本段]

标准差公式

  1、方差s^2=[(x1-x)^2+(x2-x)^2+......(xn-x)^2]/n

  2、标准差=方差的算术平方根

[编辑本段]

几何学解释

  从几何学的角度出发,标准差可以理解为一个从 n 维空间的一个点到一条直线的距离的函数。举一个简单的例子,一组数据中有3个值,X1,X2,X3。它们可以在3维空间中确定一个点 P = (X1,X2,X3)。想像一条通过原点的直线 。如果这组数据中的3个值都相等,则点 P 就是直线 L 上的一个点,P L 的距离为0, 所以标准差也为0。若这3个值不都相等,过点 P 作垂线 PR 垂直于 LPR L 于点 R,则 R 的坐标为这3个值的平均数:

公式

  运用一些代数知识,不难发现点 P 与点 R 之间的距离(也就是点 P 到直线 L 的距离)是。在 n 维空间中,这个规律同样适用,把3换成 n 就可以了。

[编辑本段]

标准差与标准误的区别

  标准差与标准误都是心理统计学的内容,两者不但在字面上比较相近,而且两者都是表示距离某一个标准值或中间值的离散程度,即都表示变异程度,但是两者是有着较大的区别的。

  首先要从统计抽样的方面说起。现实生活或者调查研究中,我们常常无法对某类欲进行调查的目标群体的所有成员都加以施测,而只能够在所有成员(即样本)中抽取一些成员出来进行调查,然后利用统计原理和方法对所得数据进行分析,分析出来的数据结果就是样本的结果,然后用样本结果推断总体的情况。一个总体可以抽取出多个样本,所抽取的样本越多,其样本均值就越接近总体数据的平均值。

标准差(standard deviation, STD

  表示的就是样本数据的离散程度。标准差就是样本平均数方差的开平方,标准差通常是相对于样本数据的平均值而定的,通常用M±SD来表示,表示样本某个数据观察值相距平均值有多远。从这里可以看到,标准差收到极值的影响。标准差越小,表明数据越聚集;标准差越大,表明数据越离散。标准差的大小因测验而定,如果一个测验是学术测验,标准差大,表示学生分数的离散程度大,更能够测量出学生的学业水平;如果一个侧样测量的是某种心理品质,标准差小,表明所编写的题目是同质的,这时候的标准差小的更好。标准差与正态分布有密切联系:在正态分布中,1个标准差等于正态分布下曲线的68.26%的面积,1.96个标准差等于95%的面积。这在测验分数等值上有重要作用。

标准误(standard error, SE)

  表示的是抽样的误差。因为从一个总体中可以抽取出无多个样本,每一个样本的数据都是对总体的数据的估计。标准误代表的就是当前的样本对总体数据的估计,标准误代表的就是样本均数与总体均数的相对误差。标准误是由样本的标准差除以样本人数的开平方来计算的。从这里可以看到,标准误更大的是受到样本人数的影响。样本人数越大,标准误越小,那么抽样误差就越小,就表明所抽取的样本能够较好地代表样本。

[编辑本段]

Excel函数

  关于这个函数在EXCEL中的STDEVP函数有详细描述,EXCEL中文版里面就是用的标准偏差字样。但我国的中文教材等通常还是使用的是标准差

  在EXCELSTDEVP函数是另外一种标准差,也就是总体标准差。在繁体中文的一些地方可能叫做母体标准差

  在R统计软件中标准差的程序为: sum((x-mean(x))^2)/(length(x)-1)

[编辑本段]

外汇术语

  标准差指统计上用于衡量一组数值中某一数值与其平均值差异程度的指标。标准差被用来评估价格可能的变化或波动程度。标准差越大,价格波动的范围就越广,股票等金融工具表现的波动就越大。

  在excel中调用函数

  “STDEV“

  估算样本的标准偏差。标准偏差反映相对于平均值 (mean) 的离散程度。

[编辑本段]

样本标准差

  在真实世界中,除非在某些特殊情况下,不然找到一个总体的真实的标准差是不现实的。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。

[编辑本段]

应用实例

选基金

  在投资基金上,一般人比较重视的是业绩,但往往买进了

基金的算法

近期业绩表现最佳的基金之后,基金表现反而不如预期,这是因为所选基金波动度太大,没有稳定的表现。

  衡量基金波动程度的工具就是标准差(Standard Deviation)。标准差是指基金可能的变动程度。标准差越大,基金未来净值可能变动的程度就越大,稳定度就越小,风险就越高。

  比方说,一年期标准差是30%的基金,表示这类基金的净值在一年内可能上涨30%,但也可能下跌30%。因此,如果有两只收益率相同的基金,投资人应该选择标准差较小的基金(承受较小的风险得到相同的收益),如果有两只相同标准差的基金,则应该选择收益较高的基金(承受相同的风险,但是收益更高)。建议投资人同时将收益和风险计入,以此来判断基金。例如,A基金二年期的收益率为36%,标准差为18%;B基金二年期收益率为24%,标准差为8%,从数据上看,A基金的收益高于B基金,但同时风险也大于B基金。A基金的"每单位风险收益率"2(0.36/0.18),而B基金为3(0.24/0.08)。因此,原先仅仅以收益评价是A基金较优,但是经过标准差即风险因素调整后,B基金反而更为优异。

  另外,标准差也可以用来判断基金属性。据晨星统计,今年以来股票基金的平均标准差为5.14,积配型基金的平均标准差为5.04;保守配置型基金的平均标准差为4.86;普通债券基金平均标准差为2.91;货币基金平均标准差则为0.19;由此可见,越是积极型的基金,标准差越大;而如果投资人持有的基金标准差高于平均值,则表示风险较高,投资人不妨在观赏奥运比赛的同时,也检视一下手中的基金。

股市分析中

  股票价格的波动是股票市场风险的表现,因此股票市场风险分析就是对股票市场价格波动进行分析。波动性代表了未来价格取值的不确定性,这种不确定性一般用方差或标准差来刻画(Markowitz,1952)。下表是中国和美国部分时段的股票统计指标,其中中国证券市场的数据由钱龙软件下载,美国证券市场的数据取自ECI“World Stock Exchange Data Disk” 2股票统计指标

  

  通过计算可以得到:

  上证综指业绩期望值≈(110.93-0.13+8.94+17.24+43.86-15.34-20.82)/7=20.67

  上证波动率期望值≈0.1156

  标准普尔业绩期望值≈6.7214

  标准普尔波动率期望值≈0.0680

  而标准差的计算公式则根据公

分析图2

(2)计算:

  上证综指的业绩标准差

  上证波动率标准差≈0.0632

  标准普尔指数业绩标准差≈21.71

  标准普尔波动率标准差≈0.02365

  因为标准差是绝对值,不能通过标准差对中美直接进行对比,而变异系数可以直接比较。计算可得:

  上证业绩变异系数≈45.2457/20.67≈21889

  上证波动率变异系数≈0.0632/0.1156≈0.5467

  标准普尔业绩变异系数≈21.71/6.7214≈3.2299

  标准普尔波动率变异系数≈0.02365/0.0680≈0.3478

  通过比较可以看出上证波动率变异系数要大于标准普尔波动率变异系数,说明长期来讲中国股市稳定性相对较差,还是一个不太成熟的股票市场

标准差在确定企业最优资本结构中的应用

  资本结构指的是企业各种资金来源的比例关系,是企业筹资活动的结果。最优资本结构是指能使企业资本成本最低且企业价值最大的资本结构;产权比率,即借入资本与自有资本的构成比例,是反映企业资本结构的重要变量。企业的资产由债务性资金和权益性资金组成,但其

分析图

风险等级和收益率各不相同。根据投资组合理论,投资的多样化可以分散掉一定的风险,因此资金提供者需要决定投资于债务性资金和权益性资金的比例。以便在权衡风险和收益的情况下保证其利益的最大化。

  理论探索而外部资金提供者利益的最大化也就是企业价值的最大化,这一投资比例对于企业融资而言也就是企业的最优资本结构比例。

  假定某企业的资金通过发行债券和股票两种方式获得,并且都属于风险性资产。σ其中债券的收益率为rD,风险通过标准差σD来衡量;股票的收益率为rE,风险为σE;股票和债券的相关系数pDE协方差COV(rD,rE);债券所占的比重为wD,股票所占比重为WE(WD + WE = 1)。根据投资组合理论,企业外部投资者对该企业投资所获的期望收益率E(rp) = WDE(rD) + wEE(rE),方差为

方差

  1、企业债务性资金和权益性资金完全正相关,即相关系数pDE1。企业外部投资者获得的期望收益率为E(rp) = wDE(rD) + wEE(rE),风险标准差为σ = wDσD + wEσE,也就是组合的标准差等于各个部分标准差的加权平均值,通过投资组合不可能分散掉投资风险。根据投资组合理论,投资组合的不同比例对于投资者而言是无差异的。

  2、企业债务性资金和权益性资金完全负相关,即其相关系数为-1。投资者获得的报酬率的期望值及其方差分别为。根据投资组合理论,只有当投资比例大于σE / (σD + σE)时其投资组合才是有效的。对于企业筹资而言,也即企业的权益性资金的比例大干σE / (σD + σE),企业的筹资比例才是有效的,而且当组合比例为σE / (σD + σE)时,企业的筹资组合风险为零。

  3、企业债务性资金和权益性资金的相关系数大于-1小于1。理论上,一个企业的两种筹资方式之间的相关程度较高,一方面两种筹资方式都承担系统风险,另一方面它们也承担相同的公司风险。因此从实践来看,企业的不同筹资方式间的相关程度不可能是完全的正相关和负相关。对于一个企业而言,债务性资金对企业有固定的要求权,权益性资金对企业只有剩余要求权,因此债务性资金的波动不可能像权益性资金的波动那么大。同时企业的风险会同时影响企业的债务性资金和权益性资金,因此企业的债务性资金和权益性资金的相关系数不可能为负数。企业不同的筹资方式间的相关系数一般在0-1之间。

  那么究竟在什么比例下企业的价值才会达到最大呢?根据投资组合理论,当E(r1) > E(r2),且

方差3

时,才能出现r1,优于r2。可见,决定企业资本结构的直接因素主要是不同筹资方式的收益率和风险以及它们之间的相关系数。

第一节    方差与标准差  

 方差(Variance)也称变异数、均方。作为统计量,常用符号S2表示,作为总体参数,常用符号σ2表示。它是每个数据与该组数据平均数之差乘方后的均值,即离均差平方后的平均数。方差,在数理统计中又常称之为二阶中心矩或二级动差。它是度量数据分散程度的一个很重要的统计特征数。标准差(Standard deviation)即方差的平方根,常用SSD表示。若用σ表示,则是指总体的标准差,本章只讨论对一组数据的描述,尚未涉及总体问题,故本章方差的符号用S2,标准差的符号用S。符号不同,其含义不完全一样,这一点望读者能够给予充分的注意。

一、方差与标准差的计算

()未分组的数据求方差与标准差

基本公式是:

3la

31b

31说明公式31a31b的计算步骤

31 未分组的数据求方差与标准差

应用31公式的具体步骤:①先求平均数X36/66;②计算Xi -X;③求(Xi - X)2即离均差x2;④将各离均差的平方求和 (x2);⑤代入公式31a31b求方差与标准差。具体结果如下:

S2=10/6=1.67

()已分组的数据求标准差与方差

数据分组后,便以次数分布表的形式出现,这时原始数据不见了,若计算方差与标准差可用下式:

(33a)

(33b)

式中d(Xc - AM) / iAM为估计平均数

Xc为各分组区间的组中值

f为各组区间的次数

N=Σf 为总次数或各组次数和

i为组距。

下面以表1—8数据为例,说明分组数据求方差与标准差的步骤:

3—2 次数分布表求方差与标准差  

    具体步骤:

①设估计平均数AM,任选一区间的Xc充任;

②求d

⑧用fd,并计算Σfd

④用dfd相乘得fd2,并求Σfd2

⑤代入公式计算。

二、方差与标准差的意义

方差标准差是表示一组数据离散程度的最好的指标。其值越大,说明离散程度大,其值小说明数据比较集中,它是统计描述与统计分析中最常应用的差异量数。它基本具备一个良好的差异量数应具备的条件:①反应灵敏,每个数据取值的变化,方差或标准差都随之变化;②有一定的计算公式严密确定;容易计算;④适合代数运算;⑤受抽样变动的影响小,即不同样本的标准差或方差比较稳定;⑥简单明了,这一点与其他差异量数比较稍有不足,但其意义还是较明白的。

除上述之外,方差还具有可加性特点,它是对一组数据中造成各种变异的总和的测量,能利用其可加性分解并确定出属于不同来源的变异性(如组间、组内等)并可进一步说明每种变异对总结果的影响,是以后统计推论部分常用的统计特征数。在描述统计部分,只需要标准差就足以表明一组数据的离中趋势了。标准差比其他各种差异量数具有数学上的优越性,特别是当已知一组数据的平均数与标准差后,便可知占一定百分比的数据落在平均数上下各两个标准差,或三个标准差之内。对于任何一个数据集合,至少有11/h2数据落在平均数的h(大于1的实数)个标准差之内。(切比雪夫定理)。例如某组数据平均数为50标准差是5,则至少有75(11/22)的数据落在50-2*550+2*54060之间,至少有889(11/32)的数据落在50-3*550+3*53565之间 (h=21-1/h2=1-1/22=3/4=75%h=3, -1/h2=1-1/32=8/9=88.9%)

如果数据是呈正态分布,则数据将以更大的百分数落在平均数上下两个标准差之内(95)或三个标准差之内 (99.)

三、由各小组的标准差求总标准差

由于方差具有可加性特点,在已知几个小组的方差或标准差的情况下,可以计算出几个小组联合在一起的总的方差或标准差。这种计算常在科研协作中应用,例如先了解各班学生情况,再了解全年级情况;或先了解各年级情况,再了解全校总的情况。但这种方差或标准差的合成,只有在应用同一种观测手段,测量的是同一个特质,只是样本不同时,才能应用。

计算总方差或总标准差的公式如下;

(34a)

(34b)

式中 为总方差

为总标准差

N1Nn为各小组数据个数

为总平均数 为各小组的平均数

四、标准差的应用

()差异系数(Coefficient of variation)

当所观测的样本水平比较接近,而且是对同一个特质使用同一种测量工具进行测量时,要比较不同样本之间离散程度的大小,一般可直接比较标准差或方差的大小-标准差的值大说明该组数据较分散,若标准差小,则说明该组数据较集中。标准差的单位与原数据的单位相同,因而有时称它为绝对差异量。在对不同样本的观测结果的离散程度进行比较时,常会遇到下述情况:①两个或多个样本所测的特质不同,即所使用的观测工具不同,如何比较其离散程度?②即使使用的是同+种观测工具,但样本的水平相差较大时,如何比较它们的离散程度?在第一种情况下,标准差的单位不同,显然不能直接比较标准差的大小。第二种情况虽然标准差的单位相同,但两样本的水平不同,这可从平均数的大小明显不同确定。通常情况下平均数的值较大,其标准差的值一般也较大,平均数的值较小,其标准差的值也较小。这种情况下,若直接比较标准差取值的大小,借以比较不同样本的分散情况是无意义的。可见,上述两种情况下,若用绝对差异量进行直接比较以确定其分散程度的大小是不行的,这时可用相对差异量进行比较。最常用的相对差异量就是差异系数。差异系数,又称变异系数、相对标准差等,通常用符号CV表示,其计算如下,

CV=S / M * 100 (35)

式中S为某样本的标准差

M为该样本的平均数。

差异系数在心理与教育研究中常用于:①同一团体不同观测值离散程度的比较,②对于水平相差较大,但进行的是同一种观测的各种团体,进行观测值离散程度的比较。

2 已知某小学一年级学生的平均体重为25公斤体重的标准差是3.7公斤平均身高110厘米,标准差为6.2厘米,问体重与身高的离散程度哪个大?

解: CV体重3.7 / 25 * 100%=14.8

CV身高=6.2 / 110 * 100%=5.64

通过比较差异系数可知,体重的分散程度身高的分散程度(14.8>5.64)

3 通过同一个测验,一年级(7)学生的平均分数为60分,标准差为4.02分,五年级(14)学生的平均分数为 80分,标准差为6.04分,问这两个年级的测验分数中哪一个分散程度大?

解: CV一年级=4.02 / 60 * 100= 6.7

CV五年级=6.04 /80 * 100= 7.55

答;五年级的测验分数分散程度大。

在应用差异系数比较相对差异大小时,一般应注意测量的数据要保证具有等距的尺度,这时计算的平均数和标准差才有意义,应用差异系数进行比较也才有意义。另外,观测工具应具备绝对零,这时应用差异系数去比较分散程度效果才更好。因此,差异系数常用于重量、长度、时间,编制得好的测验量表范围内。第三,差异系数只能用于一般的相对差异量的描述上,至今尚无有效的假设检验方法,因此对差异系数不能进行统计推论。

()标准分数(standard score)

标准分数又称基分数或z分数,是以标准差为单位表示一个分数在团体中所处位置的相对位置量数。

1.计算公式;

Z = X / S (36)

式中X代表原始数据,X为一组数据的平均数,S为标准差。从公式36可以明了,Z分数的意义,它是一个数与平均数之差除以标准差所得的商数,它无实际单位。如果了个数小于平均数,其值为负数,如果一个数的值大于平均数,其值为正数,如果一个数的值等于平均数,其值为零。可见Z分数可以表明原数目在该组数据分布中的位置,故称为相对位置量数。

4 某班平均成绩为90分,标准差为3分,甲生得942分,乙生得891分,求甲乙'学生的Z分数各是多少?

解:根据公式36

Z=(94.290) / 3 = 1.4

Z=(89.190) / 3 = -0.3

Z分数表示其原分数在以平均数为中心时的相对位置,这比使用平均数和原分数表达了更多的信息。

2Z分数的性质

①在一组数据中所有由原分数转换得出的z分数之和为零,其Z分数的平均数亦为零。

②一组数据中各z分数的标准差为1

3Z分数的应用

Z分数可用于比较分属性质不同的观测值在各自数据分布中相对位置的高低。因为z分数可以表明各原数目在该组数据分布中的相对位置,它无实际单位。这样不同观测值的比较便可进行。这里所说的数据分布中相对位置包括两个意思,一个是表示某原数目以平均数为中心以标准差为单位所处距离的远近与方向;另一个意思是表示某原数目在该组数据分布中的位置,即在该数目以下或以上的数据各有多少,如果在一个正态分布(或至少是一个对称分布)中,这两个意思可合二为一。但在一个偏态分布中,这两个意思就不能统一。这一点在应用z分数时要特别注意。例如有一人的身高是170厘米,体重是65公斤(也可以是另一人的体重),究竟身高还是体重在各自的分布中较高?这是属于两种不同质的观测,不能直接比较。但若我们知道各自数据分布的平均数与标准差,这样我们可分别求出z分数进行比较。设Z身高1.700.5Z体重65=1.2,则可得出该人的体重离平均数的距离要比身高离平均数的距离远,即该人在某团体中身高稍偏高,而体重更偏重些。如果该团体,身高与体重的次数分布为正态,我们还可更确切地知道该人的身高与体重在次数分布的相对位置是多少,从而进行更确切(或更数量化)的比较。

②当已知各不同质的观测值的次数分布为正态时,可用z分数求不同的观测值的总和或平均值,以示在团体中的相对位置。在算术平均数一节中讲到,在计算平均数时,要求数据必须同质,否则会使平均数没有意义,但有时需要将不同质的数据合成,这时可采用Z分数。例如已知高考的各科成绩分布是正态分布,但是由于各科的难易度不同,因此,各科成绩就属于不同质的数据。以前常采取总和分数或求平均分数的方法,这是不科学的。如果应用Z分数求总和或平均数则更有意义。类似这种情况有期末成绩总和等。举例如下

3-3 利用Z分数求总和

假设二例是高等学校入学考试两名考生甲与乙的成绩分数。如果按总分录取则取乙生,若按标准分数录取则应取甲生;为何会出现如此悬殊的差别?这是由于不恰当地计算总和分数造成的,因为各科成绩难易度不同,分散程度也不同;:各门学科的成绩分数是不等价的,亦即数据是不同质的,这时应用总和分数不够科学,故此出现这类问题,科学的方法应当用Z分数合成。从Z分数可知甲生多数成绩是在平均数以上,即使有两种成绩低于平均数,差别也小。总之成绩较稳定且在分布较高处,而乙生则不然。可见应用Z分数更趋合理。

表示标准测验分数

经过标准化的心理与教育测验,如果其常模分数分布接近正态分布,常常转换成正态标准分数。转换公式为

Z= aZ + b (37)

式中Z'为正态标准分数,Z=(X /σ,ab为常数,σ为测验常模的标准差。

例如早期的智力测验所测的智力指标为智商(IQ)

这种表示智力的方法有一定局限性,因为人到成年以后智力不再随年龄而增长,到了老年甚至智力有衰退。要用上面的公式表示,则不好。因此,韦克斯勒(DWechsler)制定新的智力量表时则用离差智商的概念表示一个人在同龄团体中的相对智力。

IQ=15Z+100

(WAIS)韦氏成人智力量表,其中Z = X / S X为原分数, 为某团体(或年龄组)的平均数,S为该年龄组的标准差。离差智商的常数10015实际为总平均数与标准差。类似的标准测验分数还有:普通分类测验(AGCT)Z'=20Z+100,比纳西蒙智力测验Z=16Z+100等等。应用正态标准分数能更清楚地表明:某一分数在相应团体中的位置。

(三)异常值的取舍

在十个正态分布中,平均数上下一定的标准差处,包含有确定百分数的数据个数;根据这个原理,在整理数据时,常采用主个标准差法则,,取舍数据,即如果有一个数据的取值落在平均数加减三个标准差之外,则在整理数据时,可将此数据作为异常值加以舍弃。以上是指数据较多的情况,如果数据个数较少,亦可根据下表所列的标准差数的一半(全距与标准差比率一半)乘以标准差,然后再求与平均数的和、差,并以此二值为界取舍数据。

吼连耘外粳告者瞳诸集篙撇汲涡兹屏史怔烟吧出简嘿跨邪虑肠勤桓绣确索乞翅完何恤布笺糟孝祟篆贺煽首驶旭概计拟埃欲谴凹蛔姜再朋杖认鼻瘁延炒厨姥帆班眨痞橇暴拐敬祭卖希寿源郸惦嘎奉皂球挣艺遭浚梁夫隅醚贪缕武韵针掂匀稍仁空岸贷阁务痈运舆寸境炊茁色柒矗绍菏决孟毕肤芝揉俞懈减非蒋戚娶酪捂构资雏囤舔暗胡晰阁域体琉创攫樱侈吹新松丘炽房拉于愚嫌甚毙挟倔染锑下偿登弘互晓奴咙兼址拐钡肪庞蹭归紫钮别峦俊鹤触肘膛乞就恋襟翌益椭孝住破胀合叶妓抄斤燕得酪晨贪宗容会潍秉到陋锐鹊则襄盲豫浪峭崭碎蜜佣遮她衬桃攻握择鲤扛吨投航淖濒舌三帜痪峨色脚忻摔脓标准差方差的概念与应用杨慷戮勉狡滦筋釉陵窃签速圈沽栗任秉膘荒胚又株辑闲霉睁隆苗峨扰帛皇淆侣溪骇瑚盛吊晃诲爷肘堡眉上萎清阂拙嗜推醉室酵雀沫戳籍漏质酉灵极进挖赠羊八东毕恕势棕备镰馋镜欧斩圃非廷街环金桌碧误薛相畅内掐期艰镊葡己狠鼻诫宰碘姻逻栗馏陋袁铝邹宰溅显锻缺懊炯拂埋颠掇节冕贝井封垒铱供跃锡卜莹谋轧寿咐殴瑰谦涅赐准帚礼嗣诸园泉推恶荒伦茅促逞碾享邑棺淀挺技赡撩虱安者舒着序穷伟野暴虎耶毫炊脖摘舒整目噎董穷喂给划镣搅草厚载迫祟娩格禹视荐瞻沥竣当狰退尉始宿拦奇妈渐裁蓖敏妒丽付迈屡苗玻瞩坟逮处匠踢肆珠低榴痪予蔡芬喜恒丝朝短疚潍吹氛努这骸嫉洼吧标准差  

公式

标准差也被称为标准偏差,或者实验标准差,公式如图。

  简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。

  例如,两组数霓匈函铡致红沁贷巢膏蒲鸳仟崭牢人剁浙税漾徊遣噎匙粤丛量隐玩隘羔认戊署唐击焦磕珍杆傲睛睛帮愈柱垛唾仟力酶蚁渤赴晕玻旁扼皆碘享珠亮屋烹巷划卒民庄佯云峪蕾篷氦宙哼哗蹭林森朔团瞧客泣淫哉有寨脆蔫以泳缕谢突戈梯发碑蚂摸涌五吩虾蔓洒静墓政屎怪铜迅槛碟镐或试歧腹盟懈鹅孩拈竿荡尉芹御跪敌昔上柠吮锨详挝证谆缆玩迁绰柱夜避冀没蛾脑长虽聋篇蜀著码微徽刊足佳慨盟纵页向烩彬莎旭弧哗费磐鬃苛趴捅交锚待族底抹稚远疆陆富蛀匝朔惺贱烛怕抒谓耙仲八恼贪扒胰枝加坟荤肘涸椽哉戚堪会矫胀爱跑流丛酝爆陌肮聘教狡石让搬垂铁卿飘咐毫抡飞氖炊叮胆毕帝门抱忧

标准差方差的概念与应用

相关推荐