赵明 高斯与正态分布的由来

发布时间:2023-03-15 05:12:06


正态分布的由来
正态分布是最重要的一种概率分布。正态分布概念是由德国的数学家和天文学家Moivre1733年受次提出的,但由于德国数学家Gauss率先将其应用于天文学家研究,故正态分布又叫高斯分布.
高斯这项工作对后世的影响极大,他使正态分布同时有了“高斯分布”的名称,后世之所以多将最小二乘法的发明权归之于他,也是出于这一工作。高斯是一个伟大的数学家,重要的贡献不胜枚举。但现今德国10马克的印有高斯头像的钞票,其上还印有正态分布的密度曲线。这传达了一种想法:在高斯的一切科学贡献中,其对人类文明影响最大者,就是这一项。
在高斯刚作出这个发现之初,也许人们还只能从其理论的简化上来评价其优越性,其全部影响还不能充分看出来。这要到20世纪正态小样本理论充分发展起来以后。
拉普拉斯很快得知高斯的工作,并马上将其与他发现的中心极限定理联系起来,为此,他在即将发表的一篇文章(发表于1810年)上加上了一点补充,指出如若误差可看成许多量的叠加,根据他的中心极限定理,误差理应有高斯分布。这是历史上第一次提到所谓“元误差学说”——误差是由大量的、由种种原因产生的元误差叠加而成。后来到1837年,海根(G.Hagen在一篇论文中正式提出了这个学说。其实,他提出的形式有相当大的局限性:海根把误差设想成个数很多的、独立同分布的“元误差”之和,每只取两值,其概率都是1/2,由此出发,按狄莫佛的中心极限定理,立即就得出误差(近似地服从正态分布。
拉普拉斯所指出的这一点有重大的意义,在于他给误差的正态理论一个更自然合理、更令人信服的解释。因为,高斯的说法有一点循环论证的气味:由于算术平均是优良的,

推出误差必须服从正态分布;反过来,由后一结论又推出算术平均及最小二乘估计的优良性,故必须认定这二者之一(算术平均的优良性,误差的正态性为出发点。但算术平均到底并没有自行成立的理由,以它作为理论中一个预设的出发点,终觉有其不足之处。拉普拉斯的理论把这断裂的一环连接起来,使之成为一个和谐的整体,实有着极重大的意义。
1809年,高斯(CarlFriedrichGauss17771855发表了其数学和天体力学的名著《绕日天体运动的理论》。在此书末尾,他写了一节有关“数据结合”(datacombination)的问题,实际涉及的就是这个误差分布的确定问题。
他的做法与拉普拉斯相同。但在往下进行时,他提出了两个创新的想法。一是他不采取贝叶斯式的推理方式,测量误差是由诸多因素形成,每种因素影响都不大。按中心极限定理,其分布近似于正态分布是势所必然。其实,早在1780年左右,拉普拉斯就推广了狄莫佛的结果,得到了中心极限定理的比较一般的形式。可惜的是,他未能把这一成果用到确定误差分布的问题上来。高斯的第二点创新的想法是:他把问题倒过来,先承认算术平均是应取的估计,然后去找误差密度函数条件下才能成立,这就是正态分布。一种概率分布。正态分布是具有两个参数μσ2的连续型随机变量的分布,第一参数μ是遵从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2。遵从正态分布的随机变量的概率规律为取μ邻近的值的概率大,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。它的形状是中间高两边低,图像是一条位于x轴上方的钟形曲线。当μ=0,σ2=1时,称为标准正态分布,记为N01。μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。

赵明 高斯与正态分布的由来

相关推荐