luyuanhong 发表于 2024-4-10 07:49

正态分布的起源

正态分布的起源

原创 围城里的猫 MathSpark 2024-01-31 08:02 安徽

我们这个公众号有很大一部分内容着重在数学和科学的历史以及材料本身。当我们写下他们的故事时,确实地帮助了人们记住了这些角色,根据我们经验这些提出真正开创性的原创想法的人通常也是有各种有趣怪癖的人。举个例子 Erdos-Ko-Rado 定理的重要性不言而喻,但是从表面看这个定律几乎戳不中数学人的爽点(或者是由于我对这方面一无所知的缘故),并不会令我特别幸福,但是想到他的提出者之一保罗·埃尔多斯的故事,我的脑海里就会浮现,多产,自由,不拘一格这些故事,对这些故事感兴趣的读者可以参考:一个既没有工作也没有家的数学家,谁是最“坏”的数学家这两篇文章。

我们始终认为研究科学的历史是一项有趣的工作,尽管相对于现代科学的发展而言,它并不是那么重要,又或者是它早已经渗透到现代科学的血液中去了,所以今天这期我们尝试着回忆概率和统计学的基础,并将这个领域的历史放在下文中,这会让事情变得有趣起来。

开端

概率的正式研究始于 17 世纪的法国。安托万·贡波(Antoine Gombaud),又名梅雷骑士(Chevalier de Méré),是当时沙龙界的作家和杰出思想家。作为一个狂热的赌徒,梅雷遇到了一个自中世纪以来就知道的问题,即赌注分配问题。

假设两名玩家同意玩一定数量的游戏,比如七局四胜制的系列赛,并在他们完成之前就被打断了。比如说,如果一个人赢了三场比赛,另一个人赢了一场比赛,那么赌注应该如何分配?

德梅雷无法解决这个问题,于是向当时著名的物理学家和数学家布莱斯·帕斯卡和皮埃尔·德·费马求助,在讨论这个问题时,帕斯卡提出了我们现在所说组合数的计算和帕斯卡三角形。


帕斯卡三角形

帕斯卡还明白,这个模型除了在解决赌博纠纷方面有用之外,还可以使人们计算二项式公式的系数,而在那时二项式公式的用途才刚刚开始被理解。帕斯卡在三十一岁时奠定了概率学的正式研究基础并提出了期望值的概念后,就投身到宗教的怀抱当中去了,并放弃了大部分数学工作。

大约五十年后,荷兰数学家威廉·格雷夫桑德(Willem's Gravesande)正在研究伦敦的死亡率问题,并对一个特定问题给出了以下答案:



粗略一看这个概率值长得如此丑陋,手动计算这个数字显然是一项艰巨且不可能的任务,但随着二项分布的使用和理解变得越来越普遍,这些困难的问题出现的频率也随之增高,而此时距离电子计算机的出现还有很长的路要走,那么人们怎么能计算出这些值呢?这就不得不要提到另外一个人物亚伯拉罕·棣莫弗。


Abraham de Moivre

De Moivre's 近似

1733 年,亚伯拉罕·棣莫弗提出了一种更易于计算的近似方法,该方法现在仍然在统计学的入门课程中作为二项分布的正态近似方法教授即:



这里我们已经有了我们熟悉的正态分布的累积分布函数(CDF)方程的雏形(某些常数与现代不一样)。但真正令人惊奇的是,正态分布要在大约七十年后才会被真正发现!所以现在他的方法还没有任何理论意义,它只是一种近似二项式系数的方法。而改变要到的高斯的出现。

高斯


马克纸币,以高斯和高斯分布为背景。

时间到了 1801 年,天文学家朱塞佩·皮亚齐(Giuseppe Piazzi)发现了矮行星谷神星(Ceres),当时人们认为这是一颗可能的新行星。不幸的是,大约一个月后,谷神星从太阳后面经过,这带来了一个问题,因为在那个月的观测中收集到的数据不足以表明谷神星将在哪里重新出现。事实上,在谷神星应该重新出现的那一天之后,没有人能找到它。当时二十四岁的卡尔·弗里德里希·高斯(Carl Friedrich Gauss)出手拯救了这个问题,在当时他的方法包括了考虑谷神星位置测量中的误差涉及三个方面:

● 小错误比大错误更有可能发生

● 对于任何数字 E ,出现错误 +E 的可能性与出现错误 -E 的可能性相同。

● 如果进行多次测量,则实际答案的最可能值将是测量值的平均值。

由这些简单的假设,高斯提出了正态分布的概率密度函数(PDF)。在他的证明中,高斯提出了一个新函数即



依靠我们现在所知道的最小二乘近似的方法(这个方法事实上也起源于高斯),他利用上面三个假设施加的条件来做一些聪明的代数变换,并得出结论 f(x) 必须具有以下形式:



当时高斯的想法可以在下面这篇文章中找到完整的证明:



上面 f(x) 具有的形式是一个简单的微分方程,我们对两边同时积分:就为我们提供了正态分布的 PDF ,归一化常数即可得下面的式子:



拉普拉斯和中心极限定理



皮埃尔·西蒙·拉普拉斯(Pierre Simon Laplace)是另一位研究概率的法国数学家。他对均值的概念很感兴趣,特别是试图在进行重复实验时计算误差。他对这个主题的研究使他接近于发现正态分布方程。误差的分布确实是高斯分布。拉普拉斯对这一事实的进一步探索和证明,结合他早期关于归纳推理概率理论的著作,是我们现在所说的贝叶斯推理的基础。下面的视频是所谓的高尔顿板,用来模拟二项分布如何收敛到正态分布。



将一切结合在一起

总而言之,我们今天所知道的正态分布或高斯分布来自三个完全不同的方向:拉普拉斯在对均值进行抽样时的误差研究,高斯对测量误差的观察,以及,亚伯拉罕·棣莫弗试图用非常大的 N 近似二项分布。这些不同的问题都汇聚到同一个答案:正态分布。这也是数学中最令人欣喜的事情,来自不同专业的人们发现了我们宇宙的固有部分都聚集在一起。



围城里的猫
页: [1]
查看完整版本: 正态分布的起源