
首先我要告诉大家一个事实:误差分析和统计学是两个风马牛不相及的两个学科;当然这个事实存在的时间是19世纪初之前。统计学的产生最初与“编制国情报告”有关,主要服务于政府部门。统计学面对的是统计数据,是对多个不同对象的测量;而误差分析研究的是观测数据,是对同一个对象的多次测量。因此观测数据和统计数据在当时被认为两种不同行为获取得到的数据,适用于观测数据的规律未必适用于统计数据。19世纪的统计数据分析处于一个很落后的状态,和概率论没有多少结合。而概率论的产生主要和赌博相关,发展过程中与误差分析紧密联系,而与当时的统计学交集非常小。将统计学与概率论真正结合起来推动数理统计学发展的便是我们的统计学巨星凯特勒。
凯特勒这名字或许不如其它数学家那么响亮,估计很多人不熟悉,所以有必要介绍一下。凯特勒是比利时人,数学博士毕业,年轻的时候曾追随拉普拉斯学习过概率论。此人学识渊博,涉猎广泛,脑门上的桂冠包括统计学家、数学家、天文学家、社会学家、国际统计会议之父、近代统计学之父、数理统计学派创始人。凯特勒的最大的贡献就是将法国的古典概率引入统计学,用纯数学的方法对社会现象进行研究。
1831年,凯特勒参与主持新建比利时统计总局的工作。他开始从事有关人口问题的统计学研究。在这种研究中,凯特勒发现,以往被人们认为杂乱无章的、偶然性占统治地位的社会现象,如同自然现象一样也具有一定的规律性。凯特勒搜集了大量关于人体生理测量的数据,如体重、身高与胸围等,并使用概率统计方法来对数据进行数据分析。但是当时的统计分析方法遭到了社会学家的质疑,社会学家们的反对意见主要在于:社会问题与科学实验不同,其数据一般由观察得到,无法控制且经常不了解其异质因素,这样数据的同质性连带其分析结果往往就有了问题,于是社会统计工作者就面临一个如何判断数据同质性的问题。凯特勒大胆地提出:
【把一批数据是否能很好地拟合正态分布,作为判断该批数据同质的标准。】
凯特勒提出了一个使用正态曲线拟合数据的方法,并广泛的使用正态分布去拟合各种类型的数据。由此,凯特勒为正态分布的应用拓展了广阔的舞台。正态分布如同一把屠龙刀,在他的带领下,学者们挥舞着这把宝刀在各个领域披荆斩棘,攻陷了人口、领土、政治、农业、工业、商业、道德等社会领域,并进一步攻占天文学、数学、物理学、生物学、社会统计学及气象学等自然科学领域。
正态分布的下一个推动力来自生物学家高尔顿,当正态分布与生物学联姻时,近代统计学迎来了一次大发展。高尔顿是生物统计学派的奠基人,他的表哥达尔文的巨著《物种起源》问世以后,触动他用统计方法研究遗传进化问题。受凯特勒的启发,他对正态分布怀有浓厚的兴趣,开始使用正态分布去拟合人的身高、胸围、以至考试成绩等各类数据,发现正态分布拟合得非常好。他因此相信正态曲线是适用于无数情况的一般法则。
然而,对高尔顿而言,这个无处不在的正态性给他带来一些困惑。他考察了亲子两代的身高数据,发现遵从同一的正态分布,遗传作为一个显著因素是如何发挥作用的?1877年,高尔顿设计了一个叫高尔顿钉板(quincunx,或者Galton board)的装置,模拟正态分布的性质用于解释遗传现象。
如下图中每一点表示钉在板上的一颗钉子,它们彼此的距离均相等。当小圆球向下降落过程中,碰到钉子后皆以1/2的概率向左或向右滚下。如果有n排钉子,则各槽内最终球的个数服从二项分布B(n,1/2),当n较大的时候,接近正态分布。
【高尔顿钉板】
设想在此装置的中间某个地方AB设一个挡板把小球截住,小球将在AB处聚成正态曲线形状,如果挡板上有许多阀门,打开一些阀门,则在底部形成多个大小不一的正态分布,而最终的大正态分布正式这些小正态分布的混合。
【高尔顿钉板解释遗传现象】
高尔顿利用这个装置创造性的把正态分布的性质用于解释遗传现象。他解释说身高受到显著因素和其它较小因素的影响,每个因素的影响可以表达为一个正态分布。遗传作为一个显著因素,类似图中底部大小不一的正态分布中的比较大的正态分布,而多个大小不一正态分布累加之后其结果仍然得到一个正态分布。
高尔顿在研究身高的遗传效应的时候,同时发现一个奇特的现象:高个子父母的子女,其身高有低于其父母身高的趋势,而矮个子父母的子女,其身高有高于其父母的趋势,即有“回归”到普通人平均身高去的趋势,这也是“回归”一词最早的含义。高尔顿用二维正态分布去拟合父代和子代身高的数据,同时引进了回归直线、相关系数的概念,从而开创了回归分析这门技术。
可以说,高尔顿是用统计方法研究生物学的第一人,他用实际行动开拓了凯特勒的思想;为数理统计学的产生奠定了基础。无论是凯特勒还是高尔顿,他们的统计分析工作都是以正态分布为中心的,在他们的影响下,正态分布获得了普遍认可和广泛应用,甚至是被滥用,以至有些学者认为19世纪是正态分布在统计学中占统治地位的时代。
6.3 数理统计三剑客
最后,我们来到了20世纪,正态分布的命运如何呢?如果说19世纪是正态分布在统计学中独领风骚的话,20世纪则是数理统计学蓬勃发展、百花齐放的时代。1901年,高尔顿和他的学生卡尔·皮尔逊(Karl Pearson)、韦尔登(W.F.R Weldon)创办《生物计量》(Biometrika)杂志,成为生物统计学派的一面旗帜,引导了现代数理统计学的大发展。统计学的重心逐渐由欧洲大陆向英国转移,使英国在以后几十年数理统计学发展的黄金时代充当了领头羊。
在20世纪以前,统计学所处理的数据一般都是大量的、自然采集的,所用的方法以拉普拉斯中心极限定理为依据,总是归结到正态。到了19世纪末期,数据与正态拟合不好的情况也日渐为人们所注意:进入20世纪之后,人工试验条件下所得数据的统计分析问题,日渐被人们所重视。由于试验数据量有限,那种依赖于近似正态分布的传统方法开始招致质疑,这促使人们研究这种情况下正确的统计方法问题。
在这个背景之下,统计学三大分布χ2分布、t分布、F分布逐步登上历史舞台。这三大分布现在的理科本科生都很熟悉。在历史上,这三个分布和来自英国的现代数理统计学的三大剑客有着密切的关系。
凯特勒这名字或许不如其它数学家那么响亮,估计很多人不熟悉,所以有必要介绍一下。凯特勒是比利时人,数学博士毕业,年轻的时候曾追随拉普拉斯学习过概率论。此人学识渊博,涉猎广泛,脑门上的桂冠包括统计学家、数学家、天文学家、社会学家、国际统计会议之父、近代统计学之父、数理统计学派创始人。凯特勒的最大的贡献就是将法国的古典概率引入统计学,用纯数学的方法对社会现象进行研究。
1831年,凯特勒参与主持新建比利时统计总局的工作。他开始从事有关人口问题的统计学研究。在这种研究中,凯特勒发现,以往被人们认为杂乱无章的、偶然性占统治地位的社会现象,如同自然现象一样也具有一定的规律性。凯特勒搜集了大量关于人体生理测量的数据,如体重、身高与胸围等,并使用概率统计方法来对数据进行数据分析。但是当时的统计分析方法遭到了社会学家的质疑,社会学家们的反对意见主要在于:社会问题与科学实验不同,其数据一般由观察得到,无法控制且经常不了解其异质因素,这样数据的同质性连带其分析结果往往就有了问题,于是社会统计工作者就面临一个如何判断数据同质性的问题。凯特勒大胆地提出:

凯特勒提出了一个使用正态曲线拟合数据的方法,并广泛的使用正态分布去拟合各种类型的数据。由此,凯特勒为正态分布的应用拓展了广阔的舞台。正态分布如同一把屠龙刀,在他的带领下,学者们挥舞着这把宝刀在各个领域披荆斩棘,攻陷了人口、领土、政治、农业、工业、商业、道德等社会领域,并进一步攻占天文学、数学、物理学、生物学、社会统计学及气象学等自然科学领域。
正态分布的下一个推动力来自生物学家高尔顿,当正态分布与生物学联姻时,近代统计学迎来了一次大发展。高尔顿是生物统计学派的奠基人,他的表哥达尔文的巨著《物种起源》问世以后,触动他用统计方法研究遗传进化问题。受凯特勒的启发,他对正态分布怀有浓厚的兴趣,开始使用正态分布去拟合人的身高、胸围、以至考试成绩等各类数据,发现正态分布拟合得非常好。他因此相信正态曲线是适用于无数情况的一般法则。
然而,对高尔顿而言,这个无处不在的正态性给他带来一些困惑。他考察了亲子两代的身高数据,发现遵从同一的正态分布,遗传作为一个显著因素是如何发挥作用的?1877年,高尔顿设计了一个叫高尔顿钉板(quincunx,或者Galton board)的装置,模拟正态分布的性质用于解释遗传现象。
如下图中每一点表示钉在板上的一颗钉子,它们彼此的距离均相等。当小圆球向下降落过程中,碰到钉子后皆以1/2的概率向左或向右滚下。如果有n排钉子,则各槽内最终球的个数服从二项分布B(n,1/2),当n较大的时候,接近正态分布。

设想在此装置的中间某个地方AB设一个挡板把小球截住,小球将在AB处聚成正态曲线形状,如果挡板上有许多阀门,打开一些阀门,则在底部形成多个大小不一的正态分布,而最终的大正态分布正式这些小正态分布的混合。
【高尔顿钉板解释遗传现象】
高尔顿利用这个装置创造性的把正态分布的性质用于解释遗传现象。他解释说身高受到显著因素和其它较小因素的影响,每个因素的影响可以表达为一个正态分布。遗传作为一个显著因素,类似图中底部大小不一的正态分布中的比较大的正态分布,而多个大小不一正态分布累加之后其结果仍然得到一个正态分布。
高尔顿在研究身高的遗传效应的时候,同时发现一个奇特的现象:高个子父母的子女,其身高有低于其父母身高的趋势,而矮个子父母的子女,其身高有高于其父母的趋势,即有“回归”到普通人平均身高去的趋势,这也是“回归”一词最早的含义。高尔顿用二维正态分布去拟合父代和子代身高的数据,同时引进了回归直线、相关系数的概念,从而开创了回归分析这门技术。
可以说,高尔顿是用统计方法研究生物学的第一人,他用实际行动开拓了凯特勒的思想;为数理统计学的产生奠定了基础。无论是凯特勒还是高尔顿,他们的统计分析工作都是以正态分布为中心的,在他们的影响下,正态分布获得了普遍认可和广泛应用,甚至是被滥用,以至有些学者认为19世纪是正态分布在统计学中占统治地位的时代。
6.3 数理统计三剑客
最后,我们来到了20世纪,正态分布的命运如何呢?如果说19世纪是正态分布在统计学中独领风骚的话,20世纪则是数理统计学蓬勃发展、百花齐放的时代。1901年,高尔顿和他的学生卡尔·皮尔逊(Karl Pearson)、韦尔登(W.F.R Weldon)创办《生物计量》(Biometrika)杂志,成为生物统计学派的一面旗帜,引导了现代数理统计学的大发展。统计学的重心逐渐由欧洲大陆向英国转移,使英国在以后几十年数理统计学发展的黄金时代充当了领头羊。
在20世纪以前,统计学所处理的数据一般都是大量的、自然采集的,所用的方法以拉普拉斯中心极限定理为依据,总是归结到正态。到了19世纪末期,数据与正态拟合不好的情况也日渐为人们所注意:进入20世纪之后,人工试验条件下所得数据的统计分析问题,日渐被人们所重视。由于试验数据量有限,那种依赖于近似正态分布的传统方法开始招致质疑,这促使人们研究这种情况下正确的统计方法问题。
在这个背景之下,统计学三大分布χ2分布、t分布、F分布逐步登上历史舞台。这三大分布现在的理科本科生都很熟悉。在历史上,这三个分布和来自英国的现代数理统计学的三大剑客有着密切的关系。