• 站内
  • 站群
  • 图片
  • 视频
  • 文件
  • 互动
  • 服务
  • 国家数据

优秀统计读物《女士品茶》——第二章 偏斜分布

发布机构:湖南省统计局 发布时间:2007-07-30 打印本页 | 字体大小:

    像人类思想史上的许多革命一样,要想找到统计模型成为科学组成部分的确切时刻,也是很难的。人们可以在19世纪初德国和法国数学家的工作中找到可能存在的特例,甚至在17世纪伟大的天文学家约翰尼斯·开普勒(Johannes Kepler)的论文中,也能找到某种启示。正像本书前言中所提到的那样,拉普拉斯(Laplace)发明了误差函数来说明天文学中的统计问题,但我仍然倾向于把统计革命的发生定位于19世纪90年代K·皮尔逊(Karl Pearson)的工作。查尔斯·达尔文(Charles Darwin)把生物变异认作生命的基本面,并将之作为其适者生存理论的基础。然而是他的英国伙伴K·皮尔逊首先认识到统计模型的根本性质,以及这种模型对19世纪科学中的决定论观点提供了哪些不同的东西。

    当我在20世纪60年代开始学习数理统计时,K·皮尔逊的名字在课上很少被提到。当我与这一领域的大人物共同探讨一些问题时,也听不到对K·皮尔逊及其著作的参考。他或是被忽略了,或是被视为行为早已出局的次要人物。例如,美国国家标准局(the U.S National Bureau of Standards)的邱吉尔·艾森哈特(Churchill Eisenhart)当时正在伦敦大学学院(Unversity College,London)学习,那是K·皮尔逊人生的最后几年,艾森哈特记忆中的K·皮尔逊不过是一个精神不足的老头儿。统计研究的步伐已经将他推出局外,他和他的工作被埋没进故纸堆中,青年学生神采飞扬,集聚在新的大人物周围学步,其中之一,便是K·皮尔逊自己的儿子,但是没有人去拜见老皮尔逊,他的办公室孤零零地坐落在那里,远离着活跃的、振奋人心的新研究。

    当然并不总是如此,在19世纪70年代,年轻的K·皮尔逊离开英国,到德国去从事政治科学的研究生学习。在那里,他倾心于卡尔·马克思(Karl Marx)的著作,为了表达崇拜之情,他把自己名字的拼法从Carl改成Karl。带着政治学博士的学位,他回到了伦敦,并在这个领域写过两本值得重视的著作。在维多利亚时代的英国,伦敦的拘谨之风最甚,K·皮尔逊却大胆地效仿德国和法国上流社会的沙龙,组织了一个青年男女谈话俱乐部(Young Mens and Momens Discussion Club)。俱乐部中青年那女平等地聚集在一起(未婚少女并没有人陪伴),讨论世界上重大的政治和哲学问题。K·皮尔逊正是在那种环境下与夫人项遇而结缘的,这个事实使人感到发起这类俱乐部可能另有动机。这个小小的社会冒险对我们进入K·皮尔逊的内心世界提供了帮助,可以见证他对已经建立起来的传统是那样地不以为然。

    尽管拿的是政治学博士学位,K·皮尔逊的主要兴趣还是在科学哲学和数学模型的性质上。19世纪80年代,他发表了《科学法则》(The Grammar of Science),这本书后来再版了多次。在第一次世界大战之前的一段时间里,它被视为关于科学和数学性质最伟大的著作之一,其中充满了闪光的、原创性的、具有洞察力的见解,这使该书成为科学哲学的一本重要著作。同时,它又是以流畅、简单的风格写成、任何人都可以接受,你不必懂得数学就可以理解《科学的法则》。尽管从写作之日算起,这本书已经有100多年的历史了,但其中充满洞察力的见解和思想,对21世纪的数学研究,仍然是适用的。而它所提供的对科学性质的理解,至今也是真实的。

    高尔顿的生物统计实验室

    在人生的这个时段,K·皮尔逊感受到了英国科学家费朗西斯·高尔顿(Francis Galton)爵士的影响。大多数人知道高尔顿这个名字,缘于他是指纹现象的“发现者”。高尔顿的贡献是认识到指纹对每一个人都是独特的,此外,还有通常用于识别和分类指纹的方法。指纹的唯一性存在于手指类型中出现的不规则标识和切面,这被称为“高尔顿标识”(Galton Marks)。高尔顿做的远比这多,作为一个只是将生物学算作其业余爱好的科学家,通过数字模型的研究,他寻求将数学的严密引入生物学,这同样是富有价值的。他所初创的各种调查当中的一项,是对天才遗传的研究。在这项研究中,他搜集了有关父子的信息,这些人因智商高而闻名。但由于当时对智力的测量没有什么好的办法,他发现研究这个问题特别困难,于是他决定转向诸如身高之类的遗传特性的研究,因为这更容易测量些。

    高尔顿在伦敦成立了生物统计实验室(biometrical laboratory),并打广告动员不同的家庭来做测量。在这个实验室,他搜集身高、体重数据,测量特殊的骨骼和家庭成员的其它特性。他和他的助手将这些数据列成表格,并一再检验,他是在寻找利用父母测度数据来推断子女的某些办法。比如说,很明显,高个字父母容易有高个子的小孩,但是不是存在某些数学公式,只用父母的身高就可以预测孩子将来有多高呢?

    相关与回归

    高尔顿用这种方法,发现了他称之为“向平均回归”(regression to the mean)的现象,这表现为:非常高的父亲,其儿子往往要比父亲矮一些;而非常矮的父亲,其儿子往往要比父亲高一些。似乎是某种神秘的力量,使得人类的身高从高矮两极移向所有人的平均值。不只是人类身高存在着向平均数回归的现象,几乎所有的科学观察都着了魔似的向平均值回归。在第5章到第7章,我们将看到,费歇尔如何能够将高尔顿向平均值回归的思想纳入统计模型,而这种模型现在支配这经济学、医学研究和工程学的很多内容。

    高尔顿仔细思考了他的惊人发现,而后认识到这必定是真实的,在进行所有观察之前这就是可以预言的。他说,假设不发生这种向平均值的回归,那么从平均意义上看,高身材父亲的儿子将与他们的父亲一样高,在这种情况下,一些儿子的身材必须高于他们的父亲,以抵消身材比父亲矮小者的影响,使平均值不变。高身材者这一代人的儿子也将如此,那么会有一些儿子身材更高。这个过程将一代一代传下去。同样地,将会有一部分儿子身材比他们的父亲矮小,而且有一部分孙子将更加矮小,如此下去,不用多少代,人类种族就将有特别高和特别矮的两极构成。

    上述的情形并没有发生,人类的身高在平均意义上趋向于保持稳定。只有非常高的父亲其儿子平均身材变矮,而非常矮的父亲其儿子平均身材变高,才能出现这种稳定。向平均值回归是一种保持稳定性的现象,它使得某给定物种代际之间大致相同。

    高尔顿发现了这种关系的一种数学测度,他称之为“相关系数”(coefficient of correlation)。高尔顿给出了明确的公式,以计算这个系数,所用的资料则是在生物测量实验室搜集的。这是一个非常详细而明确的公式,它只计算了向平均值回归的一个方面,但没有告诉我们任何有关这种现象原因的信息。正是在这个意义上,高尔顿最先使用了“相关”这个字眼,这之后它演变进入了大众词汇。与高尔顿特定的相关系数相比,“相关”经常被用来表示更为模糊的东西,尽管“相关”本身有严格的科学含义。科学圈外的人经常说到这个词,似乎它描述了两种事物的数学测量,否则,当你使用高尔顿用于特别目的的“相关”这个词时,就不必那么精确。

    分布与参数

    有了这个计算相关的公式,高尔顿实际上已经非常接近新的革命性观念了,这个观念革命在20世纪几乎修正了所有的科学。但却是他的弟子K·皮尔逊,在非常完整的意义上第一个饿规范地阐明了这个观念。

    为了理解这个革命性的观念,你必须将已有的关于科学的成见抛开。通常我们被教导,科学就是测量,我们进行精心的测量,并用它来寻找描述自然的数学公式。在高中物理课中我们学过,当时间给定时,一个自由落体的运行将遵循一个含有符号“g”的公式,这里的“g”是关于重力加速度的常量。我们学过可以用来确定“g”值的实验。然而,当高中生们进行一系列确定值的实验时,顺着斜板滚动的小球,并测量小球需要多少时间到达不同的位置时,发生了什么呢?这就是很少得出确切的结果。学生进行实验的时间越长,困惑就越多,因为不同的实验得出了不同的“g”值。老师仅凭自己优越的知识来审视学生的实验,并认定学生之所以得不到正确的结果,要么是因为工作草率,要么是因为不够细致,要么是抄错了数据。

    老师没有告诉学生的是:所有实验都是草率的,并且,即便是最精心的科学家,也很少得到确切的数值。不可预见和不可观察的小扰动在每一个实验中都有:室内的空气可能太潮湿,或者落体在滚动前卡住了一个微秒,旁边飞过的蝴蝶可能会有其影响:造成气流的轻微扰动。人们从一个实验中真正得到的是散乱的数据,其中没有一个单个数据是确切的,但所有这些数据可以用来对确切的值进行近似的估计。

    武装了K·皮尔逊的革命性观念,我们就不再将实验结果看作是精心测量得出的数据,它们也不是本来就确切的,用更容易接受的术语来替代:它们是一组散布数据,或一个数据分布中的样本。数据的分布可以写成数学公式,它告诉我们一个观测值的概率将是一个给定值。特定实验中实际得到的数值是不可预测的,我们只能谈论概率值而不是确定值,单个实验的结果是随机的,在这个意义上看它们是不可预测的,然而,分布的统计模型却使我们描述这种随机的数学性质。

    科学家花了一些时间才认识到观测值所固有的随机性质。在18和19世纪,天文学家和物理学家创造出描述他们观察值的数学公式,达到了可能接受的精确程度,因为测量工具不够精确,所以观察值与预测值之间的离差是预料之中的,可以忽略不计。星体和其它天体的运动被假定遵循运动基本公式所确定的精确路径,其不确定性是由于简陋的测量工具造成的,并不是固有的性质。

    随着物理学中更为精确的测量工具的发展,随着将这种测量科学扩展到生物学和社会学的尝试,大自然所固有的随机性越来越明显了。怎么处理它?一种办法是坚持数学公式的精确性,将观测值与预测值之间的离差视为小的、无关紧要的误差。事实上,早在1820年,拉普拉斯的数学论文描述了第一个概率分布,即误差分布,那是一个与这些小的、无关紧要的误差项联系的概率的数学公式。这个误差分布以钟形曲线(bell-shaped curve)或正态分布(the normal distribution)的说发进入了大众的词汇。

    这使K·皮尔逊比正态分布或误差分布更进了一步,审视生物学中积累的数据。K·皮尔逊认为,测量值本身,而不是测量的误差,就是一种正态分布。我们所测量的,实际上是随机散布的一部分,它们的概率通过数学函数——分布函数被描述出来。K·皮尔逊发现了被他称为“偏斜分布”(skew distribution)的一组分布函数,他宣称,这组函数可以描述科学家在数据中可能遇到的任何散布类型,这组函数中的每一个分布由四个数字所确定。

    用来确定分布函数的这些数字与测量中的数字不属于同一类型,这些数字是决不会被观察到的,但可以从观测值散布的方式中推导出来。这些数字后来被称为参数(parameters)——源自希腊语,意思是“几乎测量”(almost measurements)。能够完整地描述K·皮尔逊体系中数字的四个参数分别被成为:

    1、平均数(the mean)——测量值散布状态的中间值;
    2、标准差(the standard deviation)——测量值的散布与平均值偏离有多远;
    3、对称性(symmetry)——测量值在平均值一侧堆积的程度;
    4、峰度(kutosis)——个别的观测值偏离平均值有多远。

    用K·皮尔逊偏斜分布体系去考虑问题,思路会有一种微妙的转移。在K·皮尔逊之前,科学所处理的事情都是真实的。开普勒试图发现行星如何在空间运行的数学规律;威廉·哈维的实验打算确定血液如何在某一特定动物的静脉和动脉中流动;化学则处理元素和由元素组成的化合物。然而开普勒所试图追踪的“行星”实际上是一组数据,用来给地球上的观察者所看到的天空中微弱的光点定位。单匹马身上血液通过静脉流动的实际情形,也许与在另一匹马或者一个人身上所可能看到的不同。没有人能够生产出纯铁的样本,尽管谁都知道铁是一种元素。

    K·皮尔逊提出,这些观测到的现象只是一种随机的映像,是不真实的,所谓的真实是概率分布。科学中真实的东西并不是我们所能观测到或能把握到的,它们只是通过用来描述我们所观测事物随机性的数学函数来反应。科学调查中我们真正想确定的,是分布的四个参数。从某种意义上说,我们永远不能确定这四个参数的真实数值,而只可能从资料中估计它们。

    K·皮尔逊并没有意识到这关键的一点,他认为,如果我们能够搜集到足够的数据去估计参数,就会得到参数的真实数值。而他的年轻的对手费歇尔指出,K·皮尔逊的许多估计方法并不是最优的,在20世纪30年代末期,当K·皮尔逊临近他漫长生命的终点之际,一位杰出的波兰年轻数学家耶日·奈曼(Jerzy Neyman)表明,K·皮尔逊的偏斜分布体系并没有包含所有可能存在的分布,许多重要问题不能用K·皮尔逊的体系解决。

    还是让我们离开1934年那个被离弃的老皮尔逊吧。回到他三四十岁、精力充沛的时期,那时的他对自己所发现的偏斜分布充满了热情。1897年,他接管了高尔顿在伦敦的生物统计实验室,带领一支年轻的娘子军(被称为“计算员”),计算高尔顿所积累的人种测量数据的分布参数。在20世纪之交,高尔顿、K·皮尔逊和R·韦尔登(Rerhael Weldon)共同努力,创办了一个新的科学期刊,这将使K·皮尔逊的观点应用到生物数据上。高尔顿用他的个人财富建立了一个信托基金支持这个新期刊。在第一期,编辑们提出了一个雄心勃勃的计划。

    生物统计计划

    当时,英国科学家有一位杰出的人物,他就是达尔文,同期的科学家们致力于探索达尔文富有洞察力的见解,高尔顿、K·皮尔逊和韦尔登便是其中相当热心的骨干。达尔文的进化理论认为,生命形式随着环境压力而变化,他提出,变化的环境会给更适应新环境的随机变化提供些许的优势,渐渐地,伴随着环境改变和生命形式继续发生随机转变,新物种将会出现并且更适于在新的环境中生存和繁殖。这一思想被简称为“适者生存”(survival of the fittest)。当恣意妄行的政治学家将其用于社会生活,宣称那些在经济竞争中取得胜利的富人比身陷贫困的穷人更为适于生存时,这一理论对社会就有不好的影响——适者生存理论成了猖狂的资本主义的辩护者,在那里,富人被授予了道义上的特权去鄙视穷人。

    在生物科学中,达尔文的思想似乎很有道理。达尔文可以指出相关物种的相似形,作为现代物种从先前物种演化而来的佐证。达尔文表明,物种上些许不同的小型鸟类,即便是生活在孤岛上,也有许多解剖学上的共性。他指出,不同物种胚胎之间的相似形,这包括人类的胚胎,在开始是有尾巴的。

    有一件事是达尔文做不到的,那就是他不能给出人类历史的时间框架中,新物种实际出现的例子。达尔文设定新物种由于适者生存而出现,但没有证据,他不得不做的只是展示现代物种很好地适应了它们所处的环境。达尔文的说法似乎只是表明了已知的事情,而且理论本身有一个很吸引人的逻辑结构,但是如果套用犹太人的一句老话就是“举例并不是证明”(For instance is no proof)。

    K·皮尔逊、高尔顿和韦尔登打算在他们的新期刊中将这事搞清楚。在K·皮尔逊看来,只有概率分布是真实的,达尔文的雀鸟(他在书中用到的一个重要例子)并不是科学调查的对象,而某一种雀鸟的总体随机分布才是这个对象。对某一给定雀鸟种类而言,如果能够测量其全体的 长,这些 长的分布函数将有四个参数,这四个参数将是这一种雀鸟的 长。

    K·皮尔逊说,假如存在着某种环境力量,通过提供优越的生存能力,使得某一物种特定的随机变化,我们也许不能生存得那么久,以看到新物种的出现,但我们能够够看到分布的四个参数的变化。在他们期刊的创刊号上,三位编辑宣布:他们的新期刊将从全世界搜集数据,以确定这些分布的参数。最终期望表明。样本参数的变化与环境变化相关。

    他们将新期刊定名为《生物统计》(Biometrika),高尔顿创建的生物统计基金会给予它慷慨资助。由于资金是这样地充裕,以至于该期刊成为世界上第一本印有全彩照片的期刊,甚至还带有画着复杂图画的玻璃纸折页。期刊以高品质的优质纸印刷,连最复杂的数学公式也展示了出来,尽管那意味着极端复杂和昂贵的排版工艺。

    接下来的25年里,《生物统计》发表了通讯员们从各地发来的数据:有的深入非洲的丛林,测量原住民的胫骨和腓骨;有的从中美洲的雨林抓到奇特的热带鸟类,测量其 长;还有的甚至偷盗古墓,揭开死人头盖骨灌铅,以测量其脑的容量。在1910年,该期刊发表了几幅全彩照片,画面是俾格米男人裸躺在地上,松弛的生殖器旁还摆着量尺。

    在1921年,一个年轻的女通讯员朱莉亚·贝尔(Julia Bell)描述了她在试图对阿尔巴尼亚新宾进行人类形体测量时所遇到的困难。她离开维也纳去阿尔巴尼亚一个边远的基地,本以为可以得到讲德语军官的帮忙,当她抵达时才发现,那里只有一个士官能说三句德语。她无所谓惧地拿出了测量所用的铜标尺,通过形体动作让那些年轻人理解她要干什么,直到他们安要求抬起手臂和脚。

    对每一组这样的数据,K·皮尔逊和他的计算员们都计算出分布的四个参数,论文将展示最佳分布的图示,并评论该分布与其它相关数据的分布有何不同。回顾过去,很难看出所有这些行动怎么样帮助证明了达尔文的理论。浏览《生物统计》的这些作品,我得到这样一种印象:这些工作不久就会成为自身原因而进行的距离,除了给特定数据组估计参数外,没有实际目的。

    在期刊中还夹杂着其它类型的论文。其中一些涉及理论数学,以处理发展概率分布时遇到的问题。比如在1908年,一个不知名的作者,以“学生”(“student”)为笔名发表了论文,提出了后来几乎在所有现代科学工作中都有作用的研究成果——“学生”的“t检验”。接下来的几章我们还会遇到这位匿名的作者,并将讨论他在K·皮尔逊与费歇尔之间作协调时的不幸角色。

    高尔顿死于1911年而韦尔登则于这之前死于阿尔卑斯山的一次滑雪事故。只剩下了K·皮尔逊这唯一的编辑和信托基金的支配者。在接下来的20年中,期刊成了K·皮尔逊个人的了,期刊发表什么完全以K·皮尔逊的判断为准,由他确定重要与否。K·皮尔逊为期刊写了很多社论,他让自己丰富的想象力驰骋在各个领域。比如,在对一个古老的爱尔兰教堂翻修时,墙壁中发现了一副骨骼,K·皮尔逊通过对这个些骨骼的测量和所涉及的数学推理,来确定它们事实上是不是某个中世纪圣徒的遗骨。再比如,一个据称是奥利弗·克伦威尔(Oliver Cromwell)的头骨被发现了,K·皮尔逊以一篇精彩的文章对其进行了研究。该文描述了所知的克伦威尔尸体的下落,并且还将对克伦威尔画像所做的测量结果和该头骨所做的测量结果进行了比较。在另一些论文中,K·皮尔逊检验了古罗马各君主的统治期和贵族阶级的没落,还涉猎了社会学、政治学和植物学。所有这些,都带有复杂的数学解释。

    就在去世之前,K·皮尔逊还发表了一篇题为“论犹太人与非犹太人关系”(On Jewish-Genlile Relationships)的短文。文中他分析了从世界各地收集到的犹太人与非犹太人的人体测量数据,最后得到的结论是:德国国家社会主义(the National Socialists)(正式的名称是纳粹(Nazis))的种族理论纯粹是胡说八道,根本就没有犹太种族(Jewish race)或亚利安种族(Aryan race)那回事。这最后一篇论文与他以前的工作一样,组织清晰,有逻辑性,推理谨慎。

    K·皮尔逊运用数学研究了人类思想的许多领域,而很少有人将这些领域视为科学的正宗地盘。浏览生物统计上他所写的社论,你仿佛看到了一个兴趣十分广泛的人,他具有直切问题核心的惊人能力,并能用数学模型去加以处理。还有,浏览这些社论,你就像遇到一个意志坚定、主见鲜明的人。说实话,如果不需要与他争辩的话,我想我是很乐意与K·皮尔逊共处一天的。

    K·皮尔逊他们是否证明了达尔文适者生存的进化论理论呢?也许是吧。通过将古墓中头骨的容量分布与现代男女的比较,他们设法证明:经历了几千年演化的人类种群保持了相当的稳定。他们表明:对澳洲原住民的人类学测量与欧洲人的测量结果有着同样的分布,据此,他们推翻了某些澳洲人关于原住民不是人类的断言。K·皮尔逊从这些工作中发展了一种被称为“拟合优度检验”(goodness of fit test)的基本统计工具,这是现代科学所不可缺少的。它使科学家能够确定一组给定的观测值是否适合于某一特定的数学分布函数。在第10章我们会看到,K·皮尔逊的儿子E·皮尔逊(Eqon Pearson),是如何用这种拟合度检验去否定他父亲所完成的许多项工作的。

    随着20世纪的来临,《生物统计》中讨论数理统计理论问题的文章越来越多,少量的文章仍停留在处理特定数据的分布。当K·皮尔逊的儿子E·皮尔逊接班成为编辑时,期刊的性质就完全转型为理论数学了。时至今天,《生物统计》仍是这个领域中卓越的刊物。

    但他们到底有没有证明适者生存这个说法呢?20世纪初曾经有一个最接近的研究。韦尔登构想了一项宏大的实验:18世纪英格兰南部瓷器工厂的发展,导致了一些河道被粘土淤塞,普利茅斯(Plymouth)港和达特茅斯(Dartmouth)港也都受到影响,近陆地区比近海地区淤得更严重。韦尔登从这些港口抓了几百只螃蟹,分别放入广口瓶中,其中一半用内港的淤泥水,另一半用外港的较干净的水。一段时间过后仍有螃蟹存活,韦尔登测量它们的壳,以确定两组螃蟹的分布参数。

    正像达尔文所预言的那样,淤泥水中存活的螃蟹在分布参数上有了变化!这是不是证明了进化论呢?不幸的是,韦尔登在写出实验结果前就死了,K·皮尔逊对数据进行了粗略的分析,他描述了这个实验及其结果,但最后的分析却始终没有搞出来。为这项实验提供资助的英国政府要求提供最终报告,但报告了无踪影,韦尔登死了,实验也夭折了。

    就生命周期很短的生物,如细菌和果蝇而言,达尔文的理论最终被证明是真实的。用这些物种,科学家可以在较短的时间段里完成几千代的实验。现代的DNA研究,作为遗传学的基石,已经为物种之间的关系提供了更为有力的证据。如果我们假定突变率在过去千万年或更厂的时间里保持不变,那么DNA的研究可以用来估计灵长类和其它     扑乳动物出现的时间框架,至少它经历了几百万年。大多数科学家现在都把达尔文的进化论作为正确的东西接受下来。没有其它理论于所知数据吻合得如此之好,于是科学界满足了,原来人们认为需要通过确定分布参数转变来表明较短时间里的进化过程,现在这种观念已经被放弃。

    K·皮尔逊的革命所留下来的是这样一个观念:科学的对象并不是可观测事物本身,而是数学分布函数,以描述与所观测事物相联系的概率。今天,医学研究运用精巧的分布数学模型来确定治疗方法对长期存活的可能效果;社会学家和经济学家用数学分布来描述人类社会的行为;物理学家用数学分布来描述次原子粒子。科学里没有哪一个方面从这场革命中逃脱。有的科学家宣称,概率分布的使用只是一时的权宜之计,最终我们会找到一种途径回到19世纪科学的决定论。爱因斯坦有句名言,他不相信上帝在和宇宙玩   子,就是这种观点的例子。其他人则相信,大自然基本上是随机的,真实性只存在于分布函数之中。不管一个人的基本哲学是什么,事实仍然是:K·皮尔逊关于分布函数和参数的思想统治了20世纪的科学,并在21世纪初仍保持着优势。

扫一扫

在手机打开当前页

关闭
相关附件
相关阅读