志愿服务

当前位置:主页 > 慈善公益 > 志愿服务 >

科学网作为世界观的统计学

2018-01-14 16:07    浏览:

去年啃了《The Seven Pillars of Statistical Wisdom》,我一直很喜欢这种能够告诉你来龙去脉的书。很多事很多人在做也知道怎么做能做好,这是工程师思维。但只有知道为什么去做才能更深层次的改造现有的方法或手段,这就是科学家思维了。现在的大学教育特别是理工科教育都过于强调职业精神,各专业之间都有很深的隔阂来凸显自己的价值,但追根溯源,所有知识都有个起源,或者是实际需求,或者仅仅就是好奇心,理解了来源很多东西再去想就会十分清晰,而不是淹没在一堆术语中。这本书就着力于讲清楚统计学的几个出发点,作者是芝加哥大学统计系的 Stephen M. Stigler 教授。虽然我统计知识都是半路出家上公开课的“夜校”学的,但读起来也并不吃力,推荐科研人员特别是做数据分析的科研人员都读一下。如果你懒得读,我就二手解读下,不保真。

支柱一:聚合

统计学毫无疑问是一门独立的学科,经常很多人搞混统计跟数学,其实数学在各个学科里都更多是以工具角色出现,统计学也并不例外。最原始的统计需求就是对客观世界的抽象,跟农业最相关的天文观察要求所有测量要准确,但问题每次测出来都会有差异,那么就需要一个方法来描述相似但不一样的测量值,这就是统计聚合思想的来源。科幻小说中有照相机记忆的人是无法分析事物的,他们只能记住所有细节,而这个负担是非常重的,此时抽象的意义就很大了。现在比较火的大数据就好比这个人,细节丰富但需要抽象,不然就是一堆数字的堆砌。这里最常见的统计学术语就是众数、中位数还有均值,都是聚合抽象描述的体现。

其实这个思想提出时也是被批判的,因为显然聚合出来的东西例如平均人不是客观存在的,也就没法指导具体事物的描述。但本来聚合描述的就不是具体事物,它用总结替代完整描述,通过选择性舍弃信息来获得更多信息,这个可以说是统计学的一个根基。

支柱二:信息测量

在这个根基之上我们提到了信息,那么另一个根基就是对信息的测量。当我们形成一个统计量,其实是丢掉了一些信息的,但更有意思的是对同一个事物的描述,即便测量的准确性上没有差别,后来的观察贡献的信息并不如早期多,信息量与观测数的开方正比而不是观测数(我严重怀疑这个根基借鉴了薛定谔的《生命是什么》)。举例来说,早期造币按批次称重,误差r,10个一起称的误差就并不是10r,100个一起称也不是100r,你称10个得到的误差与称100个得到的误差精度最多高一倍,也就是后面90个硬币提供的信息大概等同于前10个提供的信息,这个现象也是统计学里很常见的,基于此我们可以去搞采样及基于分布的理论而不至于担心丢失太多信息。

支柱三:似然度

另一个基础思想则是似然度,前面两个都是面向测量的,有了测量就可以进行比较,最通常的比较就是跟随机事件比,有了随机事件就可以谈概率了。此时特定分布下概率就是似然度,看看某件事在大背景下出现的可能。p值理论的根基就是似然度概率且最初的p值概念里就是仅仅去看空假设下的发生概率。1920年Fisher提出,如果A代表科学目标,X代表数据,那么定义似然度函数L(A|X)为出现X的A的概率密度函数,X已知,找这个函数最大时的A,一阶导数为0找到参数,二阶导数描述准确性,但这里面最大的问题在于对于方差估计是有偏的,特别是数量少时,而维度高了这个问题就很严重了。

抛开这个,基于概率的推理本身就是统计学很特殊的世界观,简单说就是只要概率不为零,一切皆可能。休谟认为奇迹是违反自然法则不能发生的,但 Price 用贝叶斯理论推导认为即使发生概率很小,多次实验后也会发生奇迹,在这里经验法则跟统计规律就出现了对立。传统世界观是决定论的、逻辑的,但统计世界观是概率的,不可知的或可更新的,值得注意的是,这种不可调和的差异也存在与量子力学与经典力学的世界观之间。很难说那种是世界本来面目,只能说这是两种认知角度,可以矛盾地存在于同一个人身上。

支柱四:内部比较

有了面向背景目标的似然度,统计学可以解决外部比对问题,也就是跟预设分布去比较。然而,现实问题更多是数据内部的异质性所要求的内部比较,很多耳熟能详的统计方法例如t检验,方差分析,Bootstrap等都是用来解决内部比较问题的。1908年, Gosset 用 Cushny-Peebles 数据展示单样本t检验,他考虑了样本方差在样本数较少且总体方差未知时如何估计,引入了自由度与样本方差,得到一个近似正态分布的t分布,这篇论文印错了数、分类也错了、引用年份也错了,但最后结果还可以有历史意义的。但这篇论文出版后很长时间无人问津,Fisher在1912年毕业后写信给 Gosset 后来转给 Pearson 但都没看懂,后来 Fisher 提出双样本t检验并结合相关系数与方差分析写在了1925年教科书 《Statistical Methods for Research Workers》 中,到这里这个相对通用的内部比较方法才开始真正流行。再往后Tukey 提出了jackknife,Efron 提出了Bootstrap,都是从样本内部进行比较来估计差异变化。值得注意的是数据量越大,内部比较出现的随机相关就越多,特别是时间序列,这是很容易遇到的研究错误。

支柱五:回归





    友情链接/网站合作咨询:

    ©2016 - 2018 版权所有 All Rights Reserved