统计学之中心极限定理通俗解释

什么是中心极限定理

给定一个任意分布的总体,每次从这些总体中随机抽取n个样本,一共抽m次。然后把这m组抽样分别求出平均值,这些平均值的分布接近正态分布。

举个栗子

现在要统计我国所有人的平均体重是多少。把全国所有人的体重都调查一遍肯定是不现实的。我们会这样做:

第一步:随机抽取50个人,求出该样本的体重平均值

第二步:将第一步中样本抽取的工作重复再三,不断随机抽取50个人然后求体重平均值。例如我们这样抽取了1000次。那么就有1000个平均值。

第三步:根据中心极限定理,这1000个平均值的绝大部分都极为接近总体的平均收入。有一些稍高,有一些稍低,只有极少数的平均值大大高于或低于整体的平均值。

第四步:中心极限定理告诉我们,不论全国的体重是怎么分布的,这1000个平均值都会在总体平均值周围呈现一个正态分布。因此,我们只要求出这1000个平均值的平均值,就可以用来估计全国的平均体重。

重要性和注意

当采样的次数足够大时,所抽取的样本的分布就会近似于正态分布。这个统计学基础理论意味着我们能根据个体样本推断所有样本。结合正态分布的其他知识,我们可以轻松计算出给定平均值的概率。在理论上保证了我们可以用只抽样一部分的方法,达到推测研究对象总体统计参数的目的。

其中要注意的几点:

1、总体本身的分布不要求正态分布

上面栗子中,人的体重是正态分布的。但是如果其他的栗子(比如抛硬币)掷,最后每组的平均值也会组成一个正态分布。

2、样本每组要足够大,但也不需要太大

取样本的时候,一般认为,每组大于等于30个,即可让中心极限定理发挥作用。

应用

中心极限定理在现代社会中有大量的应用,但由于其专业性,基本上只被相关从业者所知。比如常用的ab-test,中心极限定理是ab-test的基础理论之一。