统计学之正态分布

我们拿到了某市10000个学生的英语考试得分数据,数据如下。

现在需要了解英语分数的大概情况。我们可以用得分平均值、中位数、众数、方差、标准差等指标来判断得分大概情况,但最直观的方式还是直方图,或者说频率分布图。

首先我们按10为单位,将得分划分为10个组,统计每个组的得分出现的次数及频率

然后根据次数/频率分布表画出直方图

接下来,上图组距为10的直方图,我们可以缩小组距,看看图的变化。下图为组距为5时的直方图

组距为2的直方图

缩小组距的过程中,可以发现直方图越来越接近曲线。直方图中,将组距缩小至极限后,所看到的曲线,即为概率密度函数对应的曲线。理论上概率密度函数是可以有各种形态的,此案例中的形态即为统计学上最常见的正态分布曲线。

正态分布曲线,要记住以下特征:

1、以平均值为中心呈左右对称。

2、受到平均值和标准差的影响,平均值决定了曲线的中心位置,标准差决定了曲线的形态,标准差越小曲线越尖,反之越扁平。

3、平均值为0,标准差为1的正态分布成为标准正态分布。

所有的正态分布,经过标准化后,就是标准正态分布。而通过标准正态分布表,可以求出所有的取值范围概率。