spss中进行均值比较:[2]样本估计总体
样本估计总体主要是基于正态分布,也就是Z分布的特性。虽然在小样本(样本量小于30)的时候需要对估计的结果进行校正,但是我们一般碰到的情况是样本量大于30,因此,在这里我们首先讲正态分布下的样本均值估计总体均值。对于非正态分布的小样本数据,我会在卡方检验板块为大家讲解。
操作方法
- 01
点估计:样本均值等于总体均值。 样本估计总体的意思就是通过样本的参数(均值,标准差)来估计总体,我们在前面一篇中讲到样本分布和总体分布的关系,说到样本均值分布和总体分布的平均数是相等的,因此当我们很自信我们所抽取的一个样本能够代替所有的样本,那么样本估计总体的第一种方法就自然出现了,也就是总体均值等于样本均值。当然这种情况是很难的,因为我们很难保证抽的一个样本就能代替所有的样本,但是当我们的样本量很大的时候我们一般可以认为样本的均值就是总体的均值,比如我们抽取1000名北京市10岁儿童的身高结果为1.30,那么我们大概可以得出结论,北京市的10岁儿童平均身高为1.30.
- 02
区间估计 但是点估计在一般情况下是不适用的。在上面的例子中,假如我们只抽取了100个学生,得到的平均身高是1.30,那么是否可以说北京市的10岁儿童身高就是1.30呢,答案肯定是错误的。还有另一种方法就是区间估计。首先我们来了解几个概念。
- 03
第一,在如下图所示为样本均值分布,最中间的刻度我们把它看成是多个样本均值的均值,也就是抽样分布的均值,往左往右的第一个刻度为均值上下一个标准差,往左往右第二个刻度为均值上下1.96个标准差,往左往右第三个刻度为3个标准差,那么他们左右之间的面积分别为68%,95%和99.7%,这个面积代表的是概率,也就是说身高在1.30周围一个标准差的人数占到总人数的68%。
- 04
第二,我们说过当样本足够多的时候,样本均值是等于总体均值的,现在只抽取了一个样本。我们只能通过单个样本分布来估计多个样本的均值分布,因为多个样本的均值分布中的均值就等于总体的均值。看上面的图,结合我们上面的例子,均值为1.30.但是标准差不知道。
- 05
第三,我们还记得样本均值分布的标准差为总体标准差/√样本量,在总体标准差已知的情况下(假设总体标准差已知为0.1),那么我们很容易算出样本均值分布的标准差为0.01(0.1/√10)。现在我们知道样本均值分布的平均数为1.30,标准差为0.01.
- 06
第四,那么对应上面的图,从左到右,分别为(1.27)1.30-0.03;(1.2804)1.30-0.0196;(1.29)1.30-0.01;1.30;(1.31)1.30+0.01;(1.3196)1.30+0.0196;(1.33)1.30+0.03。下结论很重要,我们现在说,我们有68%的概率相信北京市10岁儿童的身高在1.29-1.31之间,有95%的概率认为在1.2804-1.3196之间,有99.7%的概率相信在1.27-1.33之间,区间越大,我们得出结论的把握越大。