如何使用SPSS处理缺失数据Missing Data?
我们在使用SPSS工具做数据分析时,有时会遇得到样本量有缺失数据,那么具体该如何处理这些缺失数据 Missing Data 呢?
操作方法
- 01
我们使用SPSS做数据分析的时候,有时会因为问卷的设置或者数据的保存等原因,造成用于分析的数据部分缺失。我们分析数据前,需要先解决缺失数据问题,在再做分析。
- 02
在如图所示的案例中,我们需要对这几个变量做相关性分析。我们首先从Excel里面导入测试数据,依次点击“文件-打开-数据”,选择我们需要的测试数据所在的Excel表格。
- 03
在图示弹出的“打开Excel数据源”对话框中,我们在工作表下拉框中选择“sheet2”(因为测试数据放在sheet2了),然后单击确定即可。
- 04
接着,我们点开左下角的“数据视图”,仔细观看图示各变量的数据,发现中间用单个句点来标识的地方没有数据(这就是缺失数据,已用红色框标注出来)。
缺失值分析
- 01
分析数据前,对于缺失值的处理非常重要,我们可以了解到缺失的原因,以及缺失值处理的正确与否能够影响到后面的分析结果。首先,缺失值处理前,我们需要做一个缺失值分析。
- 02
我们依次点击菜单栏“分析-缺失值处理”,然后会弹出【缺失值分析】对话框。这里我们可以分析我们需要的分析缺失值的变量,和一些估计设置。
- 03
在图示的案例中,我们选择对5个变量做缺失值分析,我们把这5个变量从左侧的框拖入到右侧的“定量变量”框内(注意这5个变量没有分类变量)。然后,在估计勾选“EM”和“回归”。
- 04
设置好后,我们点击确定,即可在输出文档看到分析的结果。结果包括:单变量的统计。估计均值,估计标准差,EM相关性和回归估计的统计量。
均值替换法
- 01
在上一步分析的数据中,由于数据量不是很大,分析的结果比较正常,我们使用均值替换法,即用其他个案中该变量观测值的平均数对缺失的数据进行替换。
- 02
在缺失值分析结果“单变量统计”表中,我们可以得到每个变量的均值,如图所示,已用红框标注。我们用每个变量的均值替换他们各自的缺失值。
- 03
我们依次点击菜单栏“转换-替换缺失值”,然后就会弹出【替换缺失值】设置窗口,把左侧框内需要替换缺失值的变量拖入右侧的“新变量”框内,然后输入一个新的名称,方法选择“序列均值”。
- 04
如图所示,我们已经用均值对每个变量的缺失值做了替换。在点击“分析-描述统计-描述”,即可统计表中显示没有缺失值。
多重替代法
- 01
处理缺失数据的另外一种替代方法为多重替代法,即从相似情况中或根据后来在可观测的数据上得到的缺省数据的分布情况给每个缺省数据赋予一个模拟值。
- 02
具体的操作步骤为,依次点击菜单栏“转换-替换缺失值”,然后就会弹出【替换缺失值】设置窗口。
- 03
我们首先把左侧框内需要替换缺失值的变量拖入右侧的“新变量”框内,然后输入一个新的名称,方法选择“点处的线性趋势”或“线性插值法”。
- 04
单击确定,即可返回输出文档结果,在图示的“替换缺失值-变量结果”表中,我们可以看到有3个变量的4个缺失值已经被替换了。
- 05
我们再回到“变量视图”,会发现此处多了3个新的变量(即替换有缺失值生成的3个新变量);在数据视图里面,也会发现新变量相比旧变量已经填充上了新数据。
删除缺失行
- 01
对于缺失值的处理还有另外一种方法,那就是删除缺失行,即即删除SPSS 数据列表中缺失值所在的数据行。(注意:如果数据量较少不可取)
- 02
如果所示,我们需要删除有缺失数据的第7、10、13、20行所有数据。删除的方法有两种:第一种可以手动删除,在数据视图即可操作;第二种,点击”数据“按钮,弹出下拉菜单,进入其中“选择个案”选项,选择”使用筛选器“,添加你要处理的case,然后在输出中,你若选择”删除未选择个案“,结果就是将有缺失值的case删除掉。
- 03
如图所示,我们已经把所有的缺失数据所在的case都删除完了,原有的25个case已经变成了现在的20个。