如果缺失值只占数据的5%不到,那么缺失值对数据的影响不大,各种缺失处理方式差异不大,简单点处理就好,比如均值填补,或者索性直接删除有缺失的个案,但均值填补无法利用缺失数据里面可能含有的有效信息,而删除个案有可能导致对数据的结构产生不利影响(比如绩效考核的时候不合格者没有成绩,形成缺失,这样删掉缺失就会让数据缺乏代表性,只有合格者,没有不合格者)。
相较于均值填补,回归填补法要更准确一些(这只限于并非大量缺失的情况,否则回归也会产生有偏的估计如果确实数量较大,建议用EM算法,有不少研究者通过模拟研究表明这种填补法得到的结果最为准确,其操作是spss菜单里选择分析——缺失值分析,会弹出下面这个对话框然后将需要填补缺失的数据选入右边的变量框(要注意变量类型),然后在估计方法那里选EM,然后点击EM按钮,将填补后的数据保存为新数据集就OK
匿名回答于2019-07-23 22:36:45