缺失数据的统计分析
理学院
Statistical analysis of missing data
本项目主要的内容是对数据的缺失部分进行估计,力求通过对现有的主要方法进行改进得到估计效果更好的一种方法。研究过程主要依托三门学科:概率论,数理统计和数据分析方法。都是很基础却应用性很强的科目。目前主要的插补和加权方法例如均值插补,回归插补,多重插补等都用到了系列数据中所有的数据对缺失值进行估计填充,这样的方法充分利用了每一条数据的价值,但并不是每一条数据对缺失值的估计都有积极的作用,有些数据不仅不会提升插补精度,反而会降低方法的准确性。因此,我们希望能够利用聚类算法或朴素贝叶斯分类的方法将数据依据未缺失部分的属性进行分类,之后在每一类群中对该类中缺失部分的数据再进行多重插补或加权估计,这样的分类可以将相似程度较高的数据分在一个类别中,去掉对缺失部分有消极影响的数据。在这样具有某种相似程度的数据类中再进行插补或加权从而提高估计的精确度,使缺失值的补充更准确。为之后的数据统计和分析工作提供高质量的数据集。