数据分析缺失值补全的方法
离线环境配置如果缺失值的样本占总数比例极高。一般直接舍弃。作为特征加入会引入噪声
如果样本缺失适中,而该属性非连续值特征属性,可以把NAN作为一个新类别,加到类别特征。
如果样本缺失适中,而该属性为连续值特征属性,可以考虑指定一个step把它离散化,然后把NAN作为一个type加到属性类目中
如果缺失值不是特别多,可以根据已有的值进行数据拟合进行填充,具体有(固定值填充、均值填充、上下数据值填充、插值法填充、算法拟合填充)
train中缺失而test中无缺失值,可以对缺失值取条件均值和条件中值,条件均值即根据label值类别取所有该label下该属性的均值
train和test中都有大量缺失,考虑将值是否缺失作为一种特征(0/1)
补充
对于缺失值适中的三类处理方法:
用平均值、中值、分位数、众数、随机值等替代。
补全同时人为增加了噪声。用其他变量做预测模型来算出缺失变量。
有一个根本缺陷,如果其他变量和缺失变量无关,则预测的结果无意义。如果预测结果相当准确,则又说明这个变量是没必要加入建模的。一般情况下,介于两者之间。
3.最精确的做法,连续型变量也可以这样处理。
这样做的好处是完整保留了原始数据的全部信息、不用考虑缺失值、不用考虑线性不可分之类的问题。
缺点是计算量大大提升。而且只有在样本量非常大的时候效果才好,否则会因为过于稀疏,效果很差。