本文共 393 字,大约阅读时间需要 1 分钟。
缺失值的处理方法:
1,忽略元组
2,人工填写缺失值
3,使用全局变量填充空缺值
4,使用与给定元组属同一类所有样本的平均值
5,使用最可能的值填充缺失值,像使用贝叶斯公式或者是决策树
数据规范化的方法:
1,最小-最大规范化
这种方法没啥好说的,一个公式解决 V‘ = (v-minA)*(new_maxA-new_minA)/(maxA-minA);
2,z-score规范化
这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:
其中为所有样本数据的均值,为所有样本数据的标准差。
3,小数定标规范化
很简单的一个例子: -986变成 -0.986,让 A变成绝对值小于1的最大的跟A同构的数
多举几个: 72-------------》0.72 这下懂了吧?
转载地址:http://xyyjn.baihongyu.com/