

一、为什么要做数据的标准化处理?
通常我们分析的数据指标不是单一的,往往是由多个评价指标构成的,而这些评价指标往往具有不同的属性、数量级和单位,这导致我们无法对不同的指标进行比较、加权、求和等种种后续操作。
假设各个指标之间的水平相差很大,此时直接使用原始指标进行分析时,数值较大的指标,在评价模型中的绝对作用就会显得较为突出和重要,而数值较小的指标,其作用则可能就会显得微不足道。
因此,为了消除不同评价指标之间存在的差异,统一比较的标准,就需要对数据进行标准化处理,消除不同指标之间因属性不同而带来的影响,从而使结果更具有可比性。
二、什么是数据的标准化?
通过一定的数学变换方式,将原始数据按照一定的比例进行转换,使之落入到一个小的特定区间内,例如[0,1]或[-1,1]的区间内,消除不同变量之间性质、量纲、数量级等特征属性的差异,将其转化为一个无量纲的相对数值,也就是标准化数值,使各指标的数值都处于同一个数量级别上,从而便于不同单位或数量级的指标能够进行综合分析和比较。
三、常用的数据标准化方法
1、min-max标准化
对原始数据进行线性变换,无论原始数据是正值还是负值,结果都会落到[0,1]区间。并且正负指标均可转化为正向指标,作用方向一致。但是如果有新数据加入,就可能会导致最大值和最小值发生变化,就需要进行重新定义,并重新计算。
2、z-score 标准化
适用于当某个指标的最大值和最小值未知时,或者有超出取值范围的离群数值时。
处理后的数据符合均值为0,标准差为1的标准正态分布,围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。
3、归一化
对正数进行变换,使结果落到[0,1]区间,其将数值的绝对值变成相对值关系
4、中心化
让数据变成平均值为0的一组数据
四、工具实现
以上提到的几种数据标准化处理的方法,在spsspro中的【数据处理】->【数据标准化】都有提供,如图所示:
相关推荐