综合评价中异常值的识别及无量纲化处理方法
李伟伟;易平涛;李玲玉
【摘 要】针对综合评价中的异常值现象,讨论了原始数据中是否存在异常值、若存在异常值该如何识别异常值以及对含有异常值的评价数据如何进行无量纲化处理三个问题.关于异常值的判断与识别,给出了以"中位数"为参考点,通过比较排序后两端数据偏离中位数的距离的处理思路.对含有异常值的评价数据的无量纲化处理问题,基于常用的"极值处理法",通过分别指定异常值和非异常值无量纲化取值区间的方式,提出了一种分段的无量纲化处理方法.最后,通过与已有文献异常值识别及无量纲化处理结果的对比分析,验证了本文方法的有效性,发现本文给出的方法能够实现对异常值的适度筛选,且能够提升无量纲化数据分布均衡性.%In face of the outliers in comprehensive evaluation,this paper analys three questions:are there outli-ers in original data if there are outliers,how to recognize them And how to design dimensionless method for all data included in outliers For the judgment and recognition of outliers,we tahe"median"as a reference.Bad on this,the outliers can be identified by comparing the distance of the former endpoint to the median and that of the later endpoint to the median.T
o the dimensionless question,bad on the frequently-ud linear scale trans-formation(max-min)method, we provide a piecewi dimensionless method by allocating dimensionless value interval to outliers and non-outliers respectively.At last,the validity of this rearch is illustrated by the compar-ison with the results of available literature.And it is found the methods in this paper can not only recognize outliers moderately,but also promote the proportionality of dimensionless results.
【期刊名称】《运筹与管理》
【年(卷),期】2018(027)004
【总页数】6页(P173-178)
【关键词】综合评价;无量纲化处理;异常值;极值处理法;分段无量纲化方法
【作 者】李伟伟;易平涛;李玲玉
【作者单位】东北大学 工商管理学院,辽宁 沈阳110167;东北大学 工商管理学院,辽宁 沈阳110167;南昌大学 经济管理学院,江西 南昌330031
【正文语种】中 文
【中图分类】C934
0 引言
多指标综合评价是经济、管理及统计等多学科领域的一项交叉研究内容,是综合多个指标信息对被评价对象所进行的客观、公正、合理的全面评价[1]。然而,在对多个指标信息进行综合集结时,由于量纲、量级的不同,无法对其直接合成,需要事先对不同的指标值进行无量纲化处理。关于数据的无量纲化处理,最常见的是直线型的处理方式,如标准化处理法、极值处理法、线性比例法、归一化处理法、向量规范法和功效系数法等[2,3]。但在实践中,评价结果与原指标之间并非总是线性关系,还存在着许多关系,如曲线关系,甚至是其他更加复杂的关系[4],因而非线性的无量纲化方法应用而生,如折线型的无量纲化方法[5,6]、曲线型无量纲化方法[7,8]、复合函数型的无量纲化方法[9,10]及非线性无量纲模糊处理法[11]等。
面向众多无量纲化方法,部分学者从方法选取的角度展开研究。如文献[2]给出了线性无量
纲化方法的6条理想性质,依据理想性质得出标准化处理法、极值处理法和功效系数法对6条性质满足程度最大的结论;朱喜安等[12]以熵值法为例探讨了无量纲化方法选取的标准,并提出了一种极值熵值法;江文奇[13]从权重敏感性及方案保序性的角度对线性无量纲化化方法进行了比较分析;张卫华等[14]从被评价对象排序等级合理性的视角对线性无量纲化方法进行选取,得到均值法为最优方法的结论;文献[15]采用随机模拟仿真的方法分析了6种线性无量纲化方法的结构稳定性,并得出线性比例法、归一化处理法的稳定性最好,极值处理法、功效系数法的稳定性最差的结论。
除此之外,异常值是无量纲化处理过程中需要考虑的一类特殊数据,需对其进行单独处理。关于异常值的处理,文献[2]给出了一种令异常值等于非异常值最大(或最小)值的处理方法,并提出了一种确定异常值的方法,即通过逐步调整异常值从而达到理想状态;何乃强等[16]假设评价信息近似服从正态分布,并将超出置信度为98%的置信区间的指标值定义为异常值,然后将异常值替换为置信区间内评价值的上限(或下限);除此之外,文献[10]指出某些非线性无量纲化方法对异常值也有一定的减弱作用。
本文在已有研究基础上,主要针对综合评价中的异常值及其处理问题展开讨论。通过文献
回顾可以发现,已有研究通常采用“以非异常值的最大限度值直接替换异常值”的方式进行异常信息的处理,这种处理方式在一定程度上能够消除异常值对无量纲化结果的影响,但这种关于异常值的处理方式,使得所有异常值的无量纲化结果都相同,从而会在一定程度上导致信息丢失的问题。针对上述问题,本文从原始数据结构特征分析的角度构建了一种异常值的判别与选择方法,并在此基础上研究包含异常值的评价数据的无量纲化处理方法。
1 问题描述
对某评价问题,设n个被评价对象o1,o2,…,on关于m个指标x1,x2,…,xm的评价信息矩阵为X=[xij]n×m,记无量纲化处理后的评价信息矩阵为X*假设有8个被评价对象关于2个指标x1,x2的指标值向量分别为(3.82, 4.98,4.89,2.62,4.75,4.09,3.32,9.52)T和(4.55,3.72,2.71,4.82,2.68,4.94,3.44,3.70)T。选用“极值处理法”对两组指标值进行无量纲化处理,无量纲化结果如图1所示。
图1 指标值的无量纲化结果对比图
由图1可以看出,由于被评价对象关于指标x1的取值中存在异常值9.52(远偏离于其余指标值),导致除9.52之外的剩余指标值的无量纲化结果区分度不高,主要集中于[0,0.4]区间内(见图1(a));而被评价对象关于指标x2的取值中不存在异常值,因而其无量纲化处理后的指标值在[0,1]区间内的分布比较均匀(见图1(b))。
为消除异常值对无量纲化结果区分度不高的影响,本文针对原始评价信息中存在异常值的评价问题展开分析,主要涉及三个方面的研究问题:(1)如何判断原始评价信息中是否存在异常值;(2)若原始数据中存在异常值,如何识别及挑选所有的异常值;(3)对存在异常值的原始评价信息,如何进行无量纲化处理。
2 异常值的判断及识别
2.1 异常值的判断方法
异常值是指偏离于大部分评价数据的那部分数据,有时也被称为“野值”、“极端值”。相比于没有异常值的情形,当评价数据中包含异常值时,异常值会导致评价数据在其取值范围内呈现明显的不均匀分布。如上述举例中,8个被评价对象关于指标x1的取值区间为[2.62,9.5
2],因有异常值9.52的存在,导致剩余7个指标值的区间被压缩于[2.62,4.98]范围。
基于此,可通过分析评价数据在其取值区间内分布的均匀性判断原始数据中是否包含异常值。对评价数据均匀性分析,下面给出以一种以“中位数”为参考点的衡量方法。需要说明的是,这里选用“中位数”而非“众数”作为异常值识别的参考点,主要有两种考虑:一是选用“中位数”作为参考点,能够保证分布于“中位数”两边的数据数量的一致性,从而可保证除去异常值后剩余数据在其取值区间内分布的均衡性;二是由于众数的求解结果不稳定,即并不是任何一组数据均能求解到众数,因而为提升本文给出的异常值识别及处理方法的应用范围,这里选用了中位数作为参考点。具体而言,选用中位数作为参考点识别异常值的基本思路是:分析“中位数”两边数据的取值变化幅度,若“中位数”两边数据的取值变化幅度差异不大,则说明原始数据在其取值范围内的分布较均匀,不存在异常值;相反地,若“中位数”两边数据的取值变化幅度差异较大,即“中位数”两边的数据呈不均匀分布,此时可认为原始数据中存在异常值。
依据上述思路,下面给出异常值的具体判断方法。显然地,当对被评价对象指标值进行排序后,异常值分布于排序后评价数据的两端。不失一般性,对n个被评价对象o1,o2,…,on
关于指标xj(j=1,2,…,n)的取值按从小到大的顺序进行排序,为简便起见,将排序后的指标值仍记为{x1j,x2j,…,xnj}。记,x2j,…,xnj)为指标值的中位数,分别计算中位数两边数据的取值变化幅度,即