第49卷第4期2021年4月
同济大学学报(自然科学版)
JOURNAL OF TONGJI UNIVERSITY(NATURAL SCIENCE)
Vol.49No.4
Apr.2021
论
文
拓
展
介
绍
基于多准则决策方法的数据资产质量评价模型
尤建新,徐涛
(同济大学经济与管理学院,上海200092)
摘要:结合最优最劣法(best worst method,BWM)、三角模糊数和逼近理想解排序(TOPSIS)方法,提出了一种用于评估数据资产质量的多准则决策框架。首先通过专家访谈构建评价指标体系。其次,采用BWM方法确定评价指标的权重信息。随后,邀请专家根据指标对数据资产质量进行语言评价,并引入三角模糊数克服单个实数表达不完整问题。最后,根据评价指标权重及专家评价信息,采用TOPSIS方法对数据资产质量进行排序。通过将提出的方法应用于商业银行的数据资产质量评估,验证方法的可行性。
关键词:数据资产;质量评价;多准则决策;最优最劣法;逼近理想解排序法
中图分类号:C93文献标志码:A A Data Ast Quality Evaluation Model Bad on a Multi-criteria Decision-making Method
YOU Jianxin,XU Tao
(School of Economics and Management,Tongji University,Shanghai200092,China)
Abstract:This paper propos a multi criteria decision making(MCDM)framework for evaluating the quality of data asts by combining the best worst method(BWM),technique for order preference by similarity to an ideal solution(TOPSIS)and triangular fuzzy number.In this framework,firstly,the evaluation indexes are constructed through expert interviews.Then,the BWM method is ud to determine the weight of the evaluation indexes.After that,experts are invited to linguistically evaluate the quality of the data t bad on the constructed indexes,and triangular fuzzy numbers are introduced to overcome the problem of incomplete expression of individual real numbers.Finally,the TOPSIS method is utilized to rank the quality of the data asts.The feasibility of the methodology is verified by applying the propod approach to data ast quality asssment of commercial banks.
Key words:data asts;quality evaluation;best worst method;multi-criteria decision-making;technique for order preference by similarity to an ideal solution
随着大数据、云计算、人工智能、区块链等技术的快速发展,以数字化、网络化、集成化、数据化、智能化为特征的数字化转型浪潮席卷全球[1]。数据已经成为新生产要素和战略资产,为技术创新和产业升级提效增能[2]。如何发挥数据资产价值成为政府、企业和诸多学者关注的问题。其中,数据资产质量是数据价值实现的关键,如果数据资产质量存在瑕疵还被分析、挖掘,不仅不会产生价
值,甚至会出现偏差,影响企业正确决策,误导企业投资和产品研发方向[3]。因此,评价和提升数据资产质量对发挥数据资产价值具有重要意义。
目前针对数据资产质量问题的研究仍然较少,现有研究主要关注数据资产的概念和数据资产的运营。中国信通院发布的《数据资产管理实践白皮书》将数据资产定义为由企业拥有或者控制,能够为企业带来未来经济效益,以物理或电子方式记录的数据资源,如文件、电子数据[4]。在大数据时代,王汉生认为数据要形成产业必须有规模化的数据支撑,为了支撑规模化商业应用,数据必须是电子化的[5]。从产业界来看,企业对于数据资产的运营场景主要包括内部使用和外部使用[6]。关于数据资产质量研究中,孙俐丽等采用扎根理论对影响企业的数据资产质量的因素进行研究,指出数据资产质量管理的动机、标准和规范、过程管理、支撑与保障等因素对数据资产质量具有重要影响[7]。相关研究中,数据质量问题也被诸多学者关注。从信息技术角度看,数据质量可以从精确性、完整性、一致
文章编号:0253⁃374X(2021)04-0585-06DOI
DOI:10.11908/j.issn.0253-374x.21092
收稿日期:2020-12-01
基金项目:国家自然科学基金(71671125)
第一作者:尤建新(1961—),男,教授,博士生导师,管理学博士,主要研究方向为管理理论与工业工程。
来一斤母爱E-mail:yjx2256@
通信作者:徐涛(1993—),男,博士生,主要研究方向为管理理论与工业工程。E-mail:xutao0709@yeah.
net
同济大学学报(自然科学版)第49卷
性、及时性等维度来衡量[8-9];从用户角度来看,数据质量的高低取决于用户是否可以高效地使用数据[10-12]。
关于质量评价方法研究已经比较成熟,其中多准则决策(MCDM)方法在质量评价领域已被广泛采用。MCDM是现代决策理论的重要内容之一,该方法在比较不同方案时,根据决策问题设定相应的准则和模型进行评价[13]。常用的MCDM方法有逼近理想解排序法(TOPSIS)[14]、层次分析法(AHP)[15]、决策试验与评价实验室技术(DEMATEL)[16]、最优最劣法(BWM)[17]等。本文将数据资产质量评价看作多准则决策问题,结合BWM、TOPSIS和三角模糊数等方法,提出一种用于评估数据资产的质量的MCDM框架。该框架中,首先通过专家访谈构建评价指标体系,并采用BWM方法通过使用1–9量表在不同指标之间进行成对比较获得权重信息。随后,邀请专家根据指标对数据资产进行语言评价,并引入三角模糊数克服单个实数表达不完整的问题;最后,根据评价指标的权重以及专家的评价信息,采用TOPSIS方法对数据资产质量进行排序。通过将提出的方法应用于某银行对其支行的数据资产质量评估,验证方法的可行性。
1模型构建
结合BWM、TOPSIS和三角模糊数等方法,提出一种用于评估数据资产质量的MCDM框架。该框架主要包括指标体系构建、指标权重确定、专家评价以及质量排序等步骤。在确定指标权重时,采用BWM方法,该方法是对AHP方法的改进,所需的评价数据较少,可以减少专家的评价偏颇,评价数据更为准确[17]。专家对数据资产进行质量评价时,为了克服单个实数表达不完整的问题,引入三角模糊数方法,同时解决定性指标定量化问题。在质量排序时,引入TOPSIS方法评估每个方案到正理想解(PIS)和负理想解(NIS)的相对位置距离来对方案进行排序[14]。具体如下:
步骤1:根据不同评价对象和场景构建评价指标体系。
构建评价指标是对数据资产质量进行评价的关键步骤。但不同于传统实体资产,数据资产具有规模大、流转快、类型多等特点,不同场景、不同主体对的数据资产的质量要求各不相同,数据资产的质量评价指标具有相对性和动态性。因此,数据资产质量评价指标的确定应在特定场景下,结合文献研究、专家访谈方法进行分析构建。假设存在n个评价指标C={C1,C2,...,C n},l个对指标评价的专家,用P k(k=1,2,…,l)表示。
步骤2:评价指标比较。
专家P k针对某一具体问题判断在n个指标中的最重要指标C k M和最不重要指标C k L;随后,使用1–9量表确定C k M对于所有指标的重要程度,重要度越高,则数值越大。同理,确定其他指标对C k L的
重要程度。通过比较可获得:
V k M=(v k M1,v k M2,…,v k Mn)(1)
V k L=(v k1L,v k2L,…,v k nL)(2)式中:v k Mj表示P k评价最重要指标C k M对其他指标C k j(j=1,2,...,n)的重要程度,且有v k MM=1;v k jL表示P k评价其他指标C k j(j=1,2,...,n)对最不重要指标C k L的重要程度,且有v k LL=1。
步骤3:计算指标的最优权重。
假设基于BWM方法,P k评价得到的权重为αk j(j=1,2,...,n,k=1,2,...,l)。为了得到指标最优权重,|αk Mαk j-v k Mj
|和|αk jαk L-v k jL|j=1,2,...,n值应该
最小化。因而,可以通过构建模型(3)求得每个指标的最优权重,即
minξ
<αk Mαk j-v k Mj
|≤ξ,j=1,2,...,n(3)
|
|
||
|
|
||
αk j
αk L
-v k jL≤ξ,j=1,2,...,n
∑j=1nαk j=1,j=1,2,...,n
αk j≥0,j=1,2,...,n
当存在多个专家时,依据专家权重信息,聚合每个专家得到的最优指标权重如下:
αj=∑k=1lλkαk j(4)式中:αk j是P k给出的第j个指标的权重;λk是专家P k 的权重。
步骤4:构造专家评价矩阵。
构造三角模糊数X=(x L,x M,x U),其中x L≤x M≤x U,x L,x M,x U分别是X的下界元素、主元素和上界元素。当x L=x M=x U时,三角模糊数X则退化为普通的实数[18]。假设需要评价的资产集有m个,记为A={A1,A2,...,A m}。BWM方法确定的指标权重为
586
第4期尤建新,等:基于多准则决策方法的数据资产质量评价模型
α={α1,α2,...,αn }。
x ij =(x L ij ,x M ij ,x U ij ),
相见恨晚
i =1,2,…,m ;j =1,2,…,n 表示第i 个数据资产集的第j 个指标的评价值。P k 对m 个数据资产
的n 个指标评
价的矩阵如下:X k =(x k ij )mn =(x kL ij ,x kM ij ,x kU ij )mn
=éëêêêù
ûú
多肉的养殖方法和注意事项ú
ú(x kL 11,x kM 11,x kU 11)⋯(x kL 1n ,x kM 1n ,x kU 1n )⋮⋱⋮(x kL m 1,
x kM m 1,x kU m 1)⋯(x kL mn ,x kM mn ,x kU mn )(5)
当存在多个专家时,根据专家P k 权重λk 将l 个专
家的评价X k =(x k ij )mn
,
k =1,2,…,l 进行聚合,得到综合评价矩阵如下:
X =(x ij )mn
=∑k =1l
λk x k ij =(x L ij ,x M ij ,x U ij )mn
=éëêêêùûú
úú(x L 11
春节三倍工资是哪几天,
x M 11
,x U 11
)⋯(x L 1n
,x M 1n
,x U 1n
)
⋮⋱⋮(x L m 1,
x M m 1,x U m 1)⋯(x L mn ,y M
mn ,x U mn )(6)
步骤5:构建加权评价矩阵。
根据BWM 方法确定的指标权重为α=
{α1
,
α2
,...,αn
},指标加权后的评价矩阵如下:R k
=(r k
ij
)mn
=(r L ij
,r M ij
,r U ij
)mn
=
éëêêêùûú
úú(α1x L 11,α1x M 11,α1x U 11)⋯(αn x L 1n ,αn x M 1n ,αn x U 1n )⋮⋱⋮(α1x L
m 1,
α1x M m 1,α1x U m 1)⋯(αn x L mn ,αn x M mn ,αn x U mn )(7)
步骤6:根据式(8)式(9),确定PIS 和NIS 。
Z +=(Z 1,Z 2,…,Z n )(8)Z -=(z 1,z 2,…,z n )
(9)
其中,Z j =max {r 1j ,r 2j ,…,r mj },j =1,2,…,n 是指
标j 的加权指标值对应的模糊极大集。z j =min {r 1j ,r 2j ,…,r mj },j =1,2,…,n 是指标j 的加权指
标值对应的模糊极小集。
步骤7:根据式(10)、(11)计算A i 与PIS 、NIS 的欧式距离D +
i
、D -i
,再根据式(12)计算贴近度D i ,获得最终的质量排序,D i 值越大,其对应的数据资产质
量越高,即
D +i =d (r
ij ,Z +)=∑j =1n (d +ij )
22(10)
其中,d +
ij =
()r
U
ij
-Z U
j 2
+()r
M ij
-Z M j 2
+()r L ij -Z L j 2
3
D -i =d (r
ij ,z -)=∑
j =1n (d -ij )
22
(11)
其中,d -ij =
()r
U
ij
-z U j 2
+()r M ij -z M j 2
+()
r L ij -z L
j 2
3
D i =D -i
D +i +D -i
,0≤D i ≤1,i =1,2,…,m (12)
2
案例分析
将提出的数据资产质量评估框架应用于某银行对
其支行的数据资产质量评估,并对评价结果进行讨论。
2.1
案例描述
近年来,商业银行在业务快速发展过程中,积累了客户数据、交易数据、外部数据等海量数据。数据已经成为银行的重要资产和核心竞争力。为了解数据资产质量现状,某地区商业银行分行邀请5位专家(2位研究人员和3位银行中高层管理人员)采用本文提出的评价模型,对该分行5家支行数据资产质量进行评估。
2.2模型应用
(1)构建商业银行数据资产质量评价指标。结合文献研究、专家访谈方法,构建商业银行数据资产
质量评价指标框架。指标框架构建过程中,首先对现有文献进行分析。从目前研究来看,研究者主要关注数据的相关性、一致性、准确性、完整性等指标[8-9]。随后,通过对5位专家进行访谈并对观点归纳总结,形成数
据资产质量的评价指标体系,具体指标和解释如表1
所示。
(2)指标重要程度评价。专家基于专业知识和经验,确定在商业银行数据资产质量评价中的C M 和C L ;随后,用1–9实数来评价C M 对其他指标的重要
程度和其他指标对C L 的重要程度,结果见表2。
(3)根据BWM 模型,利用Lingo 软件求解出指标最优权重。邀请的5位专家权重相同,最终得到的每位专家的权重以及综合权重,结果见表3。
(4)构建指标评价语言变量与三角模糊数的对照表[19],如表4所示。专家根据对企业调研与了解情况对5家单位的数据资产质量状况进行评价。5
表1
数据资产质量评价指标
Tab.1Indexes for evaluating the quality of data asts
指标C 1
C 2C 3C 4C 5C 6C 7
准确性时效性一致性完整性收益性安全性风险性指标解释数据与真实数据的接近程度及时、有效地获取数据的水平
不同层次结构/数据库中同一实体的数据的一致水平数据集中数据属性被赋值、记录的完整水平数据获得经济效益的水平保障数据不会流失、泄密的水平运营数据触发道德、法律风险的可能性水平
587
同济大学学报(自然科学版)第49卷
位专家根据构建的指标情况对5家支行的数据资产质量状况进行评价,其中风险性对应表4中的成本型指标,其他指标为效益型指标。通过将5位专家的评价聚合,可得到综合的评价表,如表5所示。
(5)根据指标权重,获得加权后的评价矩阵
éëê
ê
êêê
êê
ù
û
ú
ú
ú
ú
ú
ú
ú
(0.62,
0.76,0.87)(0.34,0.50,0.62)(0.33,0.42,0.51)(1.84,2.44,2.86)(0.11,0.53,1.12)(0.57,0.80,0.98)(0.41,0.54,0.64)(0.65,
0.76,0.87)(0.38,0.53,0.68)(0.28,0.39,0.51)(2.32,2.68,2.98)(0.35,0.89,1.48)(0.57,0.80,0.98)(0.38,0.52,0.62)(0.62,
0.76,0.87)(0.31,0.47,0.62)(0.39,0.46,0.53)(1.84,2.44,2.86)(0.41,1.00,1.60)(0.62,0.85,1.01)(0.46,0.60,0.67)(0.58,
0.72,0.85)(0.34,0.50,0.63)(0.33,0.44,0.53)(1.84,2.32,2.80)(0.35,0.89,1.48)(0.62,0.85,1.01)(0.36,0.49,0.61)(0.65,0.76,0.87)(0.44,0.59,0.71)(0.37,0.46,0.53)(1.96,2.44,2.86)(0.41,0.89,1.48)(0.43,0.66,0.87)(0.36,0.49,0.61)(6)计算PIS 和NIS ,
Z +为PIS ,Z -为NIS 。Z +=[(0.65,0.76,0.87)(0.44,0.59,0.71)(0.39,0.46,0.53)(2.32,2.68,2.98)(0.41,1.00,1.60)(0.62,0.85,1.01)(0.46,0.60,0.67)]Z -=[(0.58,0.72,0.85)(0.31,0.47,0.62)(0.28,0.39,0.51)
(1.84,2.32,2.80)(0.11,0.53,1.12)(0.43,0.66,0.87)(0.36,0.49,0.61)]
(7)计算贴近度,并进行排序,结果如表6所示。2.3
结果讨论(1)指标体系讨论聋子的耳朵歇后语
指标构建与权重确定是数据资产质量评价的关键步骤。本文在指标构建过程中,通过对观点的归纳总结,认为数据资产质量不仅包括数据质量特征,还应该体现数据作为资产的重要特性,如收益性和风险性。数据作为资产产生收益和价值已被广泛认可,如银行通过对客户数据分析,了解客户风险偏好、消费能力、信用状况等信息,帮助银行了解客户业务需求,从而帮助银行提供更精准的服务和控制风险。因此,收益性
是数据资产质量的重要特性之一。数据资产的安全和风险也是质量评价的重要维度,比如银行在收集、存储过程中可能会丢失或者泄露客户的信息;运营过程中滥用行为可能触发法律风险,数据资产一旦触发上述
表2
C M 和C L 与其他指标的重要程度比较
Tab.2
Comparison of the importance of C M and C L
with other index
P k P 1P 2P 3P 4P 5P k
P 1P 2P 3P 4P 5C M
C 5C 4C 5C 4C 4C L
C 3C 7C 7C 2C 3
其他指标
C 156656其他指标
C 145645
C 274777C 232414
C 357887C 313221
C 431311C 467577
C 512122C 557678
C 635465C 643434值班注意事项
C 767656C 731123
表3
指标权重结果
Tab.3
Index weighting results
指标C 1C 2C 3C 4C 5C 6C 7
P 10.0990.0710.0490.1650.3690.1650.083
P 20.0790.1180.0680.3670.2370.0950.037
P 30.0920.0790.0690.1840.3980.1380.041
P 40.0950.0440.0590.3910.2370.0790.095
P 50.0820.0700.0390.3820.2460.0990.082
综合0.0890.0760.0570.2980.2970.1150.067
表4
指标评价语言变量与三角模糊数的对照
Tab.4
Index
evaluation
of
linguistic
variables
against triangular fuzzy ts
指标评价语言变量效益型指标非常差差较差一般较好好非常好成本型指标非常大大较大一般较小小非常小
对应三角模糊数[0,0,1]
[0,1,3][1,3,5][3,5,7][5,7,9][7,9,10][9,9,10]
表5
综合评价
Tab.5
Comprehensive evaluation
银行
A 1A 2A 3A 4A 5
C 1
(7.0,8.6,9.8)(7.4,8.6,9.8)(7.0,8.6,9.8)(6.6,8.2,9.6)(7.4,8.6,9.8)
C 2
(4.6,6.6,8.2)(5.0,7.0,9.0)(4.2,6.2,8.2)(4.6,6.6,8.4)(5.8,7.8,9.4)
C 3
(5.8,7.4,9.0)(5.0,7.0,9.0)(7,8.2.0,9.4)(5.8,7.8,9.4)(6.6,8.2,9.4)
C 4
(6.2,8.2,9.6)(7.8,9.0,10.0)(6.2,8.2,9.6)(6.2,7.8,9.4)(6.6,8.2,9.6)
C 5
(0.4,1.8,3.8)(1.2,3.0,5.0)(1.4,3.4,5.4)(1.2,3.0,5.0)(1.4,3.0,5.0)
C 6
(5.0,7.0,8.6)(5.0,7.0,8.6)(5.4,7.4,8.8)(5.4,7.4,8.8)(3.8,5.8,7.6)
C 7
(6.2,8.2,9.6)(5.8,7.8,9.4)(7.0,9.0,10.0)(5.4,7.4,9.2)(5.4,7.4,9.2)
鬼谷子王诩
表6
贴近度及排序
Tab.6
Proximity and ranking
银行
A 1A 2A 3A 4A 5
D +0.540.160.330.390.33
D -0.160.500.480.360.37
D 0.230.760.590.480.53
排序51243
588
第4期尤建新,等:基于多准则决策方法的数据资产质量评价模型
风险,将会对数据的质量和价值产生影响。
从表3中可以看出,数据资产的完整性和收益性权重分别为0.298和0.297,占总权重的近60%。其次是数据资产的安全性和准确性指标,权重分别为0.115和0.089。从数据治理的角度,数据成为资产的首要条件是保证数据的完整性和准确性。对于商业银行而言,拥有完整、准确的数据才能对客户的风险或需求进行分析,从而帮助银行控制风险或提高收入。由于银行数据中,包含大量客户隐私信息,
一旦数据泄露将对客户造成严重损失。因此,完整性、收益性、安全性和准确性是数据资产的重要指标。本文所构建的数据资产质量评价指标体系也可以为相关评价问题提供指标参考。需要注意的是,不同于传统实体资产,大数据背景下的数据资产具有规模大、流转快、类型多等特点,不同场景、不同主体对数据资产的质量要求各不相同,数
据资产的质量评价指标具有相对性和动态性。因此,数据资产质量评价指标的确定应在特定场景下进行。(2)模型有效性讨论
为进一步说明本文提出的质量评价框架的有效性和与优点,首先计算专家评价初始模糊值的期望值,并用图1表示。图1中可以看出,各家银行数据资产质量在各个指标上得分差异较小,直接采用专家评价语言
方法难以有效地区分不同银行的数据资产质量。随后,采用AHP 方法获得评价指标权重,并结合评价值对质
量进行排序,获得如表7所示的评价结果对比情况。
从对比结果来看,本文提出的基于MCDM 的数据资产
质量评价框架与传统的AHP 方法的评价结果整体具
适合写作业时听的歌
有一致性,也说明了本文所提出模型的有效性。但相
较于专家评估和AHP 方法的,本文所提出的框架操作
简单易于实现,且评价结果具有较高的区分度。
(3)数据资产质量讨论
根据表6结果,5家银行数据资产质量排序为A 2>
A 3>A 5>A 4>A 1。为进一步探究数据资产质量差异原因,本文对各指标评价情况进行讨论。从各指标情况来看,目前所有银行在数据资产的准确性和完整性方面表现较好,得分情况明显高于其他指标。该得分较高的主要原因是银行业是我国较早开展数据治理的行业,2018年5月银保监会发布《银行业金融机构数据治
理指引》
,明确指出数据治理应该纳入公司治理的范畴,监管层的要求有效提升了商业银行的数据治理水平。
在数据资产的完整性指标上,银行A2的得分高于其他银行。完整性指标的权重占比最高,使得在整体质量排序中A2要高于其他银行。相对于其他指标,所有被评价银行的资产收益性得分均较低,其中银行A1的得分情况最低。各单位在收益性指标中的得分说明尽管
银行的数据管理水平较高,
但如何进一步利用数据,让数据为银行产生更多的收益仍存在一定挑战。从银行
业实际情况看,对于数据资产的价值发挥仍在业务数
据化阶段,相关数据资产还没有形成产品以产生更多
收益。从安全性指标来看,得分情况相对较低,尤其是
A5在该项的得分低于平均水平,说明该银行需要进一
步规范数据的收集、存储流程,确保数据的安全性。
(4)管理建议
通过对商业银行数据资产质量的评估,得出管理
建议如下:①提升数据完整性、准确性。数据的准确性和完整性是数据资产化的基础,也是影响数据资产质量的关键指标。数据存在错误或缺失,将对企业的运营决策产生不利影响,尤其是金融机构,可能会产生一定风险;②梳理数据资产及其应用场景。当前多数银行对数据资产的应用仅限于为当前业务辅助决策,从案例评价结果来看,数据资产的收益性得分仍然较低,
如何发挥数据本身的价值需要企业进一步根据业务需求进行拓展;③保障数据安全。银行的相关数据
资产往往涉及多方信息,包括客户隐私数据。相关数据泄露、流失也将会触及法律风险。监管机构需要银行进一步规范数据的收集和存储流程,从银行层面也需要完善相关的流程与规定,
保障数据安全。
图1
各银行在各指标上的评价得分期望值
Fig.1
Expectation of banks'evaluation scores on each index
表7
MCDM 与AHP 的质量评价结果对比
Tab.7
Comparison of
the
evaluation
results
between the MCDM -bad method and AHP
method
银行A 1
A 2A 3A 4A 5
基于MCDM 的方法
质量得分0.230.760.590.480.53排序51243
AHP 方法
质量得分6.016.586.546.256.31排序51243
589