统计与决策2021年第8期·总第572期
理论探讨
引言
在实际工作中所产生的数据集可能太大,以至于无法存储在一台计算机的硬盘上,只能存储在分布式系统中。数据集一旦被存储在分布式系统中,会给传统的统计推断带来相应的挑战。因为数据不被存储在同一台计算机上,传统的统计学方法将不再适用,需要对其进行相应的改造
[1—3]
,才能在分布式计算中得到统计量的估计,而尽可能少
地损失统计有效性。不仅是统计有效性的损失,在分布式系统中的“主仆”模式中,“仆”计算机之间是无法进行数据传输的,这限制了某些方法的应用,如Newton-Raphson 迭代。如何减少通讯成本也是统计学在分布式系统研究的一个热点。
众多的统计学家在近些年来对这一领域做出了贡献。本文将介绍分布式计算中的最新统计研究成果,包括高维稀疏回归问题在分布式计算中的拓展,One-shot 方法的应用及其理论性质,以及一些统计方法在分布式计算的拓展。1分布式计算中的统计理论1.1
简单图画
高维稀疏回归问题
Chen 和Xie (2014)[3]
针对高维稀疏回归问题,在分布
式计算中提出了One-shot (Split and Conquer )方法。考虑广义线性模型E (y i =g ()x i β i =1 n ,y i 是响应变量,x i 是p ´1的解释变量,β是p ´1的未知参数,g (·)是连
接函数。高维稀疏数据假设p 会随着n 的增长而增长,所以β是稀疏的。带惩罚项的极大似然估计通常用来解决这样的问题:
β=arg max β
{l ()
β;y X n -ρ(β;λ)}
(1)
其中,ρ(·)是惩罚函数,λ是超参数,不同的ρ(·)会有
不同的参数估计,如LASSO 估计量[2]、LARS 估计量[4]、SCAD 估计量[5]和MCP 估计量[6]等。作者在分布式计算中考虑这一问题,假设数据过大只能存储在K 台计算机上,在第k 台计算机上分别得到局部估计如下:
βk =arg max β
{
l ()
β;y k X k n k
-ρ(β;λ)}(2)
在得到局部估计之后,本文采用多数表决法得到新的
组合估计β(c ),并证明β(c )
的符号一致性。
在Zhang 等(2013)[7]工作的基础上,Lee 等(2017)[8]
认
为通讯成本是分布式计算的瓶颈。同样是针对高维稀疏
回归问题,相较于Chen 和Xie (2014)[3]、Lee 等(2017)[8]
提出
的方法可以保证符号一致性,统计量与全局估计量的收敛性质是一样的,并且设计了使通讯成本有效的算法。考虑线性回归y =X β*+ε,y 是响应变量,X 是n ´p 的解释变量矩阵,β是p ´1的未知参数,且稀疏性为s 。当p n 的时候,正则化是必须的,本文考虑Lasoo 正则化,全局估计量为:
β=arg min β
12n ||y -X β||22+λ||β||1
(3)
然而Lasso 估计量是有偏的,在分布式计算中对统计量平均可以减少方差,但不能减少偏差,所以应该在平均之前,对每台计算机上得到的局部估计量进行纠偏,参考
Javanmard 和Montanari (2014)[9]
中的纠偏Lasso 估计量:
βd =β+1n
ΘX T ()
y -X β(4)其中,β是式(3)中的Laaso 估计量,Θ
ÎR p ´p 是协方差矩阵的逆矩阵估计。Θ
的估计需要全部数据都被传输到主计算机上,但是这样的通讯成本非常高,而如果各台
计算机分别估计各自的Θk
,由于它的奇异性,计算消耗代
价很高。所以本文在不损失估计精度的前提下,设计了一
个通讯有效的算法,只需要两轮通讯传输,且传输的都是
作者简介:任图南(1992—),男,山西阳泉人,博士,研究方向:应用经济学。分布式计算中统计方法的拓展
任图南1,职场鸡汤
2
(1.中国银联博士后科研工作站,上海201201;2.复旦大学网络空间安全博士后科研流动站,上海200433)
摘要:在数据体量逐渐增大的时代,处理大体量数据已经成为科学研究必需的途径。分布式计算为处理这样的大体量数据提供了方案,但站在统计学的角度,分布式计算所带来的便捷性也会造成统计学性质的损失。文章针对分布式计算与统计理论结合问题进行综述,并分析了这些方法的优势和不足,指出了在这一领域进一步研究的方向。
关键词:分布式计算;One-shot 方法;高维稀疏回归中图分类号:F222.1文献标识码:A 文章编号:1002-6487(2021)08-0054-04
DOI:10.ki.tjyjc.2021.08.011
54
统计与决策2021年第8期·总第572期
向量,传输成本小,且最终的估计量与全局Lasso 统计量的收敛速度一致,只要“仆”计算机的个数不是特别的多。
步骤1:各台计算机依据局部数据计算局部统计量βk
和1n
X T k ()
y k -X k βk ,并将其传输到“主”计算机上。步骤2:“主”计算机对收到的统计量进行处理后,将1m åk =1m βk 和1N åk =1m X T k ()
y k -X k βk 再传输回各“仆”计算机上。
步骤3:第j 台计算机,只需要自己存储的数据,就可以对局部估计量做出纠偏,βj =1m åk =1m βk +Θj ·{
1N åk =1m X T k
}
(
)y k -X k βk ,其中,Θj ·
是p 维向量。将βj 传输到“主”计算机。
步骤4:“主”计算机得到最终估计量β
ˉ=1m åk =1
m βk 。针对高维稀疏回归问题,不同于之前的学者,Yang 等
(2016)[10]
假设数据在分布式系统中的存储方式是按照特
征分割的,即不同的“仆”计算机上存有全部的样本,但只有部分的特征,这在超高维的情况下是合理的假设。本文首先利用Fan 和Lv (2008)[11]
的方法,对特征进行降维,然后
通过sketch 的转换,将所需数据传输到“主”计算机上进行估计,得到最后的统计量。该方法把按特征分布存储的超高维回归问题的计算复杂度从O (mN 2
)降低到了O (Nms ),并且可以达到全局Lasso 估计量的收敛速度。1.2
One-shot 统计方法
Zhang 等(2013)[7]
提出了两种“通讯有效”的算法,来解
决分布式计算中通过最小化损失函数来得到估计量的问题。假设数据有N 条观测数据,存储在m 台计算机上,每台机器上独立同分布地存储n 条数据。若可以得到全局的估计量,则估计量的MSE 的收敛速度应该是O ()N
-1
。
让f (θ x )表示实值的损失函数,θ为未知参数,x 表示数据,S 表示全数据集,i =1 m ,S 1 i 表示存储在第i 台计算机上的数据。全局最优估计量由式(5)得到:
θ=arg min θ1|S |åx ÎS
f (θ x )
(5)
本文提出的第一种方法为Average Mixture Algorithm,首先在第i 台计算机上得到局部的无偏估计量
θ1 i =arg min θ1|S 1 i |åx ÎS
1 i
f (θ x ),之后对m 个局部估计量进
行平均,得到估计量:
θ
ˉ1=1m åi =1
m
θ1 i (6)
在适当的假设下,θˉ1的MSE 的收敛速度是O (N -1
+n -2,m N 时,
θˉ1与全局统计量有一样的收敛速度。方法一的优点是计算简单,不需要额外的通讯成本。文中第二种方法为Subsampled Average Mixture Algorithm。首先在第i 台计算机存储的数据S 1 i 中无放回地选出|rn |大小的S 2 i 子样本,其中r Î[0 1]是固定的采样率。之后第i 台计
算机计算θ2 i =arg min θ1|S 2 i |åx ÎS
2 i
f (θ x ),θ
ˉ2=1m åi =1m
θ2 i 。最后的估计量为:
θˉSAVGM =θ
ˉ1-θˉ21-r
(7)
θ
ˉSAVGM 的MSE 的收敛速度是O ()
N -1+n -3,只要m n 2,θˉSAVGM 就可以达到全局估计量的收敛速度,且偏差
的二阶项比θ
ˉ1更小。第二种方法的优点是对m 的假设更放松,且估计量的效果更好,但需要付出更多的计算消耗。
Ronblatt 和Nadler (2014)[12]
指出在分布式计算中不
同的极限性质,当N ®¥ m 、p 固定的时候,分布式计算中,One-shot 及平均各个“仆”计算机的局部变量得到最终估计量的方法与全局估计量是一阶项一致的,然而当
p n ®¥ p
n
®μl Î(0 1)时,平均估计量则是次最优的。
Battey和Fanhan (2015)[1]
进一步讨论了分布式计算中的One-shot (Divideand Conquer )方法的理论性质。其针对众多的假设检验和参数估计方法,提出了针对不断变大的数据量n 的分布式计算机台数k 的上界,
使得可以保持估计量与全局统计量有同样的有效性,但是全局统计量在巨大的数据集前无法得到。One-shot方法是指在分布式系统中的各个“仆”计算机上得到统计量,然后在“主”计算机上按照适合的方法进行整合,以得到最终统计量的方法。本文首先针对高维Wald 检验和Rao score 检验提出了通讯成本有效的算法,并且证明在线性模型中,k =O ((s ´log d )-1n )是保证统计推断有效性与全局统计量一致的上界;广义线性模型中的上界k =O (((s Ús 1)´log d )-1n )。s 指的是参数向量的稀疏性,d
代表参数向量的维度,n 是全样本的数据量,s 1是信息矩阵逆的稀疏性。之后针对高维数据的估计准确性问题,参照假设检验的思路,在线性模型中给出k 的上界为k =O
æèöø(s 2´log d )-1n ,在广义线性模型中k =O æèöø
((s Ús 1)2´log d )-1n 。
因此,要保证Divideand Conquer 方法的统计有效性与全局统计量一致,k 的增长速度不能太快,
若是将模型限制在线性回归中,可以适当放松对k 的限制。
Jordan 等(2019)[13]
指出了One-shot 方法的三个缺点:
(1)该方法只能得到待估计参数的点估计量,无法得到置信区间,不能统计推断和假设检验。(2)该方法对“仆”计算机的个数有较强的限制,不能太大,即要求每台计算机上存储的样本必须足够多,这是一个很强的假设,实际情况不一定满足。(3)该方法针对非线性的估计量表现极差。本文认为,通讯成本有效的替代极大似然估计的框架(CSL ),可以用于低维度的参数估计、高维的正则化估计以及贝叶斯估计。Z N 1={}
Z ij :i =1 n ;j =1 k 表示N 条观测数据,
存储在k 台计算机上,数据服从分布P θ*,Z j ={}
Z ij :i =1 n 表示存储在第j 台计算机上的n 条数
据。L j ()θ=1n倭瓜的意思
åi =1n L (θ Z ij )为局部的损失函数,整体的损
55
统计与决策2021年第8期·总第572期
失函数如式(8)所示:
L N ()θ=1N åi =1n åj =1k L (θ Z ij )=1k
åj =1k L j ()θ(8)
本文通过全局损失函数的Taylor 展开以及用局部估计代替全局估计,提出了一个代替全局损失函数的L
()θ=L 1()θ-θ ÑL 1()θˉ-ÑL N ()θˉ。θˉ是在第一台计算机上得到的局部估计,Ñ代表一阶求导。令
θ=arg min θ
L N ()θ表示全局最优估计量,θ=arg min θ
L
()θ表示通讯成本有效的估计量。本文针对低维数据的情况
证明了θ与θ的高阶一致性,且可以利用第一台计算机上的局部数据得到置信区间;在高维正则化问题的情况下,
θ=arg min θ
L
()θ+λ||θ||1和全样本数据下的Lasso 估计量有同样的收敛速度;在贝叶斯框架中,CSL 方法可以得到和全局一样好的后验估计,并依据服务器的个数k 减少运算复杂度。1.3统计方法在分布式计算中的拓展1.3.1
主成分分析(PCA )
Fan 等(2017)[14]
将主成分分析(PCA )拓展到分布式计
算中,提出了一种新的算法,证明了在“仆”计算机的数量不是非常大的情况下,得到的PCA 和全样本PCA 表现一样好。本文将数据集按照样本分割开存储在分布式系统中。假设有N 条观测数据、
d 个维度的特征分布式地存储在m 台机器上,每台机器存储n 条数据,Σ是样本方差矩阵,V K =(v 1 v K )是样本方差矩阵的前K 个特征向量。首先在各个机器上计算方差矩阵的K 个特征向量,
记为{}
V (l )K =(v ()l 1 v (l )
K )
m
l =1
。然后在“主”计算机上进行整
合,得到局部特征向量和整体方差矩阵的估计,Σ
=1m
ål =1m
V (l )K V (l )
K T 。最后得到Σ的K 个特征向量,V K =()v 1 v K 。算法需要的通讯成本是O (mKd )。把统计误差
||V K V T K -V K V T
K ||F 作为评价标准,只要每台机器上的样本数n 足够大,
分布式算法得到的PCA 与全局PCA 的统计误差具有同样的收敛速率。1.3.2
特征筛选
Li 等(2019)[15]
研究了在分布式计算中实现特征筛选
的方法。特征筛选是针对高维数据的一种降维方法,依据
的标准是某种特定的相关性度量,Fan 和Lv (2008)[11]
中SIS
特征筛选方法依据的相关性度量是Pearson 相关性。因为特征筛选不用对数据做模型假设,所以适用于数据结构复杂的情况。现有的方法大多假定样本的特征个数p ®¥,
秦桧书法
而样本个数N 是有限的。但在实际的数据中,p 和N 都很大,考虑到p N ®¥的情况,且存储在m 台机器上,提出ACS 变量筛选框架,在适当的条件下可证明ACS 方法和传统的全局筛选方法一样有效,而且也不需要做模型假定。
D ={}
(Y i X i )N i =1
代表全数据集,是独立同分布的,X i =
(
)
X i 1 X ip
T
是p 维解释变量。面对高维数据集时,通常
只有部分解释变量与因变量Y i 相关,使用M 指代与因变量相关的解释变量的指标集合,M c ={}1 p \M 指代无关变量的指标集合。变量筛选的目标就是移除M c 指代的无关变量,基本方法是依据某种相关性度量给解释变量排序,根据先验给定的阈值进行筛选,移除相关性低于阈值的变量。在分布式系统中,假设全数据集D 被平均分割存储在m 台机器上,每台机器存储n 条数据。SAS 表示简单的平均方法,即在第l 台机器上得到X j 与Y 的相关性度量ωl j ,然后在主机器上对其进行平均,得到整合的
相关性度量ωˉj =1m
ål =1m
ω
l j ,然后进行变量筛选。SAS 方法计算简单,但缺点是可能会因为ωl j 的偏差导致ωˉj 的
偏差,在实际中的变量筛选是有偏差的。本文提出ACS 方法,首先把ωj 表示成一些参数的函数:
ωj =g (θj 1 θj s )
(9)
其中,g 是给定的函数,θj 1 θj s 是需要估计的参数,文中通过局部U-统计量给出θj 1 θj s 的无偏估计。将各个“仆”计算机上得到的θj 1 θj s 传输到“主”计算机上,对其进行平均之后,通过函数g 得到估计ω
j ,然后进行变量筛选。相较于SAS 方法,本文提出的ACS 方法更加准确和稳健。1.3.3
分布式计算中的一步迭代估计量
Huang 和Huo (2015)[16]
提出了针对分布式计算的一步
迭代估计量。不同于One-shot (Divideand Conquer )方法,用局部统计量的平均来获得最终估计量,本文针对M-估计量提出了一步迭代的估计量,其和全局估计量享有共同的收敛性质。数据模拟的结果显示一步迭代估计量比One-shot 估计量有更好的表现。m (x θ)表示关心的标准函数,且二阶连续可导;数据集S 包含N 条观测数据,平均分布式存储在k 台计算机上,每台计算机存储n 条数据,记为S i i =1 k 。m ()x θ表示对θ的梯度向量,m (x θ)表示对θ的Hessian 矩阵。全局标准函数M ()θ=1k åi =1k
土木工程认识实习报告
M i (θ),M i ()θ=1|S i |åx ÎS
i
m (x θ)指的是第i 台计
算机上的局部标准函数。全局估计量θ=arg max θ
M ()θ,
第i 台计算机的局部估计量为θi =arg max θ
M i ()θ。One-shot 估计量为所有局部估计量的平均,记为
θ(0)=1k
åi =1k θi 。一步迭代估计量是在θ(0)
的基础上,按照
牢固近义词下列步骤得到一步迭代估计量θ(1)
:
步骤1:“主”计算机将θ(0)
传输给各个“仆”计算机,然
后第i 台计算机可以计算得到M
i ()θ(0)与M i ()
θ(0)的值。步骤2:各“仆”计算机把M i
()θ(0)
与M i
()θ(0)
传输到“主”
56
计算机后通过平均的方法得到M()θ(0)=1kåi=1k M i()θ(0)与M()θ(0)=1kåi=1k M i()θ(0)的估计值。
步骤3:最后利用迭代公式θ(1)=θ(0)-é
ëùû
M()θ(0)-1 M()θ(0)得到估计量。
证明θ(1)与全局估计量θ有着相同的极限分布,而One-shot统计量只能达到同样的收敛速度。可以看到,虽然提出的是一步估计量,但是在实现的过程中多次用到了One-shot估计量的平均思想,初始估计是One-shot估计量,迭代步骤中的梯度与Hessian矩阵也是通过平均的方法得到的,而且需要多一轮的通讯,消耗更多的通讯成本,以换来更好的统计性质。
2进一步研究方向
针对目前分布式计算中的统计学理论,有三个方面值得更进一步的研究:
(1)One-shot统计量是目前公认的比较成熟的分布式计算方法,计算简单,通讯成本低是其优点,但是也有其相应的缺点,如无法得到统计量的置信区间以及对分布式系统中的计算机个数有较严格的假设。已经有学者在这一方面提出新的研究方法,如何进一步地改善One-shot统计量是未来研究的一大方向。
(2)目前的研究都假设在不同的计算机上存储的数据样本是独立同分布的,这样可以保证每台计算机上得到的局部统计量是一致无偏的。但是在实际应用中,这样的假设是很难满足的。比如中国移动的通信数据就是按照地域不同来分割存储的,从而导致各计算机中的数据不服从独立同分布,得到的局部估计量则是有偏的。在这种情况下,One-shot统计量完全失效,需要新的方法来保证统计有效性。
(3)可以看到有的学者将主成分分析(PCA)与变量筛选拓展到分布式计算领域,这是很好的尝试。传统统计学中有很多经典的方法,如因子分析、逻辑回归、分位数回归、Bootstrap等。在数据体量日渐增大的今天,分布式计算是未来的主流发展趋势,如果能将这些传统经典的统计学模型拓展到分布式计算领域,将会是非常重要的工作。
3结束语
分布式计算虽然目前还处于起步阶段,但众多统计学家已经在这一领域做出了贡献,本文重点介绍了一些统计学者在分布式计算当中做出的工作,展示了这一领域的广阔前景。本文只是对现有文献中关于分布式计算的一个基本介绍,另外还有诸如模型估计具体步骤、模型的统计特征、估计结果的渐近性质等问题尚未涉及,还需进一步进行研究。
参考文献:
[1]Battey H,Fanhan J.Distributed Estimation and Inference With Statis⁃tical Guarantees[J].Statistics Theory,2015.
[2]Chen S S,Donoho D L,Saunders M A.Atomic Decomposition by Ba⁃sis Pursuit[J].Siam Review,2001,43(1).
[3]Chen X,Xie M.A Split-and-Conquer Approach for Analysis of Ex⁃traordinarily Large Data[J].Statistical Sinica,2014,24(4). [4]Efron B,Hastie T,Johnstone I,et al.Least Angle Regression[J].An⁃nals of Statistics,2004,(32).
[5]Fan J,Li R.Variable Selection via Nonconcave Penalized Likelihood and Its Oracle Properties[J].Journal of the American Statistical Asso⁃ciation,2001,(96).
[6]Zhang C H.Nearly Unbiad Variable Selection Under Minimax Con⁃cave Penalty[J].Annals of Statistics,2010,(38).
[7]Zhang Y,Duchi J C,Wainwright M J.Communication-efficient Algo⁃rithms for Statistical Optimization[J].Journal of Machine Learning Re⁃arch,2013,14(1).
[8]Lee J D,Liu Q,Sun Y,et al.Communication-efficient Spar Regres⁃sion[J].Journal of Machine Lear
ning Rearch,2017,18(5). [9]Javanmard A,Montanari A.Condence Intervals and Hypothesis Test⁃ing for High-dimensional Regression[J].The Journal of Machine Learning Rearch,2014,15(1).
[10]Yang J,Mahoney M W,Saunders M A,et al.Feature-distributed Spar Regression:A Screen-and-clean Approach[J].Neural Infor⁃mation Processing Systems,2016.
[11]Fan J,Lv J.Sure Independence Screening for Ultrahigh Dimensional Feature Space[J].Journal of the Royal Statistical Society Series B-Statistical Methodology,2008,70(5).
[12]Ronblatt J,Nadler B.On the Optimality of Averaging in Distribut⁃ed Statistical Learning[J].Information and Inference,2014,(1407).
[13]Jordan M I,Lee J D,Yang Y.Communication-efficient Distributed Statistical Inference[J].Journal of the American Statistical Associa⁃tion,2019,114(526).
[14]Fan J,Wang D,Wang K,et al.Distributed Estimation of Principal Ei⁃genspaces[J].Annals of Statistics,2017,47(6).
[15]Li X,Li R,Xia Z,et al.Distributed Feature Screening via Compo⁃nentwi Debiasing[J].Journal of
Machine Learning and Rearch, 2019,21(24).
[16]Huang C,Huo X.A Distributed One-step Estimator[J].Computer Science,2015.
琵琶弹奏(责任编辑/亦民)
57
统计与决策2021年第8期·总第572期
统计与决策2021年第8期·总第572期
理论探讨
引言
产品的质量具有多个方面的特征,在生产加工过程中,为了保证产品的质量需要同时对每个方面的质量特征都加以监控。多变量指数加权滑动平均(MEWMA:Multi-variate Exponentially Weighted Moving Average )控制图技术将传统的单变量质量控制图技术拓展到了多变量质量监控,用一个控制图实现了对生产过程中产品多种质量特征的同时监控,从而提高了监控效率。李熙
多变量指数加权滑动平均控制图技术一经提出,很快得到了较为广泛的应用[1—8],然而,随着计算机技术和物联网技术的发展,对企业生产过程中产品质量特征的监测已由过去间断的定期抽样监测转变为不间断的实时监测,大
数据时代的到来使得传统的统计控制技术遇到了一些新
问题,其中一个重要的问题是大数据中通常都含有较多的离群值,而离群值的存在会使控制图的监控效果与实际不相符。针对此问题,本文拟采用稳健统计的思想对传统MEWMA 控制图进行改进,从而提高对离群值的识别和处理能力,并构建出稳健MEWMA 控制图方法,以便能更好地应用于大数据时代的统计质量检测控制中。1
传统MEWMA 控制图的计算模型及其不稳健性假设在生产或运营管理过程中需要被监测和控制的质量特征有n 个,这些质量特性组成的随机向量为X =
(x T 1 x T 2 x T m )T
,
且服从均值向量为μ、协方差矩阵为å的基金项目:广东省教育厅特色人才类项目(人文社科)(2019KTSCX043);广州市哲学社会科学“十三五”规划一般课题(2019GZYB48);广东省哲学社
会科学规划共建项目(GD17XGL08);广州市社会科学规划青年项目(2018GZQN36)
作者简介:李雄英(1987—),女,广东梅州人,博士,副教授,研究方向:大数据分析方法。
王斌会(1965—),男,陕西陇县人,教授,博士生导师,研究方向:管理统计方法。
稳健MEWMA 控制图的构建与应用
李雄英1a ,黄时文1b ,王斌会2
(1.广东财经大学a.经济学院;b.金融学院,广州510320;2.暨南大学管理学院,广州510632)
摘要:针对传统MEWMA 控制图对离群值比较敏感,导致监控效果与实际情况不符这一现象,文章引入
稳健统计的思想,将稳健MM 估计与传统MEWMA 控制图相结合,构造出稳健MEWMA 控制图以达到抵御离群值影响的目的,同时进行了模拟和实证分析。模拟和实证分析的结果均表明:当数据中不存在离群值时,传统MEWMA 控制图方法与稳健MEWMA 控制图方法得到的结果基本保持一致;当数据中存在离群值时,传统MEWMA 控制图不能很好地监测出过程的不受控状态,容易发生漏报的现象,而稳健MEWMA 控制图可以很好地监测出过程的不受控状态,并发出出界报警信号。相对于传统ME
WMA 控制图,稳健MEWMA 控制图能更有效地抵抗离群值的影响,具有良好的抗干扰性和抗差性,同时能够更好地监测到过程的失控状态。
关键词:MEWMA 控制图;稳健统计;离群点;均值中图分类号:O212.1文献标识码:A 文章编号:1002-6487(2021)08-0058-05
DOI:10.ki.tjyjc.2021.08.012
Expansion of Statistical Methods in Distributed Computing
Ren Tunan 1,2
(1.China UnionPay Post-doctoral Rearch Station,Shanghai 201201,China;2.Post-doctoral Rearch Station of Computer
Science and Technology,Fudan University,Shanghai 200433,China)
Abstract:In the era of increasing data volume,processing large volume of data has become a necessary approach for scien-tific rearches.Distributed computing provides a solution for handling such a large volume of data,but from the statistical per-spective,the convenience brought by distribut
ed computing can also lead to loss of statistical properties.This paper reviews the in-tegration of distributed computing and statistical theory,and analyzes both the advantages and disadvantages of the methods,pointing out the direction of further rearches in this field.
Key words:distributed computing;one-shot method;high-dimensional spar regression
58