3.4数据预处理(三)-数据规约(DataReduction)
reluctant
简介
在数据集成与清洗后,我们能够得到整合了多数据源同时数据质量完好的数据集。但是,集成与清洗⽆法改变数据集的规模。我们依然需通过技术⼿段降低数据规模,这就是数据规约(Data Reduction)。数据规约采⽤编码⽅案,能够通过⼩波变换或主成分分析有效的压缩原始数据,或者通过特征提取技术进⾏属性⼦集的选择或重造。
⼀句话解释版本:
数据规约就是缩⼩数据挖掘所需的数据集规模,具体⽅式有维度规约与数量规约。
数据分析与挖掘体系位置
数据规约是有数据预处理中的⼀个过程。所以其在数据分析与数据挖掘中的位置如下图所⽰。
数据规约⽅法
bicep数据规约⽅法类似数据集的压缩,它通过维度的减少或者数据量的减少,来达到降低数据规模的⽬的,数据压缩(Data Compression)有⽆损与有损压缩。⽅法主要是下⾯两种:
维度规约(Dimensionality Reduction):减少所需⾃变量的个数。代表⽅法为WT、PCA与FSS。
数量规约(Numerosity Reducton):⽤较⼩的数据表⽰形式替换原始数据。代表⽅法为对数线性回归、聚类、抽样等。
哈珀国际教育
维度规约(Dimensionality Reduction)
⼩波变换(Wavelet Transform,WT)
sausages⼩波变换是由傅⾥叶变换(FFT)发展⽽来的。
⾸先,傅⾥叶变换是⼀种针对信号频率的分解转换⽅法。它通过把信号分解成正余弦函数,把时域信号转为频率信号。但是FFT⽅法存在缺陷,就是经过拆分之后的信号只能显⽰其包含哪些成分,但是包含的各个成分出现的时间⽆法体现出来。
spellman
因此,就出现了短时傅⾥叶变换(STFT),它再FFT的基础上加⼊的时域的概念。STFT通过设置窗格,并假设窗格内信号是平稳的,对每个窗格内的信号分段进⾏FFT变换。其引⼊了时域信息,但是窗格的正确划分确很难判定。
最后,就产⽣了⼩波变换(WT),在⽅法上,WT将FFT的基由⽆限长的三⾓函数基换成了有限长会衰减的⼩波基。能在获取频率的同时定位时间。
capes在数据规约中,对数据进⾏⼩波转换后截断数据,保存最强的⼩波系数,从⽽保留近似的压缩数据。
主成分分析(Principal Component Analysis,PCA)
主成分分析通过寻找原⾃变量的正交向量,将原有的n个⾃变量重新组合为不相关的新⾃变量。
当数据中存在的⾃变量个数过多,或者⾃变量之间存在相关性时,可以考虑使⽤PCA的⽅法重构⾃变量。
具体主成分分析的理解与算法请见
与⼩波变换相⽐,PCA能更好的处理离散数据,⽽WT更适合⾼维度数据。
特征集选择(Feature Subt Selection,FSS)
特征选择时通过删除不相关或冗余的属性来减少维度与数据量。其⽬的是:定位最⼩属性集,使得数据的概率分布尽可能接近使⽤所有属性得到的原分布,简单说,就是从全部属性中选取⼀个特征属性⼦集,使构造出来的模型更好。
特征集选择的步骤⼀般是:建⽴⼦集集合、构造评价函数、构建停⽌准则、验证有效性。
选择特征集的⽅式⼀般有:序列向前、序列向后、序列前后组合、决策树⽅式这4中。
carbonite数量规约(Numerosity Reduction)
参数化数据规约
参数化数据规约可以⽤回归模型与对数线性模型来实现。
⾸先,对数值型的数据,可以⽤回归的⽅法,对数据建模,使之拟合成直线或平⾯。在简单线性回归中,随机变量y可以表⽰为另⼀个随机变量x的线性函数。通过最⼩⼆乘法可以定义线性函数⽅程。在多元线性回归中,随机变量y可以⽤多个随机变量表⽰。
其次,如果我们想分析多个分类变量间的关系,对多个分类变量间的关系给出系统⽽综合的评价,就可以采⽤对数线性模型。常见的逻辑回归就是对数线性模型的⼀种。对数线性模型中的Logit过程如果
⽤来分析⾃变量与因变量的交互项的话,其实是逻辑回归模型的结果。只不过对数线性模型显⽰的是属性之间的相互关系,并不需区分Y与X。
im in love ra d⾮参数化数据规约
⾮参数化数据规约包括直⽅图、聚类、抽样、数据⽴⽅体聚集等⽅法。
第⼀,直⽅图⽅法就是分箱,之前在数据清理⼀章提到过,噪声光滑的⼀种⽅法就是分箱,即将数据划分为不相交的⼦集,并给予每个⼦集相同的值。⽽⽤直⽅图规约数据,就是将图中的bin个数由观测值的数量n减少到k个。从⽽使数据变成⼀块⼀块的呈现。bin的划分可以是等宽的,也可以是等频的。
captain
第⼆,聚类算法是将数据进⾏分群,⽤每个数据簇中的代表来替换实际数据,以达到数据规约的效果。
第三,抽样。通过选取随机样本(⼦集),实现⽤⼩数据代表⼤数据的过程。抽样的⽅法包括:简单随机抽样、簇抽样、分层抽样等。
jetpack第四,数据⽴⽅体聚集。数据⽴⽅体聚集帮助我们从低粒度的数据分析聚合成汇总粒度的数据分析。我们认为表中最细的粒度是⼀个最⼩的⽴⽅体,在此上每个⾼层次的抽象都能形成⼀个更⼤的⽴⽅体。数据⽴⽅体聚集就是将细粒度的属性聚集到粗粒度的属性。