1.数据降维和特征选择的区别
数据降维,一般说的是维数约简(Dimensionality reduction)。它的思路是:将原始高维特征空间里的点向一个低维空间投影,新的空间维度低于原特征空间,所以维数减少了。在这个过程中,特征发生了根本性的变化,原始的特征消失了(虽然新的特征也保持了原特征的一些性质)。
特征选择,是从 n 个特征中选择 d (d<n) 个出来,而其它的 n-d 个特征舍弃。所以,新的特征只是原来特征的一个子集。没有被舍弃的 d 个特征没有发生任何变化。这是二者的主要区别。viddy在大部分情况下特征选择都是在冗余变量较多的情况下使用,特征之间并不是正交的,甚至还存在冗余坐标(即用p个特征表达了k (k<p)维空间),因此删除部分冗余坐标并不会显著降维。另一方面,若原来的特征本身就是正交坐标系,那么删除多少特征就降了多少维,此时与降维类似,只是这种降维方式限定了只通过删除某几个坐标轴来实现。
降维,如果特指PCA这种线性降维方法,则降维所得的子空间是在原始坐标系旋转下不变的。而如果坐标系恰好选取为主向量,则PCA实际上等价于对这组特殊的坐标系进行特征选择,方式是根据样本在坐标轴上分散的程度来决定该坐标轴的去留。而在一般情形下,PCA
降维所得的子空间是由几乎所有原始特征张成的,因此原始特征全部起作用。因此,有学者(Zou & Hastie)提出了spar PCA,旨在强迫使用部分原始特征张成尽量“优质”的子空间,同时实现了降维+特征选择,从而能在分析主成分的同时还可以加入模型的解释性。
特征选择方法:
1)方差选择法
使用方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。(有区分度)
2)相关系数法
使用相关系数法,先要计算各个特征对目标值的相关系数以及相关系数的P值。Pearson相
关系数的一个明显缺陷是,他只对线性关系敏感。如果关系是非线性的,即便两个变量具有一一对应的关系,Pearson相关性也可能会接近0。
3)卡方检验
经典的卡方检验是检验定性自变量对定性因变量的相关性。
过程:
先假设两个变量确实是独立的(行话就叫做“原假设”),然后观察实际值(也可以叫做观察值)与理论值(这个理论值是指“如果两者确实独立”的情况下应该有的值)的偏差程度,如果偏差足够小,我们就认为误差是很自然的样本误差,是测量手段不够精确导致或者偶然发生的,两者确确实实是独立的,此时就接受原假设;如果偏差大到一定程度,使得这样的误差不太可能是偶然产生或者测量不精确所致,我们就认为两者实际上是相关的,即否定原假设,而接受备择假设。假设自变量有N种取值,因变量有M种取值,考虑自变量等于i且因变量等于j的样本频数的观察值与期望的差距,构建统计量。
blog.csdn/ldcadai/article/details/72854462
siennablog.csdn/yihucha166/article/details/50646615
4)互信息
经典的互信息也是评价定性自变量对定性因变量的相关性的。互信息是 X 和 Y 联合分布相对于假定 X 和 Y 独立情况下的联合分布之间的内在依赖性。于是互信息以下面方式度量依赖性:I(X; Y) = 0 当且仅当 X 和 Y 为独立随机变量。从一个方向很容易看出:当 X 和 Y 独立时,p(x,y) = p(x) p(y),因此:
5)随机森林oob(加入噪声:随机改变样本在特征X处的值)
4)最后对每个特征计算后的结果归一化。
6)信息增益等
7)使用L1,L2正则化项
L1正则化项使解更为稀疏,L2正则化项使解更为平滑。L1惩罚项降维的原理在于保留多个对目标值具有同等相关性的特征中的一个,所以没选到的特征不代表不重要。可结合L2惩罚项来优化。具体操作为:若一个特征在L1中的权值为1,选择在L2中权值差别不大且在L1中权值为0的特征构成同类集合,将这一集合中的特征平分L1中的权值。
2.PCA简介
2.1 计算过程
计算数据特征的协方差矩阵,求协方差矩阵的特征值,特征向量。选取特征值最大的K个特征值相对应的特征向量作为降维后的特征方向。最后将样本点投影到选取的特征向量上。假设样例数为m,特征数为n,减去均值后的样本矩阵为DataAdjust(m*n),协方差矩
阵(svd右奇异矩阵)0是n*n,选取的k个特征向量组成的矩阵为EigenVectors(n*k)。那么投影后的数据FinalData为FinalData(10*1) = DataAdjust(10*2矩阵) x 特征向量(-0.677873399, -0.735178656)T。
去均值的意义:
去均值化是为了方面后面的协方差,去均值化后各维度均值为零,协方差中的均值也就是零了,方便求解。
目标与协方差矩阵的意义:
对原始n维特征进行降维,获取最好的k维特征使得新的低维数据集会尽可能的保留原始数据。寻找k维特征的依据是:PCA根据最大方差理论,找到这样一组投影向量,使得数据投影后的方差最大。同时需要满足这些投影向量之间是正交的。所以pca的目标是选择K个单位(模为1)正交基,使得原始数据变换到这组基上后,各向量两两间协方差为0,而投影后的方差则尽可能大(在正交的约束下,取最大的K个方差)。这也是要求协方差矩阵的原因
我们知道协方差矩阵为实对称阵,可以正交相似对角化:
。此时Q可以看为AA^T的特征向量矩阵,为特征值集合。而特征值大的又是方差大的方向。因为特征值表示原始样本表示在特征向量方向上的缩放步长,所以,特征值越大,在对应的特征向量方向上,投影后的数据越分散,方差越大。
PCA可以把可能具有相关性的高维变量合成线性无关的低维变量,称为主成分( principal components)。PCA旋转数据集与其主成分对齐,就得到了降维后的数据集。
2.2 含义
最大方差理论:在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如前面的图,样本フォルト在u1上的投影方差较大,在u2上的投影方差较小,那么可认为u2上的投影是由噪声引起的。
因此我们认为,最好的k维特征是将n维样本点转换为k维后,每一维上的样本方差都很大。然后正交的意义。
优缺点:
优点:
1、以方差衡量信息的无监督学习,不受样本标签限制。
2、各主成分之间正交,可消除原始数据成分间的相互影响
3. 可减少指标选择的工作量
4.用少数指标代替多数指标,利用PCA降维是最常用的算法
5. 计算方法简单,易于在计算机上实现。
缺点:
1、主成分解释其含义往往具有一定的模糊性,不如原始样本完整
2、贡献率小的主成分往往可能含有对样本差异的重要信息
3、特征值矩阵的正交向量空间是否唯一有待讨
4、无监督学习
6. PCA,特征值和特征向量
另外可以通过最小二乘的方法证明,最大特征值对应的特征向量的方向,就是第一主成分的方向,其他方向类比可得。
3.特征值和奇异值
奇异值都是非负的,因为他是从一个对称阵的特征值,我们知道实对称阵都是半正定的。所以他的特征值都是非负的。
经过了去除均值的操作之后,就可以用SVD分解来求解这样一个投影向量,选择特征值最大的方向。
主成分方向为特征向量方向推到:利用最小二乘法。
blog.csdn/zhongkelee/article/details/44064401
3.LDA(Linear Discriminant Analysis(线性判别分析))
其是一种监督学习方法。目标是:将带上标签的数据(点),通过投影(线性变换)的方法,投影到维度更低的空间中,使得投影后的点,会按标签分成不同的类别,使得类别内的点距离越近越好(集中),类别间的点越远越好。
npc是什么意思
/LeftNotEasy/archive/2011/01/08/lda-and-pca-machine-learning.html
类内关系定义为L投影后距类中心点的距离的平方和。类间关系定义为投影后各类中心点之间的距离:
national day
求解上式,使用朗格朗日函数进行变换求解。前面所述的投影函数就是降维用的。
4.t-sne
www.datakit/blog/2017/02/05/t_sne_full.html
reliable是什么意思 是一种非线性降维算法,非常适用于高维数据降维到2维或者3维,进行可视化。SNE构建一个高维对象之间的概率分布,使得相似的对象有更高的概率被选择,而不相似的对象有较低的概率被选择。
SNE在低维空间里在构建这些点的概率分布,使得这两个概率分布之间尽可能的相似。
5独立成分分析(ICA)
invitation 1)ICA与PCA之间的关系:
ICA理论认为用来观测的混合数据阵X是由独立元S经过A线性加权获, ICA要做的是一个解混过程。ICA理论的目标就是通过X求得一个分离矩阵W,使得W作用在X上所获得的信号Y是独立源S的最优逼近,该关系可以通过下式表示:
Y = WX = WAS , A = inv(W)逆矩阵。
2)实现ICA
第一步做白化预处理(whitening),让输出信号不相关而且同方差。skycity先用PCA得到y,再把y的各个分量标准化(即让各分量除以自身的标准差)得到z。预处理后得到的z满足下面性质:
z的各个分量不相关;
拼写z的各个分量的方差都为1。
第二步找一个旋转矩阵W使Z独立(statistically independent)。
not only but also的用法
3)条件
只要源信号非高斯,那么这种分解是唯一的。若源信号为高斯的话,那么显然可能有无穷多这样的分解。