套索回归(LassoRegression)的基本应⽤
⼀、使⽤场合
与岭回归类似,套索 (Least Absolute Shrinkage and Selection Operator) 也会对回归系数的绝对值添加⼀个罚值。此外,它能降低偏差并提⾼线性回归模型的精度。看看下⾯的等式:
套索回归与岭回归有⼀点不同,它在惩罚部分使⽤的是绝对值,⽽不是平⽅值。这导致惩罚(即⽤以约束估计的绝对值之和)值使⼀些参数估计结果等于零。使⽤的惩罚值越⼤,估计值会越趋近于零。这将导致我们要从给定的n个变量之外选择变量。
要点:
u盘无法识别怎么办· 除常数项以外,这种回归的假设与最⼩⼆乘回归类似;
· 它将收缩系数缩减⾄零(等于零),这确实有助于特征选择;
· 这是⼀个正则化⽅法,使⽤的是 L1 正则化;
· 如果⼀组预测因⼦是⾼度相关的,套索回归会选出其中⼀个因⼦并且将其它因⼦收缩为零。
⼆、lasso族的功效大碗饭
在建⽴模型之初,为了尽量减⼩因缺少重要⾃变量⽽出现的模型偏差,通常会选择尽可能多的⾃变量。然⽽,建模过程需要寻找对因变量最具有强解释⼒的⾃变量集合,也就是通过⾃变量选择(指标选择、字段选择)来提⾼模型的解释性和预测精度。指标选择在统计建模过程中是极其重要的问题。Lasso算法则是⼀种能够实现指标集合精简的估计⽅法。
Lasso(Least absolute shrinkage and lection operator, Tibshirani(1996))⽅法是⼀种压缩估计。它通过构造⼀个罚函数得到⼀个较为精炼的模型,使得它压缩⼀些系数,同时设定⼀些系数为零。因此保留了⼦集收缩的优点,是⼀种处理具有复共线性数据的有偏估计。 在建⽴模型之初,为了尽量减⼩因缺少重要⾃变量⽽出现的模型偏差,通常会选择尽可能多的⾃变量。然⽽,建模过程需要寻找对因变量最具有强解释⼒的⾃变量集合,也就是通过⾃变量选择(指标选择、字段选择)来提⾼模型的解释性和预测精度。指标选择在统计建模过程中是极其重要的问题。Lasso算法则是⼀种能够实现指标集合精简的估计⽅法。
Lasso(Least absolute shrinkage and lection operator, Tibshirani(1996))⽅法是⼀种压缩估计。它通过构造⼀个罚函数得到⼀个较为精炼的模型,使得它压缩⼀些系数,同时设定⼀些系数为零。因此保留了⼦集收缩的优点,是⼀种处理具有复共线性数据的有偏估计。
Lasso 的基本思想是在回归系数的绝对值之和⼩于⼀个常数的约束条件下,使残差平⽅和最⼩化,从⽽能够产⽣某些严格等于0的回归系数,得到可以解释的模型。R的Lars 算法的软件包提供了Lasso编程,我们根据模型改进的需要,可以给出Lasso算法,并利⽤AIC准则和BIC准则给统计模型的变量做⼀个截断,进⽽达到降维的⽬的。因此,我们通过研究Lasso可以将其更好的应⽤到变量选择中去。[]
lasso estimate具有shrinkage和lection两种功能,shrinkage这个不⽤多讲,本科期间学过回归分析的同学应该都知道岭估计会有shrinkage的功效,lasso也同样。关于lection功能,Tibshirani提出,当t值⼩到⼀定程度的时候,lasso estimate会使得某些回归系数的估值是0,这确实是起到了变量选择的作⽤。当t不断增⼤时,选⼊回归模型的变量会逐渐增多,当t增⼤到某个值时,所有变量都⼊选了回归模型,这个时候得到的回归模型的系数是通常意义下的最⼩⼆乘估计。从这个⾓度上来看,lasso也可以看做是⼀种逐步回归的过程模型选择本质上是寻求模型稀疏表达的过程,⽽这种过程可以通过优化⼀个“损失”⼗“惩罚”的函数问题来完成。
三、与普通最⼩⼆乘法的区别
使⽤最⼩⼆乘法拟合的普通线性回归是数据建模的基本⽅法。其建模要点在于误差项⼀般要求独⽴同分布(常假定为正态)零均值。t 检验⽤来检验拟合的模型系数的显著性,F检验⽤来检验模型的显著性(⽅差分析)。如果正态性不成⽴,t检验和F检验就没有意义。
怀孕还有白带吗对较复杂的数据建模(⽐如⽂本分类,图像去噪或者基因组研究)的时候,普通线性回归会有⼀些问题:
(1)预测精度的问题 如果响应变量和预测变量之间有⽐较明显的线性关系,最⼩⼆乘回归会有很⼩的偏倚,特别是如果观测数量n远⼤于预测变量p时,最⼩⼆乘回归也会有较⼩的⽅差。但是如果n和p⽐较接近,则容易产⽣过拟合;如果n
(2)模型解释能⼒的问题 包括在⼀个多元线性回归模型⾥的很多变量可能是和响应变量⽆关的;也有可能产⽣多重共线性的现象:即多个预测变量之间明显相关。这些情况都会增加模型的复杂程度,削弱模型的解释能⼒。这时候需要进⾏变量选择(特征选择)。有关桥的诗歌
双鱼座本周运势
针对OLS的问题,在变量选择⽅⾯有三种扩展的⽅法: (1)⼦集选择 这是传统的⽅法,包括逐步回归和最优⼦集法等,对可能的部分⼦集拟合线性模型,利⽤判别准则 (如AIC,BIC,Cp,调整R2 等)决定最优的模型。 (2)收缩⽅法(shrinkage method) 收缩⽅法⼜称为正则化(regularization)。主要是岭回归(ridge regression)和lasso回归。通过对最⼩⼆乘估计加⼊罚约束,使某些系数的估计为0。 (3)维数缩减 主成分回归(PCR)和偏最⼩⼆乘回归(PLS)的⽅法。把p个预测变量投影到m维空间(m
四、岭回归、lasso回归和elastic net三种正则化⽅法
1.岭回归
最⼩⼆乘估计是最⼩化残差平⽅和(RSS):
岭回归在最⼩化RSS的计算⾥加⼊了⼀个收缩惩罚项(正则化的l2范数)
这个惩罚项中lambda⼤于等于0,是个调整参数。各个待估系数越⼩则惩罚项越⼩,因此惩罚项的加⼊有利于缩减待估参数接近于0。重点在于lambda的确定,可以使⽤交叉验证或者Cp准则。
岭回归优于最⼩⼆乘回归的原因在于⽅差-偏倚选择。随着lambda的增⼤,模型⽅差减⼩⽽偏倚(轻微的)增加。
灿烂的烟火 岭回归的⼀个缺点:在建模时,同时引⼊p个预测变量,罚约束项可以收缩这些预测变量的待估系数接近0,但并⾮恰好是0(除⾮lambda为⽆穷⼤)。这个缺点对于模型精度影响不⼤,但给模型的解释造成了困难。这个缺点可以由lasso来克服。(所以岭回归虽然减少了模型的复杂度,并没有真正解决变量选择的问题)
2、lasso
lasso是在RSS最⼩化的计算中加⼊⼀个l1范数作为罚约束:
casual
l1范数的好处是当lambda充分⼤时可以把某些待估系数精确地收缩到0。
关于岭回归和lasso当然也可以把它们看做⼀个以RSS为⽬标函数,以惩罚项为约束的优化问题。
3、调整参数lambda的确定
交叉验证法。对lambda的格点值,进⾏交叉验证,选取交叉验证误差最⼩的lambda值。最后,按照得到的lambda值,⽤全部数据重新拟合模型即可。
4、elastic net
elastic net融合了l1范数和l2范数两种正则化的⽅法,上⾯的岭回归和lasso回归都可以看做它的特例:
elastic net对于p远⼤于n,或者严重的多重共线性情况有明显的效果。 对于elastic net,当alpha接近1时,elastic net表现很接近lasso,但去掉了由极端相关引起的退化化或者奇怪的表现。⼀般来说,elastic net是岭回归和lasso的很好的折中,当alpha从0变化到1,⽬标函数的稀疏解(系数为0的情况)也从0单调增加到lasso的稀疏解。
LASSO的进⼀步扩展是和岭回归相结合,形成Elastic Net⽅法。[]
壶浆5、岭回归与lasso算法
这两种⽅法的共同点在于,将解释变量的系数加⼊到Cost Function中,并对其进⾏最⼩化,本质上是对过多的参数实施了惩罚。⽽两种⽅法的区别在于惩罚函数不同。但这种微⼩的区别却使LASSO有很多优良的特质(可以同时选择和缩减参数)。下⾯的公式就是在线性模型中两种⽅法所对应的⽬标函数:
公式中的lambda是重要的设置参数,它控制了惩罚的严厉程度,如果设置得过⼤,那么最后的模型参数均将趋于0,形成拟合不⾜。如果设置得过⼩,⼜会形成拟合过度。所以lambda的取值⼀般需要通过交叉检验来确定。
岭回归的⼀个缺点:在建模时,同时引⼊p个预测变量,罚约束项可以收缩这些预测变量的待估系数接近0,但并⾮恰好是0(除⾮lambda为⽆穷⼤)。这个缺点对于模型精度影响不⼤,但给模型的解释造成了困难。这个缺点可以由lasso来克服。(所以岭回归虽然减少了模型的复杂度,并没有真正解决变量选择的问题)
五、LARS算法对lasso的贡献[]
LAR把Lasso (L1-norm regularization)和Boosting真正的联系起来,如同打通了任督⼆脉。LAR结束了⼀个晦涩的时代:在LAR之前,有关Sparsity的模型⼏乎都是⼀个⿊箱,它们的数学性质(更不要谈古典的⼏何性质了)⼏乎都是缺失。
近年来兴起的Compresd nsing(Candes & Tao, Donoho)也与LAR⼀脉相承,只是更加强调L1-norm regularization其他⽅⾯的数学性质,⽐如Exact Recovery。我觉得这是⼀个问题的多个⽅⾯,Lasso关注的是构建模型的准确性,Compresd nsing关注的是变量选择的准确性。
六、变量选择
当我们使⽤数据训练分类器的时候,很重要的⼀点就是要在过度拟合与拟合不⾜之间达成⼀个平衡。防⽌过度拟合的⼀种⽅法就是对模型的复杂度进⾏约束。模型中⽤到解释变量的个数是模型复杂度的⼀种体现。控制解释变量个数有很多⽅法,例如变量选择(feature lection),即⽤filter或wrapper⽅法提取解释变量的最佳⼦集。或是进⾏变量构造(feature construction),即将原始变量进⾏某种映射或转换,如主成分⽅法和因⼦分析。变量选择的⽅法是⽐较“硬”的⽅法,变量要么进⼊模型,要么不进⼊模型,只有0-1两种选择。但也有“软”的⽅法,也就是Regularization类⽅法,例如岭回归(Ridge Regression)和套索⽅法(LASSO:least absolute shrinkage and lection operator)。