2013年12月六级作文稀疏性:信号稀疏矩阵稀疏稀疏的发展史
在最初,稀疏性⾃然地产⽣于信号处理领域,因为⾃然界中的信号低频居多,⾼频部分基本都是噪声,因此使⽤⼩波或傅⽴叶做基矩阵时,表达系数往往只在⼏个低频的基上⽐较⼤,⽽⾼频的基所对应的系数基本都接近零。Donoho等⼈为此提出了对表达系数做soft-thresholding,去掉⾼频分量,从⽽能滤掉噪声提升信号恢复效果。由于这些基矩阵是正交的,可以证明\min\|y-
dress的用法
Ax\|_2^2+\lamba\|x\|_1的解为对A'y做soft-thresholding。后来⼈们脱离信号处理的背景,开始考虑⼀般性的基矩阵A,并把上⾯的问题当作对最⼩⼆乘的正则化来考虑,从⽽引出了LASSO(Tibshirani),以及压缩感知(Candes)等⼈的⼯作。
事实上对最⼩⼆乘做l2正则化早已有之(Stein, 1956 ),因此考虑l1正则化也是⼀个⾃然的思路。这类正则化背后的基本原则都是bias-variance tradeoff,即降低模型复杂度,虽然牺牲⼀点bias,但通过⼤⼤降低variance⽽从整体上提升预测精度。这在⾼维问题(high variance)中是⾮常常⽤的⼿段,这种⼿法甚⾄⼏乎贯穿了整本。l1正则化的另⼀个新意在于引⼊了稀疏性,从⽽给模型带来了解释性(Model interpretability),即根据⾮零系数所对应的基的实际意义来解释模型的实际意义(例如)。注意,利⽤l2等传统⽅法可以得到⼤量很⼩的系数,似乎可以额外做⼀步截断来获得⼤量为零的系数。但需要强调的是:零和⾮零的⼩数有本质区别。因为⾸先要确定什么才是⾜够⼩,这⼀点就相当于引⼊额外的参数repost是什么意思中文
(即截断阈值),带来额外的误差(实际中要⼈⼯调整这个截断阈值)。系数也可能有不同的scale,有的时候0.001实际是很⼤的系数却被截断了,⽽有的时候0.1实际是很⼩却被留下了。另外,有的求解算法要引⼊⼀些数值计算上的近似策略,使得实际得到的⼩系数实际上有可能是数值计算不稳定所造成的,这就更难以区分到底其实际为零还是⾮零。⽽l1的解,零与⾮零是确切的,⽤LARS等⽅法画出解随lambda变化的图甚⾄都能看到在lambda取到某些值时某些系数开始从零变为⾮零。这可以说是⼀个优势。
klo>四级准考证>t shirt>初二英语试卷分析2006年以后,稀疏表⽰产⽣了⼏个有趣的新思路。⼀是将系数的稀疏性,拓展到矩阵奇异值的稀疏性上。如果矩阵是⼀⾏⾏(或⼀列列)数据构成的,那么其⾮零奇异值个数就是数据真正所在的低维⼦空间的维数。传统的PCA⽅法即源⾃于此,通过观察奇异值下降的曲线,做个⼈⼯的截断来判断降维的维数(因此可以看作Donoho那种思路在矩阵上的对应版本)。Candes等⼈提出了Robust PCA,通过对矩阵施加奇异值的稀疏性(从l1变成了nuclear norm)来⾃动学得降维的维数,同时还能对原始矩阵去噪(可以看我写的另⼀个答案)。这也引出了另⼀个新思路:⼀般来说数据矩阵可能存在野点,即少部分⾏被污染了,因此可以求取某个⾏稀疏的野点矩阵,来“净化”原始矩阵。这⾥稀疏性就是施加在待求解的野点矩阵上。还有⼀个新思路是Zou & Hastie提出的Spar PCA,其⼤意是对loading vector施加稀疏性,从⽽可以对主成分做模型解释。总的来说,这个领域的⼈现在基本都在矩阵上搞新思路(有些⼈甚⾄开始玩更⾼阶的张量了)。
breeds
你好吗英文
值得⼀提的是,本⽂提到的所有⼈物,均出⾃stanford统计系。
事实上,这个领域的经典⽂章⼤部分也都出⾃这⾥。dream high什么意思