本科生学年论文
题目:从理论到应用——浅谈lasso模型
指导教师:特别的旅行
学院:关于春节的简笔画
题西安邸
姓名:
学号:
班级:
从理论到应用——浅谈lasso模型
笛子独奏曲
会计流程【摘要】
回归模型是我们在处理数据中常用的方法。其中,Lasso模型是一种适用于多重共线性问题,跨界歌王2能够在参数估计的同时实现变量的选择的回归方法。本文从lasso模型的概念谈起,对其起源、思想、与岭回归的比较、通过lar的算法实现等方面进行了探究。另外还使用R语言对简单案例进行lasso模型的应用。最后简述了lasso模型的研究现状。
【abstract】
Regression model is our commonly ud method in processing data. Lasso model is a kind of regression method for multiple linear problems, which can be ud to achieve parameter estimation and variable lection at the same time. This paper starts from the concept of the lasso model, including its origin, ideas, and the comparison of ridge regression, through lar algorithm implementation, etc. In addition, using R language to solve a simple ca through lasso. At last, the rearch status of lasso model is introduced.
【关键词】
Lasso 岭回归 最小角回归 R语言
【写植物的日记key words】
Lasso ridge regression lar R language
一、定义及基本信息
Lasso模型是由Robert Tibshirani在1996年JRSSB上的一篇文章Regression shrinkage and lection via the lasso所提出的一种能够实现指标集合精简的估计方法。在参数估计的同时实现变量的选择(可以解决回归分析中的多重共线性问题)。
全称:Least Absolute Shrinkage and Selection Operator
读音:[læ‵su:] 而不是[‵læso]
Robert Tibshirani 简介:生于1956年7月10日,担任斯坦福大学the Departments of Statistics and Health Rearch and Policy的教授。1985-1998年担任过年了过年了多伦多大学的教授。 他主要研究方向是致力于开发处理复杂数据的分析统计工具。Lasso模式是他最著名的贡
献。同时在著名的 "Generalized Additive Models", "An Introduction to the Bootstrap", and "The Elements of Statistical Learning"三本书中都有他的编著。[1]
二、起源与原理
在常规的回归分析中,假设我们有一组(xi,yi),i=1,2,...,N,其中xi=(xi1,...,xip)T,yi是第i维观测值的回归量的数据。普通最小二乘(OLS)通过最小化残差平方和来进行估计。它对数据的分析不那么令人满意通常有两个原因。一是预测精度:OLS往往偏差较低但方差大;预测精度有时可以用缩小或设置一些系数为0的方法来提高。通过这样做,我们牺牲一点偏差减少预测的方差值,因此可以提高整体预测准确性。第二个原因是可解释性的问题。在大量的预测值中,我们通常想确定一个展现出最强影响的更小的子集。
两个公认优秀的改善OLS估计的方法是子集选择(subt lection)和岭回归(ridge regression)它们都有缺点。子集选择提供了可解释的模型但是可变性非常强,因为它是一个离散的过程——回归量要么保留要么从模型中去掉。小的数据变化就会使得模型的选择改变,这会降低预测准确度。岭回归是连续缩小参数的过程,因此更稳定:然而它不会使得任何参数为0,没办法得出简单的可解释的模型。