【机器学习】:特征筛选⽅法
⼀.基于统计值的筛选⽅法关于新年的儿歌
1.过滤法:选择特征的时候,不管模型如何,⾸先统计计算该特征和和label的⼀个相关性,⾃相关性,发散性等等统计指标。
优点:特征选择开销⼩,有效避免过拟合
缺点:没有考虑后续的学习器来打女孩屁屁 选择特征,减弱了学习器的学习能⼒(因为某些特征可能和label算出来相关性不⼤,但是可能和其他特征交
叉后,会和label具有很强的关联性)
2.单变量筛亚洲世界之最 选法:
a:缺失值占⽐
b:⽅差
c:频数
d:信息熵
3.多变量筛选法
计算多个变量之间⾃⼰的相关性,绘制相应的相关性图,可以使⽤⽪尔逊相关系数,斯⽪尔曼相关系数等等来作为衡量。尤其是是在线性模
型当中,两个共线性的模型可能对模型并不具备促进作⽤,反⽽可能会带来⼀些灾难性的后果。树模型则可以不考虑这种基于多变量的筛选
⽅法。
⼆.基于模型验证的筛选⽅法
基于模型的验证集进⾏打发觉的近义词 分,是⼀种⽐较靠谱的⽅法,也是和最终模型的打分强相关的。
什么意思呢?也就是说我们每增加⼀些特征或者减少⼀些特征,我们就⽤来训练出⼀个模型,进⾏cv,也就是cross validation进⾏交叉验
证,看模型的准确度是否是上升了。
我们基于这种⽅法对其进⾏改进,还有⼀种时间开销⽐较⼩的⽅法则是;排列重要性
也就是说,我们可以使⽤排列重要性这种⽅法对模型的特征进⾏验证和筛选。这种⽅法对于树模型来说基本上来说是最好的⽅法了。
如下图所⽰:
当我们已经train出⼀个模型之后,我们对这个模型某⼀个特征进⾏打乱,再对当前的数据进⾏预测,看准确度多少,如果模型的准确度下
降⽐较多,那么说明该变脸大 量对模型的影响很⼤。如果准确度下降不多,则说明该变量对模型的影响不⼤,完全可以将其剔除。这是⼀个⼗分
有关于心情的句子 效且时间复杂度⽐较低的⼀个特征筛选的⽅法,在我们进⾏特征⼯程的时候可以经常使⽤这个⽅法,这个⽅法的代码实现起来也并不是很
难。
三.基于模型嵌⼊的筛选⽅法
特征选择被嵌⼊到学习器的训练过程当阳光总在风雨后作文 中,利⽤模型参数来计算特征重要性。
线性模型:使⽤线性模型的系数⼤⼩进⾏衡量(⽐如逻辑回归和线性回归当中某个包粽子作文 特征的前⾯的系数,看是否significant)
树模型:使⽤特征分裂过程当中的信息增益进⾏衡量
深度学习:使⽤注意⼒机制的权重进⾏衡量
但是模型认为重要的特征,不⼀定重要!因为不重要的特征可能和其他特小学生事迹 征之间具有强相关性,因此如果剔除,也可能会对模型的效果并不
⼀定有⼀定的提升。模型认为不重要的,也有可能重要。
本文发布于:2023-04-26 17:40:58,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/fanwen/fan/82/515858.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |