【机器学习】:特征筛选方法

更新时间:2023-04-26 17:40:58 阅读: 评论:0


2023年4月26日发(作者:冰心的繁星春水)

【机器学习】:特征筛选⽅法

.基于统计值的筛选⽅法关于新年的儿歌

1.过滤法:选择特征的时候,不管模型如何,⾸先统计计算该特征和和label的⼀个相关性,⾃相关性,发散性等等统计指标。

优点:特征选择开销⼩,有效避免过拟合

缺点:没有考虑后续的学习器来打女孩屁屁 选择特征,减弱了学习器的学习能⼒(因为某些特征可能和label算出来相关性不⼤,但是可能和其他特征交

叉后,会和label具有很强的关联性)

2.单变量筛亚洲世界之最 选法:

a:缺失值占⽐

b:⽅差

c:频数

d:信息熵

3.多变量筛选法

计算多个变量之间⾃⼰的相关性,绘制相应的相关性图,可以使⽤⽪尔逊相关系数,斯⽪尔曼相关系数等等来作为衡量。尤其是是在线性模

型当中,两个共线性的模型可能对模型并不具备促进作⽤,反⽽可能会带来⼀些灾难性的后果。树模型则可以不考虑这种基于多变量的筛选

⽅法。

.基于模型验证的筛选⽅法

基于模型的验证集进⾏打发觉的近义词 分,是⼀种⽐较靠谱的⽅法,也是和最终模型的打分强相关的。

什么意思呢?也就是说我们每增加⼀些特征或者减少⼀些特征,我们就⽤来训练出⼀个模型,进⾏cv,也就是cross validation进⾏交叉验

证,看模型的准确度是否是上升了。

我们基于这种⽅法对其进⾏改进,还有⼀种时间开销⽐较⼩的⽅法则是;排列重要性

也就是说,我们可以使⽤排列重要性这种⽅法对模型的特征进⾏验证和筛选。这种⽅法对于树模型来说基本上来说是最好的⽅法了。

如下图所⽰:

当我们已经train出⼀个模型之后,我们对这个模型某⼀个特征进⾏打乱,再对当前的数据进⾏预测,看准确度多少,如果模型的准确度下

降⽐较多,那么说明该变脸大 量对模型的影响很⼤。如果准确度下降不多,则说明该变量对模型的影响不⼤,完全可以将其剔除。这是⼀个⼗分

有关于心情的句子 效且时间复杂度⽐较低的⼀个特征筛选的⽅法,在我们进⾏特征⼯程的时候可以经常使⽤这个⽅法,这个⽅法的代码实现起来也并不是很

难。

.基于模型嵌⼊的筛选⽅法

特征选择被嵌⼊到学习器的训练过程当阳光总在风雨后作文 中,利⽤模型参数来计算特征重要性。

线性模型:使⽤线性模型的系数⼤⼩进⾏衡量(⽐如逻辑回归和线性回归当中某个包粽子作文 特征的前⾯的系数,看是否significant)

树模型:使⽤特征分裂过程当中的信息增益进⾏衡量

深度学习:使⽤注意⼒机制的权重进⾏衡量

但是模型认为重要的特征,不⼀定重要!因为不重要的特征可能和其他特小学生事迹 征之间具有强相关性,因此如果剔除,也可能会对模型的效果并不

⼀定有⼀定的提升。模型认为不重要的,也有可能重要。


本文发布于:2023-04-26 17:40:58,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/515858.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:筛选法
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图