【机器学习】：特征筛选方法

更新时间:2023-04-26 17:40:58 阅读：评论：0

2023年4月26日发(作者：冰心的繁星春水)

【机器学习】：特征筛选⽅法

⼀.基于统计值的筛选⽅法关于新年的儿歌

1.过滤法：选择特征的时候，不管模型如何，⾸先统计计算该特征和和label的⼀个相关性，⾃相关性，发散性等等统计指标。

优点：特征选择开销⼩，有效避免过拟合

缺点：没有考虑后续的学习器来打女孩屁屁选择特征，减弱了学习器的学习能⼒(因为某些特征可能和label算出来相关性不⼤，但是可能和其他特征交

叉后，会和label具有很强的关联性)

2.单变量筛亚洲世界之最选法：

a：缺失值占⽐

b：⽅差

c：频数

d：信息熵

3.多变量筛选法

计算多个变量之间⾃⼰的相关性，绘制相应的相关性图，可以使⽤⽪尔逊相关系数，斯⽪尔曼相关系数等等来作为衡量。尤其是是在线性模

型当中，两个共线性的模型可能对模型并不具备促进作⽤，反⽽可能会带来⼀些灾难性的后果。树模型则可以不考虑这种基于多变量的筛选

⽅法。

⼆.基于模型验证的筛选⽅法

基于模型的验证集进⾏打发觉的近义词分，是⼀种⽐较靠谱的⽅法，也是和最终模型的打分强相关的。

什么意思呢？也就是说我们每增加⼀些特征或者减少⼀些特征，我们就⽤来训练出⼀个模型，进⾏cv，也就是cross validation进⾏交叉验

证，看模型的准确度是否是上升了。

我们基于这种⽅法对其进⾏改进，还有⼀种时间开销⽐较⼩的⽅法则是；排列重要性

也就是说，我们可以使⽤排列重要性这种⽅法对模型的特征进⾏验证和筛选。这种⽅法对于树模型来说基本上来说是最好的⽅法了。

如下图所⽰：

当我们已经train出⼀个模型之后，我们对这个模型某⼀个特征进⾏打乱，再对当前的数据进⾏预测，看准确度多少，如果模型的准确度下

降⽐较多，那么说明该变脸大量对模型的影响很⼤。如果准确度下降不多，则说明该变量对模型的影响不⼤，完全可以将其剔除。这是⼀个⼗分

有关于心情的句子效且时间复杂度⽐较低的⼀个特征筛选的⽅法，在我们进⾏特征⼯程的时候可以经常使⽤这个⽅法，这个⽅法的代码实现起来也并不是很

难。

三.基于模型嵌⼊的筛选⽅法

特征选择被嵌⼊到学习器的训练过程当阳光总在风雨后作文中，利⽤模型参数来计算特征重要性。

线性模型：使⽤线性模型的系数⼤⼩进⾏衡量(⽐如逻辑回归和线性回归当中某个包粽子作文特征的前⾯的系数，看是否significant)

树模型：使⽤特征分裂过程当中的信息增益进⾏衡量

深度学习：使⽤注意⼒机制的权重进⾏衡量

但是模型认为重要的特征，不⼀定重要！因为不重要的特征可能和其他特小学生事迹征之间具有强相关性，因此如果剔除，也可能会对模型的效果并不

⼀定有⼀定的提升。模型认为不重要的，也有可能重要。

本文发布于:2023-04-26 17:40:58，感谢您对本站的认可！

标签：筛选法

留言与评论（共有 0 条评论）