Python特征选择--方差特征选择(Removingfeatureswithlowvar。。。

更新时间:2023-05-11 11:59:50 阅读: 评论:0

Python特征选择--⽅差特征选择
(Removingfeatureswithlowvar。。。
最近在看Python中机器学习之特征选择,为了避免遗忘,特记⼀波。
Removing features with low variance,即低⽅差过滤特征选择。其原理也是⽐较简单,计算样本中每⼀个特征值所对应的⽅差,如果低于阈值,则进⾏过滤(剔除)。默认情况下,将会剔除所有零⽅差特征,⽅差为0表⽰样本的特征取值没发⽣变化。
假设我们有⼀个特征是由0和1组成的数据集,利⽤Removing features with low variance⽅法移除那些在整个数据集中特征值为0或者为1的⽐例超过p(同⼀类样本所占的⽐例)的特征。0 1 组成的数据集满⾜伯努利( Bernoulli )分布,因此其特征变量的⽅差为:p(1-p)。
在Removing features with low variance⽅法中,将剔除⽅差低于p(1-p)的特征。在Pyhon的sklearn模块中,具有该⽅法的实现,具体使⽤如下。
from sklearn.feature_lection import VarianceThreshold #导⼊python的相关模块
X=[[0,0,1],[0,1,0],[1,0,0],[0,1,1],[0,1,0],[0,1,1]]#其中包含6个样本,每个样本包含3个特征。
l=VarianceThreshold(threshold=(0.8*(1-0.8)))#表⽰剔除特征的⽅差⼤于阈值的特征Removing features with low variance
l.fit_transform(X)#返回的结果为选择的特征矩阵
print(l.fit_transform(X))#
输出结果为:
发现剔除的是第⼀个特征,保留的是后2个特征。从第⼀列特征可以看出。1的个数为1个,0为5个,0的⽐例为5/6,超过了0.8,且
5/36<4/25(阈值).因此将此特征剔除,形成新的特征矩阵。

本文发布于:2023-05-11 11:59:50,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/104499.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   剔除   样本   数据
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图