决策树(decisiontree)(四)——缺失值处理
身份证号查四级成绩决策树(decision tree)(四)——缺失值处理
** 注:本博客为周志华⽼师《机器学习》读书笔记,博客以西⽠书为基础写成。
2019年4⽉13⽇更新:1、订正了⼤家评论中的⼀个笔误。2、增加测试样本中属性有缺失值该如何处理。
qe是什么意思啊决策树系列博客:
现实⽣活中的数据集中的样本通常在某系属性上是缺失的,如果属性值缺失的样本数量⽐较少,我们可以直接简单粗暴的把不完备的样本删除掉,但是如果有⼤量的样本都有属性值的缺失,那么就不能简单地删除,因为这样删除了⼤量的样本,对于机器学习模型⽽⾔损失了⼤量有⽤的信息,训练出来的模型性能会受到影响。这篇博客就来介绍在决策树中是如何处理属性值有缺失的样本的,本篇博客使⽤的数据集如下(数据集来⾃周志华《机器学习》):
阀芯 英文在决策树中处理含有缺失值的样本的时候,需要解决两个问题:
如何在属性值缺失的情况下进⾏划分属性的选择?(⽐如“⾊泽”这个属性有的样本在该属性上的值是缺失的,那么该如何计算“⾊泽”的信息增益?)
复旦大学怎么样给定划分属性,若样本在该属性上的值是缺失的,那么该如何对这个样本进⾏划分?(即到底把这个样本划分到哪个结点⾥?)
下⾯就来介绍如何解决这两个问题:(由于CSDN博客更新了博客编辑器,原来⽤的富⽂本编辑器,导致我修改完,长截图的图⽚压缩很严重,不得已把图⽚分成了三段,相⽐较⼀张图⽚,中间的间隙
等一下英语
没法处理,微微影响阅读体验,请您见谅)
conquently
⽐较发现,“纹理”在所有属性中的信息增益值最⼤,因此,“纹理”被选为划分属性,⽤于对根节点进⾏划分。划分结果为:“纹理=稍糊”分⽀:{7,9,13,14,17},“纹理=清晰”分⽀:{1,2,3,4,5,6,15},“纹理=模糊”分⽀:{11,12,16}。如下图所⽰:
那么问题来了,编号为{8,10}的样本在“纹理”这个属性上是缺失的,该被划分到哪个分⽀⾥?前⾯讲过了,这两个样本会同时进⼊到三个分⽀⾥,只不过进⼊到每个分⽀后权重会被调整(前⾯也说过,在刚开始时每个样本的权重都初始化为1)。编号为8的样本进⼊到三个分⽀⾥后,权重分别调整为5/15,7/15 和 3/15;编号为10的样本同样的操作和权重。因此,经过第⼀次划分后的决策树如下图所⽰:peach的复数形式
我们都知道构造决策树的过程是⼀个递归过程,原来不打算继续介绍递归过程了,但是因为权重发⽣了变化,所以继续介绍下递归过程。接下来,递归执⾏“纹理=稍糊”这个分⽀,样本集D = {7,8,9,10,13,14,17},共7个样本。如下图所⽰:info什么意思
visit的音标
下⾯来看具体的计算过程:
典雅的意思