决策树(DecisionTree)原理小结

更新时间:2023-06-28 05:50:54 阅读: 评论:0

决策树(DecisionTree)原理⼩结
决策树(Decision Tree)原理⼩结
适⽤问题:多类分类、回归
模型特点:分类树、回归树
模型类型:判别模型
损失函数:对数似然损失
学习策略:正则化的极⼤似然估计
学习算法:特征选择、树的⽣成、树的剪枝
1. 决策树
1.1 决策树基础概念
    适⽤问题: 多类分类(ID3,C4.5,CART);回归(CART)
    主要优点:
具有可读性(if-then 规则,推理过程容易理解);
分类速度快
可⾃动忽略对⽬标变量没有贡献的属性变量,也可为判断属性变量的重要性、减少变量的数⽬提供参考
    决策树可以看成是⼀个if-then规则的集合,决策树的根结点到叶⼦结点的⼀条路径构成⼀条规则。决策树的路径或其对应的if-then规则的集合具有⼀个重要的性质:互斥并且完备。即每个实例都被⼀条且只被⼀条路径所覆盖。
    决策树还可以看成是在给定特征条件下类的条件概率分布,这⼀条件概率分布定义在特征空间的⼀个划分上。
1.2 决策树的学习
    决策树学习的本质: 从训练集中归纳出⼀组分类规则。或者从另⼀⾓度看,决策树学习是由训练集估计条件概率模型。
    决策树的⽬标: 找出⼀个与训练数据⽭盾较⼩的决策树(不相⽭盾的决策树可能有多个,也可能⼀个也没有),同时具有很好的泛化能⼒。
    ⽤损失函数表⽰⽬标: 正则化的极⼤似然函数。
    学习策略: 以损失函数为⽬标函数的最⼩化。
    学习的算法: 通常是⼀个递归的选择最优特征,并根据该特征对训练数据进⾏分割,使得各个⼦数据集有⼀个最好的分类的过程。此过程对应着特征空间的划分,也对应着树的⽣成。
    树的剪枝: 避免过拟合,是模型更泛化。
决策树分类边界的特点 :
与坐标轴平⾏(每个特征可视为坐标空间的⼀个轴)
1.3 决策树学习的3个步骤
特征选择:信息增益(ID3),信息增益率(C4.5),基尼系数(CART)特征选择选取对训练数据具有分类能⼒的特征,是决定使⽤哪个特征来划分特征空间。决策树的⽣成:3种算法(ID3,C4.5,CART)
决策树的剪枝:预剪枝,后剪枝预剪枝:在决策树⽣成过程中,对每个节点在划分前进⾏估计,若当前划分不能带来决策树泛化性能提升,则停⽌划分,并将当前节点标记为叶⼦结点。
优点:很多分⽀都没有“展开”,降低了过拟合的风险,同时显著减少了训练时间开销和测试开销。
缺点:预剪枝基于“贪⼼”本质,可能会带来⽋拟合风险,因为有些分⽀虽然当前划分不能暂时不能提升性能,但后续展开划分后却有可能带来性能的提升。后剪枝:先从训练集⽣成⼀个完整的决策树,在⾃底向上的对⾮叶⼦结点进⾏考察,若将该节点对应的⼦树替换成叶⼦结点能带来决策树泛化性能提升,则将该⼦树替换成叶⼦结点。
优点:⽋拟合风险⼩,泛化性能往往优于预剪枝。缺点:树⽣长完全后才进⾏剪枝,并且要⾃底向上对树中所有⾮叶⼦结点进⾏逐⼀考察,训练时间开销要⽐预剪枝⼤得多。树的⽣成只考虑局部最优,树的剪枝考虑全局最优。
2. ID3算法
but的用法    ID3算法使⽤信息增益作为特征选择的准则,每次选择信息增益最⼤的特征。信息增益与"熵"的概念联系紧密,关于各种“熵”可以参考的第1节。
2.1 特征选择准则:信息增益(information gain )长颈鹿卡通画
    信息增益的计算要⽤到熵,这⾥给出简要的熵的⼀些概念:熵是随机变量不确定性的度量。熵只依赖于X的概率分布,与X的取值⽆关。所以X的熵也可记为。
条件熵表⽰在已知随机变量X的条件下随机变量Y的不确定性。条件熵定义为X给定条件下Y的条件概率分布的熵对X的数学期望:信息增益表⽰得知特征X的信息⽽使得类Y的信息的不确定性减少的程度。
特征A对训练数据集D的信息增益g(D,A)等价于训练集中类与特征的互信息:
经验熵H(D)表⽰对数据集D进⾏分类的不确定性,经验条件熵H(D|A)表⽰在特征A给定条件下对数据集D分类的不确定性。信息增益的计算:
H (X )=−p logp i =1∑
n
i i H (p )H (Y ∣X )H (Y ∣X )H (Y ∣X )=p H (Y ∣X =x )
i =1∑i i =−p (x )p (y ∣x )logp (y ∣x )i =1∑n j =1∑
n i j i j i g (D ,A )=H (D )−H (D ∣A )
    其中有K个类,表⽰属于类k的样本集合,特征A有n个取值,可以将数据集D划分为n个⼦集(i=1,2…,n),为⾃⼰中属于类的样本集合:信息增益⼤的特征具有更强的分类能⼒。计算数据集或⼦集的每个特征的信息增益,选择信息增益最⼤的特征。
信息增益的问题:会偏向于选择取值较多的特征。
2.2 决策树⽣成算法ID3算法核⼼:应⽤信息增益准则选择特征。递归的构建决策树。ID3相当于⽤极⼤似然法
进⾏概率模型的选择。
2.3 决策树剪枝算法
    ID3算法只有树的⽣成,没有剪枝,所以该算法⽣成的树容易产⽣过拟合。
2.4 算法评价
    算法评价摘⾃刘建平⽼师的 。不⾜:ID3没有考虑连续特征,⽐如长度,密度都是连续值,这限制了ID3的⽤途。ID3采⽤信息增益⼤的特征优先建⽴树节点。在相同条件下,会偏向于选择取值较多的特征。ID3算法对于缺失值的情况没有做考虑。没有考虑过拟合的问题,即没有“剪枝”。
黄河远上白云间一片孤城万仞山3. C
夸美女漂亮的成语4.5算法
    C4.5算法对ID3进⾏了改进,具体做了哪些改进呢?
C k
D i D ik D i C k H (D )=−log k =1∑K ∣D ∣∣C ∣k ∣D ∣
∣C ∣
k H (D ∣A )=H (D )=i =1∑n ∣D ∣∣D ∣i i −log i =1∑n ∣D ∣∣D ∣i k =1∑K
∣D ∣i ∣D ∣ik ∣D ∣i ∣D ∣我的梦想100字
ik g (D ,A )=H (D )−H (D ∣A )
针对ID3没有连续值的情况,C4.5将连续特征离散化的⽅法,选择信息增益最⼤的分割点作为连续特征的⼆元离散分类点。使⽤信息增益⽐作为特征选择的准则,每次选择信息增益⽐最⼤的特征。需要注意的是,与离散属性不同的是,如果当前节点为连续属性,则该属性后⾯还可以参与⼦节点的产⽣选择过程。针对ID3中信息增益会偏向于选择取值较多的特征的问题,C4.5采⽤了“信息增益⽐”即信息增益g(D,A)与的⽐值作为特征选择准则。取值多的特征其信息增益g(D,A)会更⼤,但是其对应的特征熵也会更⼤,以其作为分母,可对信息增益对取值较多的特征的偏好起到校正的作⽤。
针对缺失值的处理有2个问题:
(1)当样本的某些特征缺失时如何选择划分属性?
这⾥将信息增益的计算式推⼴为:
其中表⽰在属性A上没有缺失的样本集合,表⽰的占⽐即。(2)给定划分属性后,样本的在该属性上的值缺失,那该样本如何进⾏划分?
将缺失特征的样本同时划分⼊所有的⼦节点,且样本权值在特征A对应的不同取值的⼦节点中调整为,其中表⽰中特征A取值为a的样本占⽐。
对于过拟合的问题,C4.5引⼊了正则化系数进⾏初步的剪枝。关于剪枝详见本章第4节内容和CART算
法部分。3.1 特征选择准则:信息增益⽐(information gain ratio )
信息增益⽐的计算:
怎样学习好信息增益⽐g(D,A):
其中g(D,A)即信息增益,表⽰训练数据集D关于特征A的值的熵,即按特征A的取值对D进⾏划分后分类的不确定性,其计算公式为:。需注意
的是:增益率准则会偏向于取值较少的特征,因此C4.5不是直接选择增益率最⼤的候选划分属性/特征,⽽是使⽤了⼀个启发式:先从候选划分属性中找出信息增益⾼于平均⽔平的属性,再从中选择增益率最⾼的。
3.2 决策树⽣成算法
3.3 决策树剪枝算法
    C4.5引⼊了正则化系数进⾏初步的剪枝。关于剪枝详见本章第4节内容和CART算法部分。
幼儿游戏的特点3.4 算法评价
用水果做动物    算法评价摘⾃刘建平⽼师的 。
    C4.5虽然改进或者改善了ID3算法的⼏个主要的问题,仍然有优化的空间。
H (D )A H (D )A g (D ,A )=ρ∗g (,A )D ~=ρ∗(H ()−H (∣A ))
D ~D ~D ~ρD ~∣D ∣∣D ∣~w x ∗r
a ~w x r a ~D ~
g (D ,A )=R H (D )
A g (D ,A )
H (D )A H (D )=A −log i =1∑n
∣D ∣∣D ∣i ∣D ∣∣D ∣
i
不⾜:由于决策树算法⾮常容易过拟合,因此对于⽣成的决策树必须要进⾏剪枝。剪枝的算法有⾮常多,剪枝⽅法仍有优化的空间。C4.5⽣成的是多叉树,如果采⽤⼆叉树,可以提⾼运算效率。C4.5只能⽤于分类,如果能将决策树⽤于回归的话可以扩⼤它的使⽤范围。
C4.5由于使⽤了熵模型,⾥⾯有⼤量的耗时的对数运算,如果是连续值还有⼤量的排序运算。如果能够加以模型简化可以减少运算强度但⼜不牺牲太多准确性的话,那就更好了。
4. 剪枝算法
    为什么要剪枝?:决策树的⽣成,会过多的考虑如何提⾼对训练数据集的正确分类,从⽽构建出过于复杂的决策树。
    剪枝:将已经⽣成的树进⾏简化的过程。
    剪枝:通过极⼩化决策树的整体的损失函数来实现。
    决策树学习的 损失函数 可以定义为:
其中树T的叶⼦结点个数为|T|,t是叶⼦结点,Nt表⽰叶⼦结点t有Nt个样本点,其中属于k类的样本点有个,。表⽰叶⼦结点t上的经验熵,。
即,这时有:其中,C(T)表⽰模型对训练数据的预测误差,即模型与训练数据的拟合程度,|T|表⽰模型的复杂度,参数控制两者之间的影响。越⼤,将促使选择简单的模型/树,较⼩,将促使选择复杂的模型/树。
    剪枝,就是当确定时,选择损失函数最⼩的模型,即损失函数最⼩的⼦树。确定时,⼦树越⼤,与训练数据拟合越好,但模型越复杂;⼦树越⼩,模型复杂度低,但和训练数据的拟合就不好。损失函数表⽰了对两者的平衡。    决策树的⽣成只考虑了通过提⾼信息增益或者信息增益⽐来对训练数据更好的拟合,决策树的剪枝则通过优化损失函数还考虑了减⼩模型复杂度。    决策树的⽣成学习局部的模型,决策树剪枝学习整体的模型。    损失函数的极⼩化等价于正则化的极⼤似然估计,所以利⽤损失函数最⼩化进⾏剪枝就是⽤正则化的极⼤似然估计进⾏模型选择。加深考虑剪枝的损失函数与正则化极⼤似然估计的理解:
极⼤似然估计:就是在现已有的“事实”下(即已有的训练数据集下),使得model以更⼤(最⼤)概率拟合现有数据分布;⽽C(T)极⼩化,即经验熵就要越⼩,即叶⼦结点中类别越“pure”,即训练集拟合越充分;
⽽正则化的极⼤似然估计与损失函数等价,即通过剪枝(剪枝可理解为正则化⼿段)来控制模型的复杂度,从⽽达到降低过拟
合风险。
5. CART 算法C (T )=αN H (T )+t =1∑∣T ∣t t α∣T ∣
N tk α≥0H (T )t H (T )=
t −log k =1∑K
N t N tk N t N tk C (T )=N H (T )=t =1∑∣T ∣t t N log t =1∑∣T ∣k =1∑K tk N t N tk
C (T )=αC (T )+α∣T ∣
αααααC (T )αC (T )αH (T )t C (T )α

本文发布于:2023-06-28 05:50:54,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/1056735.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   决策树   增益   信息
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图