统计建模基本方法

更新时间:2023-06-26 20:35:29 阅读: 评论:0

统计建模基本⽅法
数据集:所有属性独⽴的、均等的对最终结果做出贡献。(这是不现实的,现实的数据集属性并不同等重要,也不彼此独⽴。只是通过假设,引出⼀个简单的⽅案,并在实际中表现极佳。)
⽅法:朴素贝叶斯⽅法。
特点:基于贝叶斯规则并“朴素”的假设属性独⽴。只有当事件彼此独⽴时,概率的相乘才是有效的。
想法:使⽤属性值和类别值共现的次数,假设 每个属性时同等重要、彼此独⽴的,来预测新样本的分类。
样本数据:以天⽓数据为例,如下:
outlook (Attribute)temperature
(Attribute)
humidity
(Attribute)
泰安社保>归鸟windy
(Attribute)
play
(Category)
sunny hot high fal no
sunny hot high true no
overcast hot high fal yes
rainy mild high fal yes
rainy cool normal fal yes
rainy cool normal true no
overcast cool normal true yes
sunny mild high fal no
sunny cool normal fal yes
rainy mild normal fal yes
sunny mild normal true yes
overcast mild high true yes
overcast hot normal fal yes
rainy mild high true no
算法实现:下⾯介绍⼀个实现的算法,如下:
(1) 数据统计。统计属性值和类别值⼀同出现的次数。
outlook temperature humidity windy play yes no yes no yes no yes no yes no sunny23hot22high34fal6295 overcast40mild42normal61true33
rainy32cool31
sunny2/93/5hot2/92/5high3/94/5fal6/92/59/145/14 overcast4/90/5mild4/92/5normal6/91/5true3/93/5
rainy3/92/5cool3/91/5
(2) 新样本类别值预测。新样本数据如下:
outlook (Attribute)temperature
(Attribute)
工作疲劳humidity
(Attribute)
windy
(Attribute)
play
(Category)
sunny cool high true?这个简单直观的⽅法基于有条件概率的贝叶斯规则。贝叶斯规则如下:梦见镯子碎了
怎么去法令纹
新样本E的属性值集合表⽰:E={outlook=sunny,temperature=cool,humidity=high,windy=true}
由于属性是独⽴的,将概率相乘得到组合概率为:
根据上述的公式,计算得到组合概率,如下:
类别值为yes的总体似然= 2/9*3/9*3/9*3/9*9/14=0.0053 ;
类别值为no的总体似然= 3/5*1/5*4/5*3/5*5/14=0.0206 ;
通过规范化将这两个结果转化成概率,使它们的概率之和为1:
类别值为yes的概率= 0.0053/(0.0053+0.0206)=20.5%;
类别值为no的概率 = 0.0206/(0.0053+0.0206)=79.5%;
算法说明 :
(1)“似然性”与“或然性”或“ 概率 ”意思相近,都是指某个事件发⽣的肯能性 。但是在统计学中, “似然性”和“或然性”或“概率”⼜有明确的区分。 概率 ⽤于在已知⼀些参数的情况下,预测接下来的观测所得到的结果,⽽似然性则是⽤于在已知某些观测所得到的结果时,对有关事物的性质的参数进⾏估计。
张继元(2) 数据统计存在缺陷,如果某个属性值没有与⼀个类别值⼀起出现在训练集⾥,那么朴素贝叶斯法将会出错。例如,训练数据集
outlook=overcast,总是伴随着结论yes,那么属性值outlook=overcast为no的概率是0,⽆论其他概率值有多⼤,最终no的概率均为0。 在实践中常使⽤拉普拉斯估计器估计频率,将计数结果初始化为1⽽不是0。
缺省值处理:在⼀个训练集中,如果⼀直属性值缺失,它就不被包括在频率的计算中,即忽略掉这个属性。
数值属性处理:下⾯将介绍数值属性处理⽅法,具体如下:
outlook temperature humidity windy play yes no yes no yes no yes no yes no sunny2383858685fal6295 overcast4070809690true33
rainy3268658070
64726595
69717091
7580
7570
7290
形容美好的字
8175
sunny2/93/5平均7374.6平均79.186.2fal6/92/59/145/14
overcast4/90/5
标准
差6.27.9标准差10.29.7true3/93/5
rainy3/92/5
(1) 数值属性处理。
a. 如果知道属性数值遵循某种分布形式,例如正态分布(或者⾼斯分布),那么将⽤这种分布形式的标准估计过程;
b. 如果不知道属性数值的分布形式,那么使⽤“核密度估计”过程,核密度估计并不把属性值的分布假设成任何特定的分布形式。
c. 属性值离散化处理,按照某些规则,将数值属性映射到⼀定的区间内。
我们以正态分布为例,进⾏数值属性处理。
(2) 计算数值属性在每⼀个类别上的平均值、标准差。(具体的计算⽅法省略)
(3) 假设数值属性服从正态分布,概率密度函数如下:
其 概率密度函数 为正态分布的 期望值 μ决定了其位置,其 标准差 σ决定了分布的幅度。
(4) 新样本类别值预测。样本数据如下:
outlook (Attribute)temperature
(Attribute)
humidity
(Attribute)
windy
(Attribute)
play
(Category)
sunny6699true?
大雨和小雨儿歌类别值为yes的总体似然= 2/9*0.0340*0.0221*3/9*9/14=0.000036 ;
类别值为no的总体似然 = 3/5*0.0279*0.0381*3/5*5/14=0.000137;
说明:如果出现很多⼩概率相乘,可以通过对概率取对数替代概率本省来处理。
通过规范化将这两个结果转化成概率,使它们的概率之和为1:
类别值为yes的概率= 0.000036/(0.000036+0.000137)=20.8%;
类别值为no的概率 = 0.000137/(0.000036+0.000137)=79.2%;
总结:朴素贝叶斯⽅法给出了⼀个简单并且清晰的⽅法,使⽤它能够达到很好的预测结果。但是在很多数据集上表现的差强⼈意,因为朴素贝叶斯处理属性的时候认为属性时独⽴的,所以⼀些冗余的属性会破坏机器学习的过程,这种情况可以采⽤挑选属性⼦集的⽅法来避免。另外朴素贝叶斯在忽略特征频次的⽂档分类中,使⽤的效果⾮常好,但是特征频次拥有潜在的重要价值不可忽略,可以采⽤⼀种改进的⽅法,这个⽅法叫做多项式朴素贝叶斯。

本文发布于:2023-06-26 20:35:29,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/1046267.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:属性   概率   类别
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图