样本空间

更新时间:2023-01-04 03:14:06 阅读: 评论:0


2023年1月4日发(作者:变异编年史)

⼈⼯智能(1)-样本空间、假设空间、版本空间

这⼉主要归纳⼀下,样本空间、假设空间、版本空间的定义,三者的联系与区别。

西⽠数据集

编号⾊泽根蒂敲声好⽠

1青绿蜷缩浊响是

2乌⿊蜷缩浊响是

3青绿硬挺清脆否

4乌⿊稍蜷沉闷否

⼀:样本空间

上表中给出了四种实际存在的情况,也即是我们⽬前所能获得的训练集。样本空间的标准定义是:所有可能存在的、合理的、情况的集

合。机器学习的主要⼯作就是寻找从属性空间(X)到标记空间(Y)的⼀个映射关系。说法很多,但可以认为Xi-Yi实际存在的⼀个组合就

是⼀个样本,⽽所有样本的集合,就是样本空间。⽽上述的的训练集只是样本空间⼀个很⼩的采样。

⼆:假设空间

起初,我们并不能得到样本空间。只有样本空间的⼀个很⼩的⼦集,也就是上⾯的四条样本。但可以确定的是(⽬前姑且这样认为)每⼀条

⽰例有三条属性,即⼀个⽠的好或不好,由三个属性确定,⽽每个属性有三个值。就拿西⽠的颜⾊来说,表中有青绿、乌⿊,姑且加⼀种浅

⽩(仅为演⽰何为假设空间),可以确定的是⼀个好⽠应该是青绿或乌⿊⾊;但也可能,西⽠的好或不好与颜⾊⽆关,即在好⽠的情况下西

⽠的颜⾊可能是*(*代表任意颜⾊),那么西⽠的颜⾊这⼀属性就有四个可能的取值。

即假设空间可以这样定义:⾊泽:*、根蒂:*、敲声:*是好⽠。⾊泽:*、根蒂:*、敲声:浊响是好⽠。⾊泽:*、根蒂:*、敲声:清脆是

好⽠。⾊泽:*、根蒂:*、敲声:沉闷是好⽠。这是⼀个简单的排列组合问题。⼀共有4*4*4+1=65种情况。最后的1表⽰任何情况都不是

好⽠,即没有好⽠的情况。

可以看出来,假设空间是在已知属性和属性可能取值的情况下,对所有可能满⾜⽬标(好⽠)的情况的⼀种毫⽆遗漏的假设集合。

三:版本空间

从上⾯可以看到,假设空间,单纯的罗列的所有可能的情况,这更多的是⼀种数学上的罗列。显然假设空间中肯定有很多是不满⾜情况

的,或是不合理的。…………⽐如根据上述表格中的训练数据(样本空间的⼦集)可以看出,“⾊泽:青绿、根蒂:硬挺、敲声:清脆不是

好⽠“,所以假设空间中的“⾊泽:青绿、根蒂:硬挺、敲声:清脆是好⽠”显然是错误的假设,应当舍去。…………上⾯是删除假设空间

明显错的假设。但还有那种不错误,但会有严重误导倾向的假设也需要删除。⽐如假设空间中有“⾊泽:青绿、根蒂:蜷缩、敲声:浊响是

好⽠”,这和训练数据集正好吻合,显然是正确的,但是对于假设空间来说,此条假设也应该被删除。因为如果说“⾊泽:青绿、根蒂:蜷

缩、敲声:浊响是好⽠”那么“⾊泽:乌⿊、根蒂:蜷缩、敲声:浊响就不是好⽠了”这显然有种“过度精确”的错误。仅根据上述训练集

中的四条数据来判断,“⾊泽:*、根蒂:蜷缩、敲声:浊响是好⽠”便⽐较合适了。这能很好的契合表中的四条数据。…………如果按照

上述原则“⾊泽:浅⽩、根蒂:蜷缩、敲声:浊响”会被判断为好⽠,这正确与否显然是不知道的。所以,如果想做出正确的判断,就需要

全⾯⼤量的训练,⽬的就是尽量的排出假设空间中不合理的假设。⽽剩下的假设就是在满⾜已有训练数据集的情况下,做出的最优选择了。

…………现实问题中,我们常⾯临很⼤的假设空间,但学习过程是根据有限的样本训练集进⾏的,那么对于不同版本的训练集,应该会有不

同版本的“删除后”的假设空间与之对应。便称之为版本空间。

本文发布于:2023-01-04 03:14:06,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/fanwen/fan/90/88262.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

上一篇:准货币
下一篇:涉外文秘
标签:样本空间
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图