线性⽀持向量机中的硬间隔(hardmargin)和软间隔
(softmargin)
intro
The support-vector mechine is a new learning machine for two-group classification problems. The machine conceptually
implements the following idea: input vectors are non-linearly mapped to a very high-dimension feature space. In this feature
space a linear decision surface is constructed. Special properties of the decision surface ensures high generalization ability of the learning machine. The idea behind the support-vector network was previously implemented for the restricted ca where the training data can be parated without errors. We here extend this result to non-parable training data.
High generalization ability of support-vector networks utilizing polynomial input transformations is demonstrated. We also
蘑菇炖小鸡compare the performance of the support-vector network to various classical learning algorithms that all took part in a benchmark study of Optical Character Recognition.
乐不思蜀什么意思摘⾃eptember 1995, Volume 20, Issue 3, pp 273–297
⽀持向量机: 上世纪流⾏的⼀种⽤来解决⼆分类问题的算法。我们使⽤⼀组样本{ (x i,y i) }(其中y∈{-1,1},称为标签;x i为⼀维向量,称为特征)来构建模型(训练模型)。咋说呢,借助坐标系把这些点的特征在空间中表⽰出来,使⽤两种颜⾊来表⽰y。需要寻找⼀个平⾯把这些点划分为两类。这个平⾯就是我们的分类器。表⽰出来⼀看呢,有的是线性可分的,有的是线性不可分的。分别如下⾯⼆图:
SVM刚诞⽣时遇到的问题⼤多都如前者,这样我们直接计算“最⼤间隔超平⾯”就ok,这个称为“线性⽀持向量机”,即最初的SVM;(作者————1963年,万普尼克)
后来,遇到了更多复杂的情况(如第⼆张图),⼤家希望能改进SVM,使它也能够很好地处理后者,于是把核技巧拿到了SVM上,借助核函数ϕ(x i)将原特征向量映射到⾼维空间,使它可以⼀⼑划分开来(像上⾯的左图),再计算“最⼤间隔超平⾯”。经过这⼀改进之后,SVM的泛化能⼒⼤⼤加强。这个称为“⾮线性⽀持向量机”。(作者————1992年,Bernhard E. Bor、Isabelle M. Guyon和弗拉基⽶尔·万普尼克)
explanation
有经验的英文1962年提出的线性⽀持向量机中有两个概念:“硬间隔”,“软间隔”。
如果我们的训练数据集是线性可分的,那么可以找到⼀个超平⾯将训练数据集严格地划开,分为两类(可以想象成⼀个平板)。我们找两个这样的超平⾯,它们满⾜1.两者平⾏2.两者距离最⼤(即下图中的两条虚线)。两个超平⾯上的样本x们称为”⽀持向量“。“最⼤间隔超平⾯”(也就是分类器)是两超平⾯的平均值。我们定义这两个超平⾯间的区域为“间隔”。在这种情况下它就是“硬间隔”。动脑筋的题目
最⼤间隔超平⾯可以表⽰为: W*X+b = 0
两个超平⾯可以分别表⽰为: W X+b = 1,W X+b = -1
对于数据线性不可分的情况(上图),我们引⼊铰链损失函数:max。
电机与控制当约束条件 (1) 满⾜时(也就是如果x_{i}位于边距的正确⼀侧)此函数为零。对于间隔的错误⼀侧的数据,该函数的值与距间隔的距离成正⽐。然后我们希望最⼩化(参数\lambda⽤来权衡增加间隔⼤⼩与确保x_{i}位于间隔的正确⼀侧之间的关系)
{\displaystyle \left[{\frac {1}{n}}\sum _{i=1}^{n}\max \left(0,1-y_{i}({\vec {w}}\cdot {\vec {x_{i}}}-b)\right)\right]+\lambda \lVert {\vec {w}}\rVert
^{2},}
拉丁音乐这时的“间隔”就是“软间隔”。
总结⼀下,我们构建模型使⽤的数据集如果是严格可⼀⼑分开的,那么两超平⾯间的间隔就是“硬间隔”;如果不是严格可以⼀⼑分开的,两超平⾯间的间隔就是“软间隔”。这是针对线性⽀持向量机⽽⾔。哈哈哈有⼈说了线性⽀持向量机都五⼗年前的东西了,还不如说说⾮线性⽀持向量机。进⼊⾮线性⽀持向量机时代后,“硬间隔”“软间隔”是对于核函数变换后的超平⾯⽽⾔的了。老师与同学
现在对付“软间隔”我们都⽤“泛化”和“拟合”了,上世纪机器学习刚起步的时候可没这么多东西。可以说是冷兵器时代,如今科技发达,处理⼆分类问题我们可以⽤很多技术——逻辑回归啊,神经⽹络啊,各种聚类算法啊,等等。
reference
一生挚爱什么意思1.
2.
Loading [MathJax]/jax/element/mml/optable/BasicLatin.js