机器学习降维算法六——ISOMAP(等距特征映射)

更新时间:2023-07-05 00:11:50 阅读: 评论:0

机器学习降维算法六——ISOMAP(等距特征映射)
not yet流形学习:传统的机器学习⽅法中,数据点和数据点之间的距离和映射函数都是定义在欧式空间中的,然⽽在实际情况中,这些数据点可能不是分布在欧式空间中的,因此传统欧式空间的度量难以⽤于真实世界的⾮线性数据,从⽽需要对数据的分布引⼊新的假设。流形学习假设所处理的数据点分布在嵌⼊于外维欧式空间的⼀个潜在的流形体上,或者说这些数据点可以构成这样⼀个潜在的流形体。
图1 ⼀个嵌在三维空间的流⾏体
google英文版
图1就是⼀个数据嵌⼊在流⾏体的例⼦,传统的例如PCA和MDS降维⽅法效果就不是⼗分理想。此流⾏体实际上是⼀个⼆维分布的平⾯,在三维空间中流⾏体上点与点之间的距离不能使⽤传统的欧式空间的距离来计算,⽽应该⽤测地线距离代表这两个点的实际距离。
图2 测地线和欧式距离
图2中蓝⾊虚线为两个点的欧式距离,蓝⾊实线为两个点的测地线距离。但是测地线距离也不好测量,因此我们采⽤另⼀种路径近似代表测地线距离。
电影英语图3 图中两点的最短路径
我们构建⼀个连通图,其中每个点只和距离这个点最近的k个点直接连接,和其他的点不直接连接。这样我们可以构建邻接矩阵,进⽽求出图中任意两个点的最短路径,代替测地线距离。unierm
图4 测地线和图中两点的最短路径
在图四中,蓝⾊点代表两个点之间的测地线距离,红⾊线代表图中两点的最短路径,两者距离相近,因此我们使⽤后者替代前者。进⽽引出isomap算法。
menstrual cup
1 基本思想
isomap算法是基于前⾯所讲的MDS算法,不同之处在于isomap⽤图中两点的最短路径距离替代了MDS中欧式空间的距离,这样能更好的拟合流⾏体数据。
2 原理推导
原理和MDS原理基本⼀致
唯⼀不同的地⽅如下:
MDS⾼维空间中两个点的距离:
⽽在isomap两个点的距离为图中两点的最短路径。
然后采⽤内积形式进⾏推导。
3 算法流程
(1)设置每个点最近邻点数k,构建连通图和邻接矩阵。
(2)通过图的最短路径构建原始空间中的距离矩阵。
(3)计算内积矩阵  。
(4)对矩阵B进⾏特征值分解,获得特征值矩阵  和特征向量矩阵  。
(5)取特征值矩阵最⼤的前  项及其对应的特征向量  。compagna
西班牙文翻译4 举例
大法小廉(1) 我们先举⼀个简单的例⼦,分别对图1利⽤isomap和MDS算法降维⾄2维空间。
图5(a)isomap
图5(b)MDS
当我们已知数据嵌在⼀个⾼维的流⾏体时候,使⽤isomap明显会有更好的效果。
但是⼤多数情况下,我们不知道⾼维流⾏体展开之后的维度,这个就需要我们通过主观来判断。下⾯是 A Global GEometric Framework for Nonlinear Dimensionality Reduction (提出isomap降维⽅法的⽂章)中的⼏个例⼦:
(2) ⼈脸照⽚
数据集是698个64x64的同⼀个⼈的脸部图像,那么每⼀个图像就相当于4096空间中的⼀个坐标点,实际上这些⼈脸照⽚也是嵌⼊在⼀个流⾏体内,根据主观判断,我们可以得出影响⼈脸的因素有三个:光照⽅向、是否上下抬头、是否左右偏头。使⽤isomap将数据降维到⼆维空间可得:
图6
韩版风衣>环球网校首页官网图6横坐标指的是⼈左右偏头的程度、纵坐标是⼈上下偏头的程度、每⼀张图⽚下⾯的Lighting direction指的是光照的⽅向。我们可以看出数据点在低维的分布基本可以替代数据点在原始空间的分布,例如想要判断⼈脸的左右偏头的程度,完全可以在降维之后的点上训练分类器,也可以得到很好的效果。
图7
图7中纵轴是残差⽅差,其值越⼩表⽰和原始数据越相近。横轴表⽰降维之后的维度。
其中空⼼三⾓是PCA对⼈脸图⽚降维的残差⽅差,实⼼圆圈是isomap对⼈脸图⽚进⾏降维的残差⽅差。
可以看出isomap效果要优于PCA。观察代表isomap的曲线,当维度等于3的时候,⽅差残差下降⾮常快,同时在维度⾼于3之后,残差⽅差值变化很⼩。我们可以断定流⾏体是三维的数据点嵌⼊到了⾼维空间。
(3) MINIST⼿写字体集中数字2
数据集⼀共有1000个数据项,每个数据项时28x28⼤⼩的图⽚。
图7
将数据降维⾄2维,我们通过观察低维空间数据点代表的图像,发现有两个明显的特征:
横坐标代表了数字2底部是否有⼀个环形;纵坐标表⽰数字2顶部的歪曲⾓度的⼤⼩。
图8
图8中纵轴是残差⽅差,其值越⼩表⽰和原始数据越相近。横轴表⽰降维之后的维度。
其中空⼼三⾓是PCA对数字2降维的残差⽅差,空⼼圆圈是MDS对数字2降维的残差⽅差实⼼圆圈是isomap对数字2降维进⾏降维的残差⽅差。观察代表isomap的曲线,并没有出现快速下降的趋势,因此数字2流⾏嵌⼊并不明显。
5 总结
总的来说,⾼维空间的数据⼤多数都具有相同的特点,因此会嵌⼊到⼀个流⾏体中,⽽不是随机分散在⾼维空间中,⾼维数据相同特征的数⽬也就是流⾏体的维度,也就是我们降维的⽬标空间维数,这个维度需要⼀定的⼈为主观判断。同时,如果数据在⾼维空间中没有嵌⼊到⼀个流⾏体中。例如⾼维数据点分为10类,每⼀类都和其它类分散开,⾃⼰成为⼀簇,此时isomap算法就不太适合。如果数据是分类的,数据基本不会嵌⼊在⼀个流⾏体,isomap降维算法效果就⽐较差,但是数据是连续的,数据就很有可能嵌⼊在⼀个流⾏空间内,此时isomap 算法的效果就会⽐较好。

本文发布于:2023-07-05 00:11:50,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/167275.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   距离   降维   空间   残差   分布   算法   数字
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图