【机器学习】表⽰学习(ReprentationLearning)
表征学习
在机器学习领域,表征学习(或特征学习)是⼀种将原始数据转换成为能够被机器学习有效开发的⼀种技术的集合。在特征学习算法出现之前,机器学习研究⼈员需要利⽤⼿动特征⼯程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建⽴特征,然后再部署相关的机器学习算法。虽然⼿动特征⼯程对于应⽤机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强⼤专业知识。特征学习弥补了这⼀点,它使得机器不仅能学习到数据的特征,并能利⽤这些特征来完成⼀个具体的任务。
嫩的近义词简介
在机器学习领域,表征学习(或特征学习)是⼀种将原始数据转换成为能够被机器学习有效开发的⼀种技术的集合。在特征学习算法出现之前,机器学习研究⼈员需要利⽤⼿动特征⼯程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建⽴特征,然后再部署相关的机器学习算法。虽然⼿动特征⼯程对于应⽤机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强⼤专业知
识。特征学习弥补了这⼀点,它使得机器不仅能学习到数据的特征,并能利⽤这些特征来完成⼀个具体的任务。
刘浩宇和预测性学习(Predictive Learning)不同,表征学习的⽬标不是通过学习原始数据预测某个观察结果,⽽是学习数据的底层结构(underlying structure),从⽽可以分析出原始数据的其它特性。表征学习允许计算机学习使⽤特征的同时,也学习如何提取特征:学习如何学习。在机器学习任务中,输⼊数据例如图⽚、视频、语⾔⽂字、声⾳等都是⾼维且冗余复杂,传统的⼿动提取特征已变得不切合实际,所以需要借助于优秀的特征学习技术。
类似于机器学习,特征学习可以被分为两类:监督式特征学习(Supervid Reprentation Learning)和⽆监督式特征学习(Unsupervid Reprentation Learning)。在监督特征学习中,被标记过的数据被当做特征⽤来学习。例如神经⽹络(Neural Networks),多层感知器(Multi-Layer Perception),监督字典学习(Supervid Dictionary Learning)。在⽆监督特征学习中,未被标记过的数据被当做特征⽤来学习。例如⽆监督字典学习(Unsupervid Dictionary Learning),主成分分析(Principal Component Analysis),独⽴成分分析(Independent Component Analysis),⾃动编码(Auto-encoders),矩阵分解(Matrix Factorization) ,各种聚类分析(Clustering)及其变形。
发展历史
早在100多年前,基于传统机器学习的数据特征学习就已经被⼴泛提出。1901年,Karl Pearson提出了主成分分析(Principal Component Analysis),⽤线性投影的⽅法学习数据的低维度特征。1936年,Ronald Fisher提出了线性判别分析(Linear Discriminant Analysis)。之后,PCA和LDA的各种变形如核PCA(Kernel PCA),⼴义判别分析(Generalized Discriminant Analysis)也相继提出。2000年,机器学习社区兴起了流形学习(Manifold Learning),即发掘⾼维数据中的内在结构。
肾萎缩的原因⽽作为特征学习的另外⼀条主线,神经⽹络的概念虽然早在多年前就被科学家提出,但直到1986年,Geoffrey Hinton才发现反向传播算法(BP Algorithm)可以在⽹络的隐藏层⾥学习到有⽤的关于输⼊数据的内在表征。2006年,Geoffrey Hinton提出贪婪分层预训练和深度神经⽹络微调的⽅法,从⽽解决了困扰神经⽹络⽤于特征学习的两⼤难题:模型过拟合(Model Overfitting)和梯度扩散(Gradient Diffusion)。随着计算机计算能⼒的提升和深度神经⽹络结构的不断发展,⼈们更多地使⽤深度神经⽹络来更有效地提取数据的特征,⽤于后续的分类或预测。例如,对于图像输⼊数据,⼈们会先使⽤训练好的深度神经⽹络模型(如VGG,ResNet等)提取特征信息,再⽤于强化学习(Reinforcement Learning),视觉导航(Visual Navigation)任务等等。丸子
下图可看出数据的特征学习和神经⽹络的特征学习发展历程:
主要事件
发展分析
⼀个好的特征学习可以帮助我们更容易提取出数据的有⽤信息从⽽⽤于分类或预测。特征学习已经被⼴泛应⽤于⼈⼯智能和机器学习领域,如语⾳识别 (Speech Recognition),信号处理(Signal Processing),物体识别(Object Recognition),⾃然语⾔处理(Natural Language Processing)以及强化学习(Reinforcement Learning)。通过学习语⾳、信号、图像、语⾔⽂字等输⼊数据提取出有⽤的特征,然后应⽤到不同的任务上。近⼏年,深度强化学习(Deep Reinforcement Learning)通过特征学习视频游戏的图像信息,从⽽学会接下来如何采取⾏动才能在游戏中得到最多的奖励,从⽽在很多电脑游戏中达到⼈类专家的⽔平。
特征学习还可以应⽤于迁移学习(Transfer Learning),通过提取出共同的特征从⽽从⼀个任务迁移到其它不同的任务。
瓶颈
-传统的特征学习技术过于依赖⼈⼯及相关的专业知识,困难且昂贵。
题金陵渡-深度神经⽹络虽然可以有效地学到数据丰富的特征,但特征难以解读。通常神经⽹络层数越多,训练成本也越⾼。
狐狸之眼未来发展⽅向
⽬前深度神经⽹络在图像处理、语⾳识别、视频游戏等领域已经达到了甚⾄超越⼈类的⽔平,但对于深度强化学习这块通向未来通⽤⼈⼯智能(Artificial General Intelligence)的领域还任重道远。借助于计算能⼒和数据量的不断发展,我们可以利⽤深度神经⽹络学习丰富的特征来表⽰环境的模型,然后通过基于模型的深度强化学习(Model-bad Deep Reinforcement Learning) 训练机器⼈(Robotics)来慢慢靠近通⽤⼈⼯智能…吉祥如意图片
besides和except的区别
利⽤CNNs等技术提取特征⽤于监督学习已经取得了巨⼤的进展,但未来需要有更多的像DCGAN等技术⽤于⾮监督式的特征学习,如此更能帮助机器理解这个世界。