机器学习在模式识别中的算法研究
摘要:机器学习是计算机开展智能操作的基础,人工智能的发展依幕机器学习技术,
而机器学习、模式识别与当前人工智能的发展密切相关。本文通过概述机器学习机
制,圉绕神经网络、遗传算法、支持向量机、K■近邻法等算法研究当前机器学习在模
拟识别中的应用,为今后模拟识别与人工智能开发与研究提供借鉴。关键词:机器学
习;模式识别;人工神经网络
前S:
机器学习技术覆盖了人工智能的各个部分,如自动推理、专家系统、模式识别、
智能机器人等。模式识别是将计算机的不同事物划分成不同的类别。人工智能的模式
识别可以利用机器学习算法完善分类能效。因此,机器学习与模式识别密不可分,本
文就机器学习在模式识别领域的学习算法中的应用展开研究。
1、机器学习机制与系统设计
在机器学习模型中,环境可以向系统的学习部件中提供信息,学习部件根据这些
信息调整和修改知识库,提升系统内部执行文件的性能。执行文件再将获得的信息向
学习部件反馈,此过程就是机器学习系统结合外部与内部的环境信息自动获取知识的
过程。机器学习系统设计的构建过程应包含两部分:其一,模型的选择和构建。其
二,学习算法的选择与设讣。不同种类的模型具有不同的口标函数,涉及到不同的学
习机制,算法的复杂性与能力决定着学习系统的效率与学习能力。此外,训练样本集
的特征与大小的问题也与机器学习系统的性能相关。
2、机器学习在模式识别中的应用
2・1遗传算法
在机器学习中,特征维数是一大难题,每一种模式中的特征反映出的事物本质权
重均不一致。部分对于分类结果并无积极作用,棋至属于冗余,因此选择特征尤为关
键。遗传算法实际上是寻优算法,可以有效的解决特征选择问题。遗传算法可以筛选
出准确反映出原模式相关信息、影响分类的结果、相互关联性较小的特征。遗传算法
实际是利用达尔文的生物进化思想,在运算领域中巧妙生成一种寻优算法。该算法是
1975年由美国Michigan大学的Holland教授提出的,遗传算法的主要方法如下:首
先,将种群中的个体作为对象,进行一系列的变异、交义、选择等操作。其次,利用
遗传操作促进群体不断的进化,最终产生最优的个体,最后,结合个体对于环境的适
应程度选择最优良的个体,为其创造机会繁衍后代。遗传算法程序如下:选择合适的
编码策略,确定遗传策略和适应度函数。遗传策略包含种群的选择、大小、交义概
率、变异方法.变异概率等遗传参数;利用编码策略,将特征集变为位串结构;构建初
始化群体;计算整个群体的个体适应度;结合遗传策略,将交义、选择等作用在群体
中,产生下一代群体;判别群体性能是否到达某一标准,假若不满足将回到遗传策略
阶段。
2.2k-近邻法
k-nearestneighbor(k-近邻法)被广泛运用在无指导、基于实例的学习方法中,可
以实现线性不可分的样本识别,在之前并不了解待分样本的分布函数。当前被广泛应
用的k・近邻法主要是将待分类样本为重点形成超球体,同时扩展超球的半径一直到
球内包含着K个已知模式的样本,判别k个邻近样本属于哪一种。其主要分类算法如
下:设有c个类别,分别是wl
/
w2
/
w3
/
...
/
wc>l,2
/
3
/
...
/
c.«J试样本x和最近的样本的距离是
gi(x)=min||x-xik||.k=1,2,3#.-,的下标i表示wi类别,上标k表示wi类别中的ni
个样本中的第k个样本。当超球半径r大于等于mingi
(x)时,求解L=argmaxkioki(0
不足之处在于半径的选择十分复杂。假若太大,超球体的覆盖面积太大使得其他样本
被覆盖,增加样本的误识率;假若「太小,也许无法覆盖该类别的样本点,极易受到
噪声的影响。因此可以在选定k值之后需要科学定位,确定邻近点的搜索区域确保分
类结果的精准性。
2.3支持向量机
机器学习系统中训练样本集的大小与系统内泛化能力相关。假若样本集过小,会
导致训练结果过于盲LI。1992-1995年Vapnik提岀的SVN支持向量机概念克服了这一
问题。相较于特征空间的降维策略,支持向量机可以利用引用函数将特征空间中的非
线性问题映射在高维度的特征空间中,在该空间中通过构造线性函数进行判定[1]。
此方法是以统计学为基础的机器学习方法。利用学习算法,SVN可以自主寻找具有良
好分类能力的支持向量,实现类别之间的间隔最大化,具有较高的识别率与适应能
力。SVN是在线性可分的基础上进行的最优分类,其本质是找寻最优超平面。该平面
在将样本准确分开的同时保证分类间隔的最大化。当前SVN的算法主要有两种构造方
式:其一是将多值分类当做二值分类,将多分类的问题变为二值分类问题[2]。其二
是利用调整L1标函数从根源上解决的二值分类问题,不过此方法仅适应于小范围的问
题。例如,为了提升训练速度,部分训练方法结合分解算法与块算法的思想,限制训
练样本集的整体规模,假若超过限制,将会在集中删除边界支持向量。训练结束的标
准既需要观察测试结果,也应观察SVN的间隔值,也就是的值是否为最小,以确保分
类面可以实现最优效果。
2.4人工神经网络
ANN(人工神经网络)实际是人脑与相关活动的理论数学模型,主要是将大量的处理
单元利用某种方式进行连接,属于非线性大规模自适应系统。当前已经有50多种神经
网络模型,它们之间的区别在于拓扑结构的差异性以及训练规则、学习规则的不同。例
如,BP神经网络是当前应用最为广泛的模型,该技术基于BP算法实现,BP神经网络学
习属于有导师学习,学习算法利用Delta的规则,满足多层网络学习的想象,学习过程
主要包含正向与反向两种。在正向传播中,输入给定网络,输入信息会在输入层经过隐
含层的处理,传到输出层。每一种神经元只能影响下一层的状态,属于逐层更新的过程,
此为正向传播。假如实际输出的与预期相差较大,就会变为反向误差传播,将误差按照
连接通路按照层级逐渐进行反向传送并修正权值。其中,神经元一般是单输出、多输入
的非线性单元,在结构模型中,xi是输入信号,wi是神经元相连接的权值,权值为负表
示抑制,为正表示激活。表示求和单元,用于加权和。
结论:
机器学习的核心技术是利用学习算法在它所对应的假设空间内进行探索,此过程
也是学习的过程。在模式识别的实际应用中,山支持向量机、神经网络、K-近邻法构建
的分类机实际就是在特定假设空间的相同样本集和假设条件下将样本集映射到决策面
上,使各种样本分布在不相交的区域。
参考文献
⑴周萍.机器学习下的网络应用识别技术[J].信息与电脑(理论版),201&(19):181-
182+185.
⑵郑广强•机器学习算法中变量选择方法及其在模式识别中的应用[D].天津大
学,2016.
作者简介:陈幸如(1994.06-),女,安徽人,单位:怀化职业技术学院,职位:教学
干事,职称:助教,学历:硕士,研究方向:机器学习;
李喜梅(1973.0J),女,湖南人,单位:怀化职业技术学院,职位:教师,职称:讲
师,学历:本科,硏究方向:计算机应用技术;
贺军(1971.01),男,湖南人,单位:怀化职业技术学院,职位:系主任,职称:教
授,学历:本科,硏究方向:计算机应用技术;
李奇(1976.05J,男,湖南人,单位:怀化职业技术学院,职位:教研室主任,职称:副
教授,学历:本科,研究方向:计算机应用技术。
本文发布于:2023-01-03 16:09:29,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/90/85481.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |