迁移学习数据集——DomainAdaptation

更新时间:2023-05-04 19:25:20 阅读: 评论:0

迁移学习数据集——DomainAdaptation
Domain Adaptable
在经典的机器学习模型中,我们习惯性假设训练数据集和行业通 ⽬标训练集有着相同的概率分布。⽽在现实⽣活中,这种约束性假设很难实现。当训练数据集和测试集有着巨⼤差异时,很容易出现过拟合的现象,使得训练的模型在测试集上表现不理想。
举个简单的例⼦,如果我们哟普⼤量的黄种⼈⼈脸监督训练数据集,⽽想训练得到可以区分⿊⼈⼈脸的模型,该模型相⽐于黄种⼈识别情况性能会下降。当训练数据集和测试数据集分布不⼀致的情况下,通过在训练数据集上按经验误差最⼩准则训练得到的模型在测试数据集上性能不佳,因此,我们引⼊了迁移学开心果的营养 习技术。
域适应(Domain Adaptation)是迁移学习中⽐较流⾏的⼀个全国爱耳日 分⽀,也是我最近阅读的重点⽅向。通俗的讲,域适应是通过利⽤训练数据集训练得到的知识,提⾼模型在测试数据集上的表现性能。
域适应中有两个基础概念:源域(Source Domain)和⽬标域(Target Domain)。源域中有着丰富的监督学习信息;⽬标域表⽰测试集所在的领域,通常⽆标签或者只含有少量的标签。源域和⽬标域往往是同⼀类任务,但是分布不同。
通过在不同阶段进⾏域适应,研究者提出了⼏种不同的域适应⽅法:
1、样本⾃适应:将源域中样本重采样,使其分布趋近于⽬标域分布;
2、特征层⾯⾃适应:与⼀般的将源域映射到⽬标域⽅青海湖作文 法不同,该类⽅法将源域和⽬标域投影到公共特征⼦空间,进⽽使得源域上的训练知识可以直接应⽤于⽬标域;
3、模型层⾯⾃适应:对源域误差函数进⾏修改,考虑到⽬标与的误差。
样本⾃适应:
其基本思想是对源域样本进⾏重采样,从⽽使得重采样后的源域样本和⽬标域样本分布基本⼀致克妻 ,在重采样的样本集合上重新学习分类器。样本迁移(Instance bad TL)
在源域中找到与⽬标域相似的数据,把这个数据的权值进⾏调整,使得新的数据与⽬标域的数据进⾏匹配,然后加重该样本的权值入门级相机 ,使得在预测⽬标域时的⽐中国粤菜 重加⼤。优点是⽅法简单,实现容易。缺点在于权重的选择与相似度的度量依赖经验,且源域与⽬标域的数据分布往往不同。
特征⾃适应:
其基本思想是学习公共的特征表⽰,在公共特征空间,源域和⽬标域的分布要尽可能相同。
特征迁移(Feature bad TL)
模型⾃适应:
其基本思想是直接在模型层⾯进⾏⾃适应。模型⾃适应的⽅法有两种思路,⼀是直接建模模型,但是在模型中加⼊“domain间距离近”的约束,⼆是采⽤迭代的⽅法,渐进的对⽬标域的样本进⾏分类,将信度⾼的样本加⼊训练集,并更新模型。
模型迁移(Parameter bad TL)
假设源域和⽬标域共享爱丽丝梦游仙境好词 模型参数,是指将之前在源域中通过⼤量数据训练好的模型应⽤到⽬标域上进⾏预测,⽐如利⽤上千万的图象来训练好⼀个图象识别的系统,当我们遇到⼀个新的图象领域问题的时候,就不⽤再去找⼏千万个图象来训练了,只需把原来训练好的模型迁移到新的领域,在新的领域往往只需⼏万张图⽚就够,同样可以得到很⾼的精度。优点是可以充分利⽤模型之间存在的相似性。缺点在于模型参数不易收敛。

本文发布于:2023-05-04 19:25:20,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/526228.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   训练   标域   源域   数据
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图