数据预处理及相应的Rapidminer操作

更新时间:2023-05-07 17:02:19 阅读: 评论:0

数据预处理及相应的Rapidminer操作数据预处理
数据挖掘中主要⽤于数据预处理的⽅法有以下⼏种:
1. 聚集(Aggregation)
2. 抽样(Sampling)
3. 维归约(DimensionalityReduction)
4. 特征⼦集选择(Feature subt lection)
5. 特征创建(Feature creation)
6. 离散化(Discretization)和⼆元化(Binarization)
7. 属性变换
练习时测试⽤的测试数据集可以在【Repository>>Samples>>data】中获取⽰例数据集;
聚集(Aggregation)
聚集是指将两个或多个对象合并成单个对象;
聚集的⽬的
– 减少数据
·      减少属性或数据对象的个数
·      节省数据挖掘算法的运⾏时间和空间
– 尺度提升
·      城市聚集成区域、省、国家,等等
·      产⽣新的模式
– 更“稳定”的数据
·      聚集的数据会有较⼩的变异性
·      突出数据的趋势和轨迹
聚集⽅法在Rapidminer中的实现:
Rapidminer中聚集对应的算⼦是 【Aggregate】;
>>基本流程
>>参数⾯板
抽样(Sampling)
抽样是指选择数据对象⼦集,抽取的对象称作样本;
抽样的⽬的
降低数据处理的费⽤和时间;
随机抽样⽅式
·      ⽆放回抽样:被选中的对象从待选对象集中删除;
·      有放回抽样:被选中的项不从待选对象集中删除,相同的对象可能被多次抽出;
随机抽样⽅法
·      简单随机抽样:选取任何对象的概率相等;
·      分层抽样:划分待选对象集为多个⼦集,分别从各个⼦集随机抽样(⼀般根据类标号划分⼦集),有以下2种⽅式:- 每组⼤⼩不同,但从每组抽取的对象个数相同;
- 抽取的对象个数正⽐于组的⼤⼩;
抽样⽅法在Rapidminer中的实现
1)简单随机抽样(不放回) -> 【Sample】
>>基本流程
>>参数⾯板
⼏个Sample可选的区别:
absolute:按照指定样本容量进⾏抽样;
relative:按照指定样本抽取的⽐例进⾏抽取;
probablity:按照指定抽取⽐例,抽取接近该⽐例的样本,可以通过更改随机种⼦来修改这个随机值;
2)简单随机抽样(放回)-> 【Sample(Bootstrapping)】
这种抽样⽅法主要⽤于扩充样本容量,设置的抽取数量可以⼤于原数据集容量
>>基本流程
>>参数⾯板
3)随机分层抽样 -> 【Sample(Stratified)】
维归约(DimensionalityReduction)
维归约是指降低数据的维度,即减少数据属性的个数
维归约的⽬的
·      避免维灾难 (cur of dimensionality);
·      降低数据挖掘算法的时间和内存需求;
·      使数据更容易可视化;
·      可以删除不相关的属性并降低噪声;
维归约的常⽤⽅法——主成份分析(PCA)
⽬标是找出新的属性(主成分)
– 原属性的线性组合
– 相互正交
– 捕获数据的最⼤变差
在Rapidminer中的实现
主成分分析PCA -> 【Principal Component Analysis】
>>基本流程
>>参数⾯板
dimensionality reduction 降维参数的⼏个可选值(主要⽤于删除异常点):none:保持原来的数据集规模;
keep_variance:删除原数据集中积累⽅差⼤于指定的阈值的记录;
fixed_number:输出的结果集保持在指定的数据容量;
特征⼦集选择(Feature subt lection)
特征⼦集选择是指选择⼀部分属性实施数据挖掘任务;
特征⼦集选择的⽬的
消除冗余特征和不相关特征
·      冗余特征
– 重复了包含在⼀个或多个其他属性中的许多信息
– 例⼦:产品的购买价格和所⽀付的销售税额
·      不相关特征
– 仅含有对于当前数据挖掘任务⼏乎⽆⽤的信息
– 例⼦:学⽣的ID号码对于预测学⽣的总平均成绩是不相关的
特征选择的常见⽅式和⽅法
1)嵌⼊⽅式  – 特征选择作为数据挖掘算法的⼀部分⾃然地出现(如构造决策树的算法)
2)过滤⽅式  – 在数据挖掘算法运⾏前进⾏特征选择
3)包装⽅式
· 穷举⽅法  – 尝试所有可能的特征⼦集,然后选取产⽣最好结果的⼦集
· 前向/后向选择⽅法
– 前:从空集开始逐步添加特征,选取产⽣最好结果的⼦集
– 后:从全集开始逐步删除特征,选取产⽣最好结果的⼦集
※⼀般使⽤包装⽅法时,不会使⽤穷尽⽅法,⽽是使⽤向前/向后选择⽅法;
在Rapidminner中的实现
1)⼿动设置特征选择参数 -> 【Select Attributes】
>>基本流程
>>参数⾯板
常⽤的attribute filter type:
subt:选择属性⼦集;
regular_expression:对所有属性使⽤正则表达式过滤(主要⽤于字符串特征处理);
numeric_value_filter:对所有numeric类型数据使⽤指定规则进⾏过滤(主要⽤于序数、区间、⽐率类型进⾏处理);value_type:对所有⼦集进⾏数据类型过滤;
2)向前/向后选择⽅法 -> 【Optimize Select】
>>基本流程

本文发布于:2023-05-07 17:02:19,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/866332.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   对象   属性   特征   抽取   数据挖掘   指定
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图