数据标准化处理-特征缩放(FeatureScaling)

更新时间:2023-07-18 03:17:05 阅读: 评论:0

数据标准化处理-特征缩放(FeatureScaling)
数据的标准化(normalization)和归⼀化
数据的标准化(normalization)是将数据按⽐例缩放,使之落⼊⼀个⼩的特定区间。在某些⽐较和评价的指标处理中经常会⽤到,去除数据的单位限制,将其转化为⽆量纲的纯数值,便于不同单位或量级的指标能够进⾏⽐较和加权。其中最典型的就是数据的归⼀化处理,即将数据统⼀映射到[0,1]区间上。
⽬前数据标准化⽅法有多种,归结起来可以分为直线型⽅法(如极值法、标准差法)、折线型⽅法(如三折线法)、曲线型⽅法(如半正态性分布)。不同的标准化⽅法,对系统的评价结果会产⽣不同的影响,然⽽不幸的是,在数据标准化⽅法的选择上,还没有通⽤的法则可以遵循。
归⼀化的⽬标
1 把数变为(0,1)之间的⼩数
主要是为了数据处理⽅便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。
2 把有量纲表达式变为⽆量纲表达式
归⼀化是⼀种简化计算的⽅式,即将有量纲的表达式,经过变换,化为⽆量纲的表达式,成为纯量。⽐如,复数阻抗可以归⼀化书写:Z = R + jωL = R(1 + jωL/R) ,复数部分变成了纯数量了,没有量纲。
另外,微波之中也就是电路分析、信号系统、电磁波传输等,有很多运算都可以如此处理,既保证了运算的便捷,⼜能凸现出物理量的本质含义。香菜花生米
特征缩放的⼏种⽅法:
(1)最⼤最⼩值归⼀化(min-max normalization):将数值范围缩放到 [0, 1] 区间⾥
(2)均值归⼀化(mean normalization):将数值范围缩放到 [-1, 1] 区间⾥,且数据的均值变为0
(3)标准化 / z值归⼀化(standardization / z-score normalization):将数值缩放到0附近,且数据的分布变为均值为0,标准差为1的标准正态分布(先减去均值来对特征进⾏中⼼化 mean centering 处理,再除以标准差进⾏缩放)
(4)最⼤绝对值归⼀化(max abs normalization ):也就是将数值变为单位长度(scaling to unit length),将数值范围缩放到 [-1, 1] 区间⾥
(5)稳键归⼀化(robust normalization):先减去中位数,再除以四分位间距(interquartile range),因为不涉及极值,因此在数据⾥有异常值的情况下表现⽐较稳健
沟通者
* 有⼀些时候,只对数据进⾏中⼼化和缩放是不够的,还需对数据进⾏⽩化(whitening)处理来消除特征间的线性相关性。
归⼀化和标准化的区别:
归⼀化(normalization):归⼀化是将样本的特征值转换到同⼀量纲下,把数据映射到[0,1]或者[-1, 1]区间内。
标准化(standardization):标准化是将样本的特征值转换为标准值(z值),每个样本点都对标准化产⽣影响。
关于长江的诗句
为什么要进⾏特征缩放?
1. 统⼀特征的权重&提升模型准确性
如果某个特征的取值范围⽐其他特征⼤很多,那么数值计算(⽐如说计算欧式距离)就受该特征的主要⽀配。但实际上并不⼀定是这个特征最重要,通常需要把每个特征看成同等重要。归⼀化/标准化数据可以使不同维度的特征放在⼀起进⾏⽐较,可以⼤⼤提⾼模型的准确性。
2. 提升梯度下降法的收敛速度
在使⽤梯度下降法求解最优化问题时,归⼀化/标准化数据后可以加快梯度下降的求解速度。
具体使⽤哪种⽅法进⾏特征缩放?
在需要使⽤距离来度量相似性的算法中,或者使⽤PCA技术进⾏降维的时候,通常使⽤标准化(standardization)或均值归⼀化(mean normalization)⽐较好,但如果数据分布不是正态分布或者标准差⾮常⼩,以及需要把数据固定在 [0, 1] 范围内,那么使⽤最⼤最⼩值归⼀化(min-max normalization)⽐较好(min-max 常⽤于归⼀化图像的灰度值)。但是min-max⽐较容易受异常值的影响,如果数据集包含较多的异常值,可以考虑使⽤稳键归⼀化(robust normalization)。对于已经
中⼼化的数据或稀疏数据的缩放,⽐较推荐使⽤最⼤绝对值归⼀化(max abs normalization ),因为它会保住数据中的0元素,不会破坏数据的稀疏性(sparsity)。
哪些机器学习模型必须进⾏特征缩放?
通过梯度下降法求解的模型需要进⾏特征缩放,这包括线性回归(Linear Regression)、逻辑回归(Logistic Regression)、感知机(Perceptron)、⽀持向量机(SVM)、神经⽹络(Neural Network)等模型。此外,近邻法(KNN),K均值聚类(K-Means)等需要根据数据间的距离来划分数据的算法也需要进⾏特征缩放。主成分分析(PCA),线性判别分析(LDA)等需要计算特征的⽅差的算法也会受到特征缩放的影响。
决策树(Decision Tree),随机森林(Random Forest)等基于树的模型不需要进⾏特征缩放,因为特征缩放不会改变样本在特征上的信息增益。
进⾏特征缩放的注意事项:
需要先把数据拆分成训练集与验证集,在训练集上计算出需要的数值(如均值和标准值),对训练集数据做标准化/归⼀化处理(不要在整个数据集上做标准化/归⼀化处理,因为这样会将验证集的信息带⼊到训练集中,这是⼀个⾮常容易犯的错误),然后再⽤之前计算出的数据(如均值和标准值)对验证集数据做相同的标准化/归⼀化处理。
3、特征缩放的解释
进⾏缩放后,多维特征将具有相近的尺度,这将帮助梯度下降算法更快地收敛。为了解释为什么特征缩放会帮助梯度下降算法更快地收敛,Andrew给了两幅图来解释:
Feature Scaling
Idea: Make sure features are on a similar scale.
<
[公式]
[公式]
归⼀化前,代价函数
中国银行全称[公式]
小学三年级科学关于参数
[公式]
[公式]
的关系等⾼线图可能如下图:
⽽如果进⾏了,归⼀化,那么其等⾼线图可能就变成了下图:
属鼠几岁
义加偏旁组词⽽如果进⾏了,归⼀化,那么其等⾼线图可能就变成了下图:
关于等⾼线图的变化,Andrew并没有细说原因,只是直接这么说了。⼀种常见的误解是:
原来
[公式]
[公式]
的尺度不⼀样,所以等⾼线图是狭长的,⽽归⼀化以后,⼤家尺度(甚⾄取值范围)⼀样了,等⾼线图被压扁了,所以就是⼀个圆形了呗。但是问题在于,等⾼线图的变量(即轴)是散步的英文
[公式]
[公式]
,⽽不是
[公式]
[公式]
!对
[公式]
[公式]
做的缩放,导致
[公式]
关于
[公式]
[公式]
的等⾼线图产⽣的变化根本不是直观上的那么⼀⽬了然。
本⽂的⽬标就在于把这个问题解释清楚:对
[公式]
[公式]
的缩放是怎么把以

本文发布于:2023-07-18 03:17:05,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/1085849.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   数据   缩放
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图