探索性数据分析
探索性数据分析是利用ArcGIS提供的一系列图形工具和适用于数据的插值方法,确定插值统计数据属性、探测数据分布、全局和局部异常值(过大值或过小值)、寻求全局的变化趋势、研究空间自相关和理解多种数据集之间相关性。探索性空间数据分析对于深入了解数据,认识研究对象,从而对与其数据相关的问题做出更好的决策。
一数据分析工具
沙雕的英文1.刷光(Brushing)与链接(Linking)
刷光指在ArcMap数据视图或某个ESDA工具中选取对象,被选择的对象高亮度显示。链接指在ArcMap数据视图或某个ESDA工具中的选取对象操作。在所有视图中被选取对象均会执行刷光操作。如在下面章节将要叙述的探索性数据分析过程中,当某些ESDA工具(如直方图、V oronoi图、QQplot图以及趋势分析)中执行刷光时,ArcMap数据视图中相应的样点均会被高亮度显示。当在半变异/协方差函数云中刷光时,ArcMap数据视图中相应的样点对及每对之间的连线均被高亮度显示。反之,当样点对在ArcMap数据视图中被选中,在半变异/协方差函数云中相应的点也将高亮度显示。
2.直方图
直方图指对采样数据按一定的分级方案(等间隔分级、标准差分级)进行分级,统计采样点落入各个级别中的个数或占总采样数的百分比,并通过条带图或柱状图表现出来。直方图可以直观地反映采样数据分布特征、总体规律,可以用来检验数据分布和寻找数据离群值。
在ArcGIS中,可以方便的提取采样点数据的直方图,基本步骤为:
1)在ArcMap中加载地统计数据点图层。
美体女子
水仙姐姐2)单击Geostatistical Analyst模块的下拉箭头选择Explore Data并单击Histogram。
3)设置相关参数,生成直方图。
A.Bars:直方图条带个数,也就是分级数。
B.Translation:数据变换方式。None:对原始采样数据的值不作变换,直接生成直方图。
Log:首先对原始数据取对数,再生成直方图。Box-Cox:首先对原始数据进行博克斯-考克斯变换(也称幂变换),再生成直方图。
C.Layer:当前正在分析的数据图层。
D.Attribute:生成直方图的属性字段。
世界名桥从图3.1a和图3.1b的对比分析可看出,该地区GDP原始数据并不服从正态分布,经过对数变换处理,分布具有明显的对数分布特征,并在最右侧有一个明显的离群值。
在直方图右上方的窗口中,显示了一些基本统计信息,包括个数(count)、最小值(min)、最大值(max)、平均值(mean)、标准差(std. dev.)、峰度(kurtosis)、偏态(skewness)、
1/4分位数(1-st quartile )、中数(median )和3/4分位数(3-rd quartile ),通过这些信息可以对数据有个初步的了解。
四分位数(1-st quartile ):如果将N 个数值由小至大排列,第1/4N 个数就是第一个四分位数,通常以Q 1表示;第2/4N 个数就是第二个四分位数(Q 2),即中位数;第3/4N 个数就是第三个四分位数(Q 3)。四分位距即为:Q = Q 3 - Q 1,它将极端的前1/4和后1/4去除,而利用第三个与第一个分位数的差距来表示分散情形,因此避免了极端值的影响。但它需要将数据由小到大排列,且没有利用全部数据。
峰度(kurtosis ):用于描述数据分布高度的指标,正态分布的峰度等于3。如果数据的峰度大于3,那么该数据的分布就会比正态分布高耸且狭窄,此时数据比正态分布集中于平均数附近;反之,如果峰度小于3,数据的分布就比正态分布平坦且宽阔,此时数据比正态分布分散。
偏态(skewness ):用于描述数据分布左右对称性的指标,正态分布的偏态等于0。如果数据的直方图向右延伸,即大部分的数据集中于左边,则偏态大于0,称为正偏态或右偏态。如果数据的直方图向左延伸,即大部分的数据集中于右边,则偏态小于0,称为负偏态或左偏态。如图3.1,由原始数据的直方图上可看出,原始数据的分布属于正偏态,经过变换后的数据比正态分布的数据更加集中于平均值附近。
3. Voronoi 图
V oronoi 地图示由在样点周围形成的一系列多边形组成的。某一样点的V oronoi 多边形的生成方法是:多边形内任何位置距这一样点的距离都比该多边形到其他样点的距离要近。V oronoi 多边形生成之后,相邻的点就被定义为具有相同连接边的样点。
在ArcGIS 中生成数据的V oronoi 地图的基本步骤如下:
1) 在ArcMap 中加载图层。
2) 单击Geostatistical Analyst 模块下的下拉箭头选择Explore Data 并单击V oronoi Map 。
3) 设置参数,生成V oronoi 图,如图3.2所示。
(a )原始数据直方图 (b )数据变换后的直方图
梦见杀死人
图3.1 直方图示意图
A . Type :分配和计算多边形值的方法。
B . L ayer :当前正在分析的数据图层。
C . A ttribute :生成直方图的属性字段。
V oronoi Map 对话框Type 选项提供了多种分配和计算多边形值的方法:
⊙ 简化(simple ):分配到某个多边形单元的值是该多边形单元的值。
⊙ 平均(mean):分配到某个多边形单元的值是这个单元与其相邻单元的平均值。
⊙ 模式(mode):所有的多边形单元被分为五级区间,分配到某个多边形单元的值是这个单元与其相邻单元的模式(即出现频率最多的区间)。
⊙ 聚类(cluster):所有的多边形单元被分配到这五级区间,如果某个多边形单元的级区间与它的相邻单元的级区间都有不同,这个单元用灰色表示,以区别于其他单元。
⊙ 熵(Entropy):所有单元都根据数据值的自然分组分配到这五级中。分配到某个多边形单元的值是根据该单元和其相邻单元计算出来的熵。
⊙ 中值(median):分配给某多边形的值是根据该单元和其相邻单元的频率分布计算的中值。 ⊙ 标准差(StDev):分配给某多边形的值是根据该单元和其相邻单元计算出的标准差。 ⊙ 四分位数间间隔(IQR):第一和第三四分位数是根据某单元和其相邻单元的频率分布得出的。分配给都多边形单元的值是用第三四分位数减去第一四分位数得到的差。
举手礼V oronoi 地图可以了解到每个采样点控制的区域范围,
也可以体现出每个采样点对区域
图3.2 V oronoi 图
内插的重要性。利用V oronoi 地图就可以找出一些对区域内插作用不大且可能影响内插精度的采样点值,可以将它剔除。用聚类和熵方法生成的V oronoi 图也可用来帮助识别可能的离群值。自然界中,距离相近的事物比距离远的事物具有更大的相似性。熵值是量度相邻单元相异性的一个指标。因此,局部离群值可以通过高熵值的区域识别出来。同样,一般认为某个特点单元的值至少应与它周围单元中的某一个单元的值相近。因此聚类方法也能将那些与周围单元不相同的单元识别出来。
4. QQPlot 分布图
QQ 图提供了另外一种度量数据正态分布的方法,利用QQ 图,可以将现有数据的分布与标准正态分布对比,如果数据越接近一条直线,则它越接近于服从正态分布。
(1)正态QQPlot (Normal QQPlot )分布图宫缩症状
正态QQPlot 分布图主要用来评估具有n 个值得单变量样本数据是否服从正态分布。构建正态QQPlot 分布图的通用过程维(图3.3):
1) 首先对采样值进行排序。
2) 计算出每个排序后的数据的累积值(低于该值的百分比)。
3) 绘制累积值分布图。
4) 在累积值之间使用线形内插技术,构建一个与其具有相同累积分布的理论正态分布图,
求出对应的正态分布值。
5) 以横轴为理论正态分布值,竖轴为采样点值,绘制样本数据相对于其标准正态分布值的
散点图。图3.3为样本数据的正态QQPlot 分布图。
如果采样数
据服从正态分布,
其正态QQPlot 分
瘾科技布图中采样点分
不应该是一条直
线。如果有个别采
样点偏离直线太
多,那么这些采样
点可能是一些异
常点,应对其进行
检验。此外,如果
在正态QQ 图中数
据没有显示出正
态分布,那么就有
必要在应用某种
克里格插值法之
前将数据进行转
换,使之服从正态
分布。 在ArcGIS 中生成数据的正态QQPlot 分布图的主要步骤如下:
图3.3 正态QQplot 示意图
1) 在ArcMap 中加载地统计数据点图层。
2) 单击Geostatistical Analyst 模块下的下拉箭头选择Explore Data 并单击Normal QQPlot 。
3) 设置参数,生成Normal QQPlot 图(图3.4)。
A . Translation :数据变换方式。
a. None :对原始数据的值不作变换,直接生成QQPlot 图。
b. Log :首先对原始采样数据取对数,再生成QQPlot 图。
c. Box-cox :首先对原始采样数据进行博克斯-考克斯变换(也称幂变换),再生成正态
QQPlot 图。
B . L ayer :当前正在分析的数据图层。
C . A ttribute :生成Normal QQPlot 分布图使用的属性字段。
从图3.4a 可看出,该地区GDP 的采样数据不符合正态分布,但对其进行对数变换处理后(图3.4b ),数据近似符合正态分布。仅从采样点值的分布看,在小值区域和大值区域,存在个别离群点值。
(2)构建一个普通QQPlot 分布图
普通QQPlot (General QQPlot )分布图用来评估两个数据集的分布的相似性。普通QQPlot 分布图通过两个数据集中具有相同累积分布值作图来生成,如图3.5所示。累积分布值的作法参阅正态QQPlot 分布图内容。
在ArcGIS 中生成数据的普通QQPlot 分布图的主要步骤如下:
1)在ArcMap 中加载地统计数据点图层。
2)单击Geostatistical Analyst 模块下的下拉箭头选择Explore Data 并单击General QQPlot 。
(a )原始数据正态QQPlot 图 (b )经Log 变换后的正态QQPlot 图
图3.4 正态QQPlot 分布图