198
地球与环境
E A R T H A N D E N V I R O N M E N T
202丨年第49卷第2期
V〇1.49. No. 2,2021基于因子强关联分析方法的滑坡易发性评价
刘瑞1…,李露瑶1’"*,杨鑫1,杨远陶1 ,杨梅1
(1.成都理工大学地球勘探与信息技术教育部重点实验室,成都610059;
2.成都理工大学地质灾害防治与地质环境保护国家重点实验室,成都6丨0059;
电器3.成都理丁.大学,成都610059)
摘要:在滑坡易发性区划制图过程中,预测模型性能的优劣很大程度上取决于众多影响因子的选择和组合,如何选择滑坡影响因子以优化滑坡预测摸型的性能是区域滑坡易发性评价的关键.本文提出一种基于强关联分析的Apriori算法,通过滑坡强关联分析来从预选的15个滑坡影响因子中选择诱发灾害可
能性最高的因子进行组合,进而利用随机森林构建滑坡易发性预测模型,并通过因子优化前后的结果对比衡量该方法对模型预测性能的影响。结果表明,经过优化后的因子组所得到的滑坡易发区域与实际的滑坡分布情况更加吻合、产生的预测模型精度更优。Apriori算法对滑坡影响因子组合方法加以改进,为更加精确的滑坡易发性预测提供一种新思路。
关键词:Apriori;因子筛选;随机森林;滑坡易发性区划
中图分类号:P694 文献标识码:A文章编号:1672-9250(2021)02-0198-09 d o i:10. 14050/jki. 1672-9250. 2020.48. 108
九寨沟风景名胜区是世界自然遗产,位于中国西北四川高原地区。该区域内拥有74种国家重点保护的珍稀植物和50余种珍稀动物,其中包括大熊猫和金丝猴。此外,九寨沟拥有丰富的古生物化石,古老的冰川地貌和许多梯级瀑布1]。2017年8 月8日21时19分46分,四川省阿坝州九寨沟县境内发生7.0级地震,引发了大量山体滑坡2。这种 地质灾害不仅威胁着人类的生命财产安全,而且对景区的生态环境造成了很大程度的破坏3:。为了 避免山体滑坡造成更多的灾害和负面影响,对山体滑坡区进行易发性评估是不可或缺的4<。
在使用当前流行的机器学习算法来建立滑坡易发性预测模型的过程中,衡量滑坡诱发因子对预测模型性能的影响程度至关重要,随机选择组合因子将给模型带来噪声,从而对评估模型的效果造成直接影
响6_9:。因此,本文提出使用Apriori算法对滑坡影响因子组合进行优化。Apriori算法可以从大规模数据集中发现事物之间的隐式关联111:,在研 究滑坡易发性中选择可能引发灾害的影响因子时,利用该算法能够充分考虑并挖掘各因子与滑坡之间的关联性,客观地选择因子并将具有良好相关结果的因子进行组合而使之达到最佳滑坡易发性评估效果。
1研究区概况
九寨沟风景名胜区位于中国四川省阿坝藏族羌族自治州九寨沟县,东经1〇3°48'~ 104°2\北纬32。56,〜33。17,(图丨),占地面积642. 97 km2。景区 主要位于九寨沟县漳扎镇境内、岷山山脉南段的内马弧形构造带上。自第四纪以来,该地区的强烈构造运动导致了频繁的区域地震活动,因此历史上曾发生过多次强地震。
2数据来源与处理
基于大量的数据和前人的相关研究[U_I8 ,本文 共选择了 15个影响因子作为本次滑坡易发性评价的原始指标体系(图2)。
其中,海拔高度通过与植被、岩土体湿度、人类 活动以及降雨的相关性而对滑坡灾害产生影响;坡 度一直以来均为影响滑坡稳定性的重要因素,同时 斜坡的坡向也是一个不可忽视的条件;滑坡的失稳与地层岩性关系密切,其能决定滑坡灾害的发育程
收稿日期:2020-09-01;改回日期:2020-丨卜05
基金项目:四川省教育厅项目(丨4Z B0071);四川省科技厅科技支撑项目(2012F Z0018):
第一作者简介:刘瑞( 1979-),男,副教授,主要研究方向为地球探测与信息技术 E-mail:lr@
*通讯作者:李露瑶(1996-),女,硕士研究生,研究方向为遥感与地质灾害.E-mail:丨ilya〇@S tu.C.dut.e(丨u .
第2期
刘瑞等•.基于因子强关联分析方法的滑坡易发性评价
199
I 03°48'40"E I 03°53,20"E I 03°58'0"l ; I 04°2'40"E
I 03°48'40"E I 03°53'20"E 103°58’0"E |〇4°2'40M l £
图1
研究区域
Fig. 1
Study area
度;河流通过其流水活动影响着周围地理环境,距 离道路的远近也影响着滑坡事件的发生,而滑坡灾 害的发育与断层的距离尤为密切,这是选择水系距 离、道路距离与断层距离作为研究因子的原因。除 以上研究者常用影响因子外,本文还选用了起伏 度、平面曲率,剖面曲率、地形湿度指数(Topographic
麻雀结局Wetness Index ,TW 丨)、径流强度指数(Stream Power Index ,SPI )、归一化植被指数(Normalized Difference Vegetation Index ,NDVI )、土地类型、地面峰值力口速
度(Peak Ground Acceleration ,PGA )作为研究因子。 起伏度为30 mx 30 m 栅格单元内的相对高差,曲率 反应了地表的弯曲程度和变化情况,和起伏度同属 地形地貌相关因子。NDV 1、TWI 、S P I 与W 属环境 条件因子,NDV 1是以由植物在近红外与红光波段 的反射特征提取并反映植被覆盖率的参数,与水土 保持能力相关联,LT 对滑坡的影响与之类似。TW 丨 与SP 1计算公式如下:
TWI = ln (/l ,/tan /3)
( 1)SPI = /l ,tan /3
(2)
财务转型式中,火为特定集水区面积(m 2)^是坡度(°),
TWI 可以定量模拟流域内土壤的干湿状况,其地形
湿度指数的大小代表土壤湿度达到饱和程度的大
小;S P I 可衡量水流侵蚀能力,值越大代表水流侵蚀 能力越大,其对滑坡的影响也越大。
将所有因子进行预处理并重采样为与数字高 程模型(Digital Elevation Model,DEM )相同的分辨 率,以30 m 精度栅格建立研究区滑坡易发性地理空 间数据库。D E M 数据来自地理空间数据云(Imp ://
W W W. gscloucl . cn /) D
地形地貌等因子数据通过处理
D E M 数据提取,岩性和断层数据由矢量化地质图处
理获取,道路距离与水系距离因子通过对道路和河 流进行多级缓冲获取。根据前人研究经验将15个 因子分别在ArcGIS 中利用自然断点法进行重分类 处理,具体分类结果如表1所示。
滑坡数据的编录是评估滑坡易发性的关键性 环节,为了构建滑坡分布图,本文通过遥感图像的 目视解译4
和野外调查收集了规模大小各异的
136个滑坡处并另外生成了相同数量的非滑坡处以 平衡数据。研究区的滑坡点分布图如图3所示。
3方法
本文首先通过A r c G I S 和E x c e l 对收集的数据进
行预处理,然后以构建的Apriori 关联规则模型来实
现影响因子与滑坡的强关联分析,并对影响因子进行 筛选、优化和组合。最后对随机森林模型得到的两种 滑坡易发性评估进行可视化比较—
其中一种利用
的是算法优化后的因子组,而另一种则利用的是非优 化因子组,即15个未经筛选的影响因子:2°_26。
主要技术流程如下:(1)收集数据并提取相关 的影响因子;(2)对各影响因子进行编码并使用Ap -
i 〇 r i 算法分析其间的关联规则;(3 )根据获得的强关
联规则来选择最优影响因子组;(4)使用随机森林 模型进行滑坡易发性分区制图;(5)模型精度比较 及各易发性区划分析。
3.1基于A p r i o r i 算法的滑坡因子筛选
Apriori 算法是最常用的关联规则挖掘算法,它
在 1990 年由 Rakesh Agrawal 博士和 Ramakrishnan
Srikant 博士共同创造,是一种原始的布尔关
联规则频繁项集挖掘算法。其算法主要步骤如下: (1)生成所有单项项目(本文中即滑坡影响因子类 别)的项目集列表;(2)扫描因子数据集,对数据集 的各项参数进行初步计算,在参数范围外的集合将 被移除当下数据集中;(3)合并剩余的数据集,生成 包含两个元素的一组项目集合,然后对其进行重新
F
o
p t e
N L a rN loct
Nlote
F p s N P 9S 0S
z b z o c c
N b s c s £
rs
-l 。^o 9s o z f
200地球与环境2021 年
阁例
I.8-.V5
6-^.9
■4、44
■ 4 5 5.2
九华山天台■15.3-8.4
图例
坡向DNVI PGA/g TW1道路距离/m SPI
剖rfri曲率起伏度/m水系距离/m土地利用地层岩性
N*滑坡验证点
〇,3_6.9km W
〇滑坡训练点
Fig. 2图2滑坡影响因子Landslide predisposing factors
扫描,再次将小于最小支持度的项集移除。重复此步骤,直至所有项集均被扫描;(4)生成基于频繁项集的滑坡关联规则。计算关联规则的参数有:置信度(Confidence)、提升度(Lift)、杠杆率(Leverage)和 确信度(Conviction)。
其中,4和S的支持度表示为:
S u p p〇rt(,4 = >B)= P(A U B)(3)置信度表示为:
C o n f i d e n c e(A=>B)= S u p p o r t(A U B)/S u p p o r t(,4 )
(4)
提升度被定义为:
P(/l U B)/(P(<4)P(B) ) (5)杠杆率则定义为:
P(/l U B)-P(/l)P(f i)(6)确信度定义为:
P(4)P(!B)/P(A U!B)(7)在由Apriori算法产生的滑坡关联规则中,将高 频率出现的影响因子认为具有更高滑坡预测能力,因此把此类因子作为影响滑坡的强势因子。相反,在关联分析结果中缺失的因子会被剔除,最终以
此
第2期
刘瑞等:基亍因子强关联分析方法的滑坡易发性评价
201
表1滑坡影响因子分类
Table 1
Class of landslide affecting factors
影响因子
分级
分类标准
栅格数
滑坡栅格数
影响因子分级
分类标准
栅格数
滑坡栅格数
1<308 017371<4. 1259 68417230-60 6 831202
4. 2-7. 7264 038193
60-90 6 0607剖面曲率
37. 8~ 12167 20725道路距离/m 490-120 5 7264413-1884 934245120- 150 5 42010519-4623 713106150-180 5 28241<70161 577147>180762 240132
71-140156 246151<0. 32141 95810平面曲率
3150-210164 38730归一化植被
2
0. 33-0. 83167 587224220-280153 20918指数
30. 84-0. 13220 955295290-360164 1571840. 14-0. 18182 746151<31170 364550. 19-0. 32
86 330192
31-50261 23381<50043 64617起伏度/m 350-70230 180152
500-1 00043 1327470 〜97111 76328断层距离/m 3100 〜1 50041 46775>9726 0361341 500-2 00038 76561<30082 621715>2 000632 566612
300-60081 309111
<0• 136 7310水系距离/m
3600 ~ 90079 1681地面峰值20. 1 -0. 14122 88604900 〜1 20076 2530加速度/g
3()• 15 〜0. 18134 649751 200- 1 50071 801040. 19-0. 22294 976426>1 500
408 4241250. 23-0. 27
210 298461震旦系白云岩
8 50001<1794 58842:務系砂岩、板岩
4 66002
18 〜27175 37010岩性
英国大学专业排名3
二叠系灰岩、板岩471 31140坡度/°328-36245 362314泥盆系灰岩、砂岩196 23146437-45209 983195石炭系白云质灰W 99 0329546-78
74 273
316第:系含砾粉砂岩
19 84201平坦2201<11153 61112北52 97942
12-19259 378113东北116 81125径流强度指数320 〜27233 56894
东113 08712428-38124 37434坡向
5东南80 11820539-14028 645406南74 389101<256267 64017西南108 28352
2 562-2 988118 00928西110 5937海拔/m
3 2 988-3 366138 65939西北95 9867
4 3 366 〜3 719159 271410北
47 30855 3 719-4 061
170 93451<3. 5172 098126>4 061
145 06362
3.6 〜3.9300 820181水11 7880地形湿度指数3 4 〜
4. 4206 882302
居民地346 476564 4.5-5.294 11917土地类型3裸地76 32115
5.3-8.4
25 637
18
4森林340 431385
其它
父母亲英语
27 805
规则来构建评估滑坡易发性的最佳因子组合。
3.2基于随机森林的滑坡易发性模型构建
随机森林(R andom F o r e s t , R F )是一种监督学 习算法,所构建的“森林”是众多决策树的集成,以 “b a g g in g ”方法来对其进行训练,用交叉验证的方法 选取模型样本以获得更准确和稳定的预测29。在 每个决策树的建立过程中,对输人的数据要进行行
和列的采样,并且选择某个属性对象时其结果输出 为数类别的众数。这种降维模式使其相对不容易 出现过拟合现象,在处理异常数据方面具有良好的 容忍,提高模型的稳定性和预测结果的精确度。
在本研究中,环境参数由A r c G I S 导出并栅格化 处理,基于python 3.7构建随机森林模型,再通过每 个网格单元的模型输出值来估计滑坡发生的概率,
202
地球与环境
2021 年
I 03°48'40M E
I 03°53'20M E
I 03°58,0"E
I 04°2'40"E
图3
研究区滑坡编录
Fig. 3
Landslide catalogue in study area
每个值的范围均在均在〇到i 之间。3.3模型的评估与比较
二分类问题常采用混淆矩阵来分析模型的精 度(表2),尤其广泛应用于预测滑坡易发性模型性 能的评估中[31:。
表2
混淆矩阵
Table 2 Confusion m atrix
混淆矩阵
实际情况
正例品牌护肤品有哪些牌子
反例
预测结果
正例T P F P 反例
F N
T N
其中,rP(T m e Positive )为真实值为阳性同时
模型认为是阳性的数量;FiV ( Fal Negative )为真实 值是阳性而模型认为是阴性的数量;fT 3 ( Fal Posi
tive ) 为真实值是阴性而模型认为是 阳性的数量; 77V (True Negative )则表示真实值为阴性同时模型判断
为阴性的数量。
根据混淆矩阵可以定义敏感性和特异性,敏感 性可以用来衡量模型是否能正确地将数据中的滑 坡点进行分类。其公式表示为:
TP _
TP
P ~ TP + FN
TPR
(8)
而特异性则衡量的是模型是否将数据中的非
滑坡点正确划分。公式表示为:
TP
F P
"F ~
FPR
:(9)
F P + TN
以特效性为横轴、以灵敏度为纵轴可以绘制受 试者工作特征曲线,B P R 〇C ( Receiver operating char
acteristic ) 曲线, 在混淆 矩阵的 基础上 使用该 曲线来
衡量模型的有效性。R 0C 曲线可以表示随着阈值 的变化敏感性和特异性的变化。对于不同模型的
R 0C 曲线,可以通过曲线下的面积(Area Under Curve , A U C )来衡量模型的平均性能值|32],本文采
用A U C 值对模型进行客观的评价。
4结果和讨论
4.1影响因子的最优组合选择
通过算法可获得许多强关联规则(表3)。对生
成的强关联规则进行遍历并剔除所得规则集中缺 失的滑坡影响因子,获得了与滑坡相关性最强的8 个因子,即:坡度、起伏度、断层距离、地面峰值加速 度、岩性、土地类型、平面曲率与水系距离;而海拔,
老子
径流强度指数,地形湿度指数、归一化植被指数、剖 面曲率,道路距离和坡向被剔除最终因子组。
表3
滑坡影响因子关联情况
Table 3
C orrelation of factors
因子组
置信度
提升度
杠杆率
确信度
坡度、起伏度
1.00 1.660. 1520. 65道路距离、坡度、起伏度 1.00 1.660. 1317. 87断层距离、P G A 、岩性
1.00 1.940. 1621.35P G A 、土地类型、岩性
1.00 1.940. 1621.35断层距离、水系距离、岩性0. 98 1.900. 1510. 43岩性、断层距离
0. 941. 730. 15 5. 93平面曲率、起伏度、断层距离0.931. 350. 08 3.47水系距离、P G A 、岩性
0. 93
1. 80
0. 16
5. 24
4.2滑坡易发性区划图
将研究区数据代人经过训练的R F 模型中,仿 真出九寨沟景区范围内每个栅格发生滑坡的概率。 根据概率值的不同,划分出由低到高的易发性等 级,产生滑坡易发性区划图(图4)。其中,优化前的 滑坡区划图所采用的是未经筛选的因子组数据,得 到的结果中含有较大噪声和误判区域;优化后的区划 图所采用的是筛选后的因子组,由于剔除了与研究区 滑坡数据呈次相关性的影响因子,减少了一些不必要 的冗余信息,其呈现的易发性区划图清除了部分噪 声,得到的结果也更加准确。后文的滑坡密度的统计 以及模型精度的验证增加了此结果的可信度。
F
O ^-0^
F
§0^
F
o s c
s NL0-9SC P?
o r'/.U T 0:p ‘
0寸,9
f
N -o r'u
t f Z P 9S O P!