第36卷第2期2021年4月
Vol.36No.2
Apr.2021灾害学
JOURNAL OF CATASTROPHOLOGY
韩继冲,张朝,曹娟.基于逻辑回归的地震滑坡易发性评价一以汶川地震、鲁甸地震为例[J].灾害学,2021,36(2):193-199.[HAN Jichong,ZHAN Zhao,CAO Juan Asssing Earthquake-Induced Landslide Susceptibility bad on Logistic Regression in2008Wenchuan Earthquake and2014Ludian Earthquake[J].Journal of Catastrophology,2021,36(2):193-199.doi: 10.3969/j.issn.1000-811X.2021.02.034.]
基于逻辑回归的地震滑坡易发性评价”
—
—以汶川地震、鲁甸地震为例
韩继冲V,张朝V,曹娟1,2
(1.北京师范大学地理科学学部,北京100875; 2.北京师范大学环境演变与
自然灾害教育部重点实验室,北京100875)
摘要:准确评估地震诱发的滑坡风险,并及时绘制滑坡易发风险图是灾害应急救援的科学前提和理论基
础。目前机器学习在滑坡敏感性评估中具有广泛应用,但大多数研究缺乏对模型的普适性探讨,且该类预测
模型缺乏定量评价地震动参数对模型精度的影响。该文以2008年5月12日的汶川8级地震和2014年8月3
日的鲁甸6.5级地震为例,先通过相关系数及方差膨胀因子选择地震滑坡的影响因子构建数据库,并随机按
照7:3的比例分为训练集和测试集,再分析影响因子在滑坡和非滑坡样本中的频数分布,最后分别利用两次
地震的训练集建立逻辑回归模型(Logistic Regression,LR)进行精度验证和易发性评估。结果显示模型在同一
dutycycle
次地震的测试集下均达到较高的预测精度(>90%);但是基于汶川地震构建的模型对鲁甸地震诱发滑坡的预
测精度整体下降了14%。此外,地震动参数(Modified MercaUi Intensity Scale,MMI)对模型预测精度贡献在
wear过去式5%-29%o结果表明基于历史地震事件建立的模型对未来地震引发滑坡的预测中仍具有较大的局限性,需
要增加不同地区不同震情的样本量和新的机器学习方法提高预测模型的普适性。
关键词:地震滑坡;逻辑回归;普适性;易发性评价;汶川地震;鲁甸地震
中图分类号:X935;P64;P315;X43;X915.5文献标志码:A文章编号:1000-811X(2021)02-0193-07superme怎么读
doi:10.3969/j.issn.1000-811X.2021.02.034
据统计,2008年5月12日的汶川&0级地震及其引发的大范围次生滑坡地质灾害造成了巨大的生命财产损失,滑坡导致了2万多人死亡(例如王家岩滑坡导致了约1600人遇难),约占地震致死人口的30%[1
]。2014年8月3日云南鲁甸6.5级地震,共造成617人死亡,而地震次生的滑坡(崩塌)地质灾害所造成的死亡和失踪人数,约占总死亡和失踪人数的30%⑵。此外,地震诱发的滑坡阻碍了应急救援人员进入受灾地区,延误救援工作。地震诱发的滑坡是灾区的重大次生灾害,但目前我国近实时地评估滑坡的潜在风险仍存在一定的局限性。因此,建立准确的近实时地震滑坡预测模型是一直以来急需解决的问题UT。
在过去几十年中已有许多不同的模型应用于滑坡敏感性地图的绘制,主要分为基于物理和基于统计的方法同。例如信息量模型E,Newmark 模型⑷,突变理论6如和层次分析法⑴]等。近年来,除了上述方法外,各种机器学习技术也逐渐应用于滑坡敏感性地图绘制,例如逻辑回归⑸,支持向量机凹,决策树和随机森林M等。其中逻辑回归是被应用最广泛且有效的模型之一[⑷,该模型在二分类问题中具有良好的效果。此外,部分学者提出了将物理或统计方法与机器学习方法相结合的混合集成方法,例如,林齐根等人基于支持向量机和Newmark模型的组合对汶川地震的汶川县的地震滑坡易发性进行了研究3〕。通过与地理信息系统(Geographic Information System,GIS)相结合,这些模型基于不同的研究单元和不同的指标因子对地震诱发的滑坡的概率进行了评估。
athlon然而,我们发现大多数机器学习模型的预测精度虽然取得了一定的进展,但是这些模型大都局限于单次地震引发的滑坡易发性的评估,缺乏深入地讨论模型的普适性,更缺乏对已有模型应用于不同地震灾害的效果评价[3-16]o这些研究的局限性在于模型的建立高度依赖于地震发生后的实际滑坡样本英语四级成绩查询忘记准考证号
的数量及分布范围。训练样本的缺乏可归结于地震发生后的恶劣环境导致无法准确获得大量的滑坡样本,这些基于小样本构建的模型在早期应急救援中的实际应用价值有限。例如
snow white*收稿日期:2020-10-22修回日期:2020-12-24
基金项目:国家自然科学基金项目(41621061);国家重点科研项目(2017YFC1502505)
第一作者简介:韩继冲(1996-),男,汉族,河北魏县人,硕士研究生,主要从事农业和自然灾害研究.
E-mail:hanjichong@maiL
通讯作者:张朝(1971-),女,汉族,湖南湘潭人,教授,博士生导师,主要从事农业和自然灾害研究.
E-mail:zhangzhao@
194灾害学36卷
仅使用地震发生后的最初几个小时内绘制的一部 分滑坡作为训练样本地震诱发滑坡中图像解 译是一个耗时的过程,同时样本不足或偏差也会 影响模型的预测精度⑶。因此,如何利用历史地 震滑坡样本建立预测模型,将该模型直接应用到 未来地震发生后近实时评估滑坡的易发性更值得 我们关注[3
_4<18]0不同地震可能发生在不同的气 候,地质和地形条件下,并引发具有不同空间分 布的滑坡,因此应该深入探讨已有模型的普适性 问题⑶。模型的普适性可望更好地为应急救援提 供决策依据。最后,地震诱发的滑坡形成是由诸 多因素(岩性,坡度等)共同决定的,它们影响着 滑坡发生的概率和规模[4型,地震是最初的触发 条件,如何量化地震动参数指标对模型预测精度 的影响有助于了解模型预测的不确定性。
针对上述问题,本文以汶川地震和鲁甸地震 为研究案例,基于逻辑回归算法设计了三组对比 试验,建立了近实时的滑坡预测模型并对模型的 普适性进行初步了讨论。此外,本文还定量分析 了地震动参数(修正麦加利地震烈度)对近实时模 型预测精度的影响。希望本研究为地震滑坡预测 模型的实际应用推广提供一种新思路,并帮助决 策者更有效地进行科学规划和应急决策。
1研究区概况
汶川8.0级地震发生在龙门山构造带,震中位 于青藏高原东部边缘。地震给四川,甘肃,陕西、 重庆等省区带来了严重破坏。由于地震区位于地 势起伏的山区,形成了大量的崩塌、滑坡和泥石 流等次生山地灾也]。初步统计,地震引发的山体 滑坡直接造成约20 000人死亡切o 2014年8月3 日云南昭通鲁甸县(103。19'30'虫,27°05z 13w N )发生 6. 5级地震,震源深度约为12 km o 与汶川地震相 似,鲁甸地震发生在山区,位于青藏高原东南缘。 主要活动断层为NE —SW 走向的昭通一鲁甸断 裂[刃。由于复杂的地形条件,地震诱发了大量的 山体滑坡,造成了严重的灾害。
2数据获取与处理
F p c g 农
N .p 9m
N b b ^o t
2.1滑坡与非滑坡样本數据
本文中使用的汶川地震和鲁甸地震的滑坡编
1Q2°0'0”E
I 104 WE
(町汶川&0级地鷲
目数据来源于已有的研究成果,由许冲等人制作 完成[24_26]o 该滑坡数据至少符合以下3个条件: ①滑坡为面状多边形;②通过高分辨率的遥感卫 星图像进行了目视解译,实地调査和系统分析; ③排除了非地震引发的滑坡。已有多项研究表明 该数据具有较高的质量数据的完整性降低 了结果的不确定性。汶川地震中共包含了 197 481 个地震滑坡,鲁甸地震中包含了 1 024个地震滑 坡。在模型训练
和精度测试时需要等量的非滑坡 数据集来平衡样本,本文在生成非滑坡时采用了 前人提出的双缓冲算法[18>27]o 对研究区每一个滑 坡分别做两个半径不同的缓冲区,在内部缓冲区 和外部缓冲区之间的范围内随机生成等量的非滑 坡样点。内部缓冲区和外部缓冲区的半径分别为 研究使用的像元分辨率(90 m )的10 ~ 15倍。选择 此缓冲区半径的大小是为了确保不会将同一像元 同时划分为滑坡和非滑坡,同时尽可能的保证地 震发生时滑坡与非滑坡具有相同的外界条件。由 于生成的非滑坡为点状数据,为保持数据类型统 一,提取面状滑坡的中心点代表滑坡。2.2地廉滑坡影响因子数据
由于滑坡的性质和发展非常复杂,在模型中 应包括哪些滑坡影响因素还没有明确统一的共 识[28 - 29]o 本文参照前人研究和可用的数据选择了 修正麦加利地震烈度、岩性、断层距离、高程、 坡度、平面曲率、剖面曲率、地形湿度指数和矢 量稳健性测度作为滑坡的影响因子。其中岩性和 修正麦加利地震烈度为类别变量,其余指标为连 续变量。由dem 讨僧得到的指标因子在SAGA 7. 5 和ArcGIS 10.4中完成。各影响因子的数据细节及 来源如表1所示。
在滑坡建模过程中,冗余信息会产生噪声, 降低预测能力。本文采用Peaison 相关系数和方差 膨胀因子(肋)对连续性变量的滑坡影响因子的共 线性进行分析(图2)。结果表明影响因子间的相关 系数均小于0.7,且两次地震的所有指标因子的 "F 值均在1.03 -2. 32的范围内,该结果表明指 标间不存在共线性。研究单元可能会影响滑坡易 发性评估的结果⑶叩,本文使用网格单元来评估 滑坡易发性。所有数据的网格(像元)大小统一为 90 m,将各滑坡影响因子值赋给各网格单元。坐标 系统一采用
CGS_WGS1984O
N b b f g CMI
103°10'0"£ 103°20'0"E 103°3。'0吒
(b)鲁甸6.5级地農
图1 2008年5月12日汶川&0级地震与2014年8月3日鲁甸6. 5
级地震研究区图
2期韩继冲,等:基于逻辑回归的地廉滑坡易发性 以汶川地廉、鲁甸地廉为例1953方法
3.1逻辑回归
本文使用Logistic 算法建立地震滑坡预测模型,
该算法适用于二进制因变量(滑坡,非滑坡)建模。 logistic 回归将滑坡废生的观测|结臬映射到Logistic 函数中。logistic 函数表示滑坡发生概率的对数, 可以表示为方程中包含的各个指标因子的线性 的 Q4, 14]
p(y) = 1 _y ;
(2)y = a + &Cj +cx 2 + dx 3 + …。
(3)
式中:P 为滑坡发生的概率,衍,衍,知为指标因 子。a, 6, c, /为回归系数,采用最大似然估计 方法求解。本文应用了 50%的概率阈值划分滑坡 和非滑坡。该算法在Matiab2019a 中实现。将上述 得到的每次地震的滑坡和指标因子数据按照7 :3 随机划分为训练集和测试集。
Logistic(p) = ln( —) =a +bx, +cx 2 + dx 3 + …; (1)
1 ~P
表1指标因子数据来源
影响因子
fillsolidrect简写
分辨率数据来源文献来源
修正麦加利地震烈度
MMI 1 km
USGS ShakeMap [30]
岩性LITHOLOGY 矢量GLiM 全球訓数据集[31]断层距离DFAULT 矢量
GEM 全球活动断层[32]高程DEM 90 m SRTM Version 4[33]坡度SLOPE 90 m 由DEM 计算得到[34]平面曲率PCUR 90 m 由DEM 计算得到[34]剖面曲率VCUR 90 m 由DEM 计算得到
[34]地形湿度指数TWI 90 m 由DEM 计算得到[35]矢量稳健性测度
VRM
90 m
由DEM 计算得到
[36]
30C
药20C
10C
图2汶川地震和鲁甸地震的影响因子间的相关系数和显著性检验
9
g 断真距關
(■) MMI
平面曲率
m 矢ait tit 性测度
6000- t 1OOQO ' [
nojo- I . |
o
11
2000 4000 6000
图3
不同影响因子中滑坡与非滑坡的频数分布
196
灾害学36卷
3.2精度验证
利用测试数据集,采用统计方法和AOC 曲线 对滑坡模型的性能进行了评价。本文中使用的统 讦•芳法是精确率(prec 血on),召回^(recall),雇褊 率(accuro©)和ROC 曲线。ROC 曲线下面积血/C 通常用来衡量滑坡模型的精度,值越大,说 明模型的预测性能越好。
precision
呼节加
(4)
recall =
FP TP + FN ;
(5)
°^呵=TP + FP + TN + FN 0 ()
式中:FP 为误分类滑坡的数量样本,FN 是误分 类的非滑坡样本数量;7P 是正确分类的滑坡样本 数量,7W 是正确分类的非滑坡样本数量。
4结果
4.1滑坡与非滑坡的指标因子的频数分布
为了解滑坡/非滑坡数据与因子变量之间的分 布关系,本文绘制了两次地震所有的滑坡点和非 滑坡点的影响因子的直方图(图3)。可以发现滑坡 和非滑坡的MMI 的分布均呈现出正态分布的特点, 但均值具有较大差异,MMF 值越大,滑坡发生的 频率越高。滑坡和非滑坡具有较明显差异的影响 因子还有坡度,距断层的距离,高程和岩性。整 体上滑坡频数高的地方坡度较大,这与前人的结 论一致⑷。此外,我们注意到平面曲率,剖面曲 率,地形湿度指数和地形坚固度指数的滑坡和非 滑坡频数的分布差异较小,但仍表现出一定的规 律,如平面或垂直曲率的非滑坡在曲率为0值的地 方比滑坡的频数更大。4.2模型预测精度评价
依据上述的方法建立了 3个预测模型。模型 一:基于汶川地震的训练数据建立的模型对汶川
102WE go 1*
(a)樓空一旳测结嘿
103’WE 103*2WE WO'WVE
但)枫想二脚測结果.柚加旳坡点
地震的测试数据集进行预测,验证模型精度;模 型二:基于鲁甸地震的训练数据建立的模型对鲁 甸地震的测试数据集进行预测;模型三:基于汶 川地震的训练数据建立的模型对鲁甸地震的测试 数据集进行预测。通过对这3个模型的预测精度进 行对比来检验模型的普适性。表2列出了不同模型 的预测精度结果。召回率,精确率和准确率的结 果证明,模型一和模型二表现最佳。模型三的精 确率较高(0.94),但召回率较低(0. 73),即该模 型准确预测的滑坡数量占实际的滑坡的数量的比 例为0.73。
表2不同模型的预测精度对比
精度模型一模型二模型三
召回率
0.930.920.73精确率
0.930.920.94准确率
0.930.920.79图4a 显示了模型预测的ROC 曲线。模型一具 有量佳的AUC(0. 98),模型二的如7C 值为0.97, 模型三的4UC 值为0. 89,整体上预测精度较高, 但相较于模型一和模型二精度较低。根据混淆矩 阵图4b 至图4d 可以发现模型三倾向于将更多区域 标识为滑坡,而预测正确的滑坡的数量占真实滑 坡数量的比例相对较低,这表明模型的普适性
lOTWi
10*WE WWE
二月英文2)傻业一预测络翠.叠加灣坡点
I
I
I
103-10*0T ]03"2(HrE [OyatHTE
(创模吒三预测給卑图5不同模型预测的滑坡发生的概率(0~1)图
KMTCWE 1Q3*2O grE KH3<rQ~E
⑴枳熨一预测铝更,叠加滑城点
图4不同模型预测结果的ROC 曲线,4J/C 值和混淆矩阵图
103" W0T
阳2g"F
specific是什么意思103"30W
(C)
规型二廉测結宋
2期韩继冲,等:基于逻辑回归的地廉滑坡易发性以汶川地廉、鲁甸地廉为例197
4.3地震滑坡灾害易发性制图
基于上述建立的滑坡模型来预测整个研究区域中每个网格单元的滑坡发生的概率值,生成滑坡易发性
图(图5)。模型一和模型二生成了最高质量的滑坡敏感性图,大多数滑坡位于发生概率为0.8以上的区域,实际滑坡发生的位置与高概率地区较为吻合,这是合理的。在模型二的预测结果中(图5)我们还可以看到较为明显的地形特征(例如地图中高概率地区位于山谷区),它们显示出明显的滑坡模式。山体滑坡的可能性与地形形状密切相关,这与先前的研究结论相符⑶]。模型三的区域预测结果较差,其预测概率在0.6以上的区域大于模型二,较多的区域高估了滑坡发生的概率,与实际滑坡位置的吻合度相对较低。结合4.2中对模型预测结果的召回率,精确率,准确性,ROC, 4UC和混淆矩阵图的全面比较,发现模型在同一次地震的测试集下均达到较高的预测精度,而将建立的模型对不同的地震诱发的滑坡预测时精度相对较低。
4.4地震动参数对模型预测精度影响的定量分析
为了定量分析地震动参数(血)对模型预测准确性的影响,从模型输入列表中去除了M血影响因子。表3和图6显示了评价模型在不同统计指标下的精度。可以发现在去除MMZ指标后,三种模型的各项精度指标均下降,其中模型一,模型二和模型三的准确度分别下降0.15,0.05和0.29。这表明地震动参数在滑坡预测中的重要作用,尤其是基于汶川地震数据训练的模型在预测鲁甸地震诱发的滑坡时精度下降最为明显。
表3去除因子后不同模型的预测精度对比
精度模型一模型二模型三
召回率0.830.890.56
精确率0.750.890.72
准确率0.780.870.50
(d)版”」
图6去除MM1因子后模型预测结果的ROC曲线,
41/C和混淆矩阵图
由于在地震发生后,不同时间会产生不同的ShakeMap版本⑶皿],根据上述得出的结论可知,模型预测的地震滑坡分布的准确性严重依赖于ShakeMap。因此在不同时间将产生不同的滑坡概率分布图。这与Allstedt等人在研究2016年11月14日新西兰凯库拉7.8级地震时得出的结论相似⑷]。研究结果表明在地震发生后的前期,模型的预测结果具有较强的不确定性,应该将模型的这种局限性清楚地传达给滑坡模型的使用者和决策者。
5讨论
针对现有研究中对模型普适性研究较少的不足,本文设计了三组对比试验来初步讨论模型的适用性。结果发现当训练集和测试集来源于同一
心理医生英文次地震时具有较高的预测精度,而基于早期地震滑坡数据构建的模型应用到其他地区预测滑坡的
精度要降低。未来需要增加更多的地震滑坡事件
验证模型的普适性。地震的震级,滑坡数量以及地理条件差异等因素是造成精度降低的可能原
因[切。此外,影响因子之间可能存在着较强的交互作用[磁⑶,不同地震发生时影响因子之间的交互作用的不同也是可能影响模型普适性的原因之一。在选择评价指标因子方面,针对不同地震发
生的地理条件差异,可通过聚类的方式得到特点相同的地震滑坡事件,然后对不同的类别建立地
震滑坡预测模型⑶冏,然而这种方法需要大量的历史地震滑坡数据集,目前仍没有足够的数据来
保障这种模型的准确性K18]o此外,将表达空间异质性的指标加入模型训练也可能增加模型的普适性[—45],这需要在以后的研究中进一步证明。根据先前的研究,不同的滑坡模型的性能在不同
的研究区域中是不同的少打因此,将多种机器学习算法堆栈也是增加模型普适性的方法之一。Nowicki Je等人的研究结果也证明了基于全局构建的预测模型可能不如特定区域模型或针对个
别气候或构造状态训练的模型那样准确⑷。本文证明了地震动参数(MMI)对模型的预测精度具有重要影响。此外,地震发生后由于随着时间的变化ShakeMap也在不断变化,地震发生后短期内模型的预测结果仍具有较大的不确定性[4>39-401O由于数据获取等原因,本文建立的模型未包含人类活动和地层产状的影响,如修建道路等建筑工程⑷⑷]。认识到目前大多数机器学习模型无法准确预测不同区域特点的地震诱发滑坡的概率,应开展进一步的研究,包括收集更多的滑坡编目和分辨率更高的指标因子以训练特定地区的模型。对地震发生后的灾害响应策略评价有一定的参考价值。
6结论
本文基于逻辑回归算法,构建了汶川地震和鲁甸地震的近实时滑坡预测模型,并对模型的普适性进行了讨论。模型的精度检验和易发性概率图表明逻辑回归模型在同一次地震滑坡的预测中表现良好。然而基于汶川地震数据训练的模型对鲁甸地震诱发的滑坡的预测精度较低,且该模型整体上会显示出高估实际滑坡风险的概率。此外,近实时地震滑坡预测模型的预测精度受ShakeMap 的地震动参数不确定性的影响较大,本文的结论表明在未来的研究中应重点关注模型的普适性,使得所构建的模型对未来地震发生后的灾害响应策略评价具有更高的参考价值
。