新型冠状病毒肺炎疫情演变特征探索——基于函数型数据视角

更新时间:2023-07-07 09:51:33 阅读: 评论:0

•新型冠状病毒肺炎相关防控•
新型冠状病毒肺炎疫情演变特征探索
—基于函数型数据视角
刘史诗钟柔张景肖
100872北京,中国人民大学应用统计科学研究中心,中国人民大学统计学院
通信作者:张景肖,E-mail:zhjxia()mc@
D O I:10.16462/jki.zhjhkz.2021.04.002
【摘要】目的探索和分析COVID-19疫情发展以来各地COVID-19病例数随时间的演变特
征,以发现疫情发展特点并比较不同的卫生防疫思路,为公共卫生管理积累经验方法从函数
型数据视角分析处理累计病例数据,采用函数喂主成分分析刻W各地累计病例数据随时间变化的
主要演变特征,并利用函数型主成分得分对各地累计病例数据曲线进行层次聚类,找出各地疫情
演变发展的相似性,结果各地的累计确诊、治愈和死亡病例在各时段上分别保留了前3个主成
分,反映了样本数据在不同时期的主要变异性各时段上分别把各地聚成了5类,每类的国家随
一岁英语
时间发展有所变动t结论全球疫情处于持续的起伏发展态势,分別在2020年6月底、9月底、丨1
月底呈现反复的增长,表明B前尚未有有效办法遏制疫情,且聚类结果的变化也表明集中隔离和
严格管控人境人员依然是目前较快速有效的防控措施
【关键词】COVID-19;病例数;函数型数据;主成分分析;聚类
【中图分类号】R181.2+2 【文献标识码】A【文章编号】1674-3679(2021)04-0376-08
基金项目:国家统计局全国统计科学研究重大项F1(2020LD06)
Exploration on the evolutionary characteristics of COVID-19:a functional data view LIU Shi-shi,
ZHONG Rou , ZHANG Jing-xiao
Center for Applied Statistics, Renmin University of China, School o f Statistics, Renmin University of China ,
Beijing 100872,China
Corresponding author:ZHANG Jing-xiao, E-mail:******************
【Abstract】Objective We explored and analyzed the evolutionary characteristics of COVID-19
cas numbers in different regions over time since the outbreak of the epidemic, so as to compare kinds
of prevention and control measures and gain experience for public health management. Methods From
the perspective of functional data, we applied functional principal component analysis to catch the pri­
mary temporal characteristics in cas number data over veral periods, and performed hierarchical
clustering on daily cas curves from various countries bad on functional principal component scores to
find the similarities among states. Results The first 3 functional principal components were retained for
cumulative confirmed, cured and death cas numbers of all countries over each time period, each re­
flecting certain variability pattern among data at <lifferent times. On each period, 5 clusters were ob­
tained ,and the countries in clusters has changed over time. Conclusions The global epidemic has
been fluctuating that cas numbers repeatedly grew at the end of June, September and November in
2020, which shows that there has been no effective measures so far. Changes in the clustering results al­
so indicated that centralized isolation and strict management of imported persons are still the relative fast
and effective intervention measures.
【Key words】COVID-19; Cas number; Functional (lata; Principal component analysis; Cluste-
英语四级考试时间安排
ring
Fund program:National Statistical Science Rearch Major Project of National Bureau of Statistics
(2020LD06)
(Chin J Dis Control Prev2021,25(4) :376-383)
C0VID-I9疫情自2019年12月前后出现以来1,现已流行于世界范围。截至2021年I月20 日,全球累计确诊病例已超过9 500万,死亡病例超 过200万&。通过对各地病例数变化曲线的分析,比较世界各地疫情演变特征之间的异同,有助于回 顾认识和反思疫情应对思路,为公共卫生管理安全 积累宝贵经验。Zarikas等从时间序列角度分析各国病例数据,将病例新增速度等作为特征变量用 来聚类。本文采用一种新的数据分析视角,即将各 地病例数据看作函数型数据4,使用函数型主成分分析(functional principal component analysis,FPCA)方法刻画各地病例数的变化特征,,函数型数据分析 可以对曲线等类型的观测数据做处理,且FPCA已广 泛用于脑电信号曲线:5:、肾小球滤过率曲线和上肢移动轨迹曲线71的变化特征分析。有研究|8:用 函数型数据工具对多个国家的C0VID-19病例数据 做回归、预测分析。本文将通过函数型主成分(functional principal component,FPC)曲线的变化探 索
各地数据的主要变异模式,并利用FPC得分数据 把这些国家划分为几个类以分析地域之间的相似 性。最后在各地演变模式和聚类结果中获得有关疫 情演变发展的冋顾认识。
1资料与方法
1.1资料来源数据分析研究所使用的数据来自 于约翰-霍普金斯大学网站每日发布的CO V1D-19病 例数据统计[2]。数据包括中国在内的31个国家的 累计确诊、治愈和死亡病例的每日数据。数据记录 时间范围从2020年1月22日至2021年1月20 日,共365 d。
1.2研究方法本文将各地的时间记录看作一条 数据记录曲线,从函数型数据角度对这些曲线作分 析。首先划分时间段:2020年1一2月份中国疫情 发展较快,大多数海外国家病例数量较少;3月下旬 开始,海外疫情发展迅速;2020年10月中旬开始,全球疫情又呈现一波增长。故为反映不同时段上疫 情演变特征的变化,本文将数据记录时间范围分成 4段:2020年I月22日至3月21日,共60 d;3月22日至7月9日,共110 (.1;7月10日至10月9日,共92 d;10月10日至2021年丨月20日,共丨03 (1。第一时间段主要对应中国疫情迅速蔓延阶段;第二 时间段对应海外疫情逐渐加重阶段;第时间段对应各地疫情中期发展的表现;第四时间段则反映各 地近期疫情反弹的情况。然后,在不同时段上进行I-TC.A,得出各地病例曲线的首要几个主成分函数’以此来发现各个时间段内各地疫情演化的主要特 征,以及不同时间段上各地疫情发展形势的变化 最后,基于上一步分析得到的FPC得分,通过层次 聚类方法对31个国
家作聚类分析,直观展示地域之 间的相似性和各地疫情防控措施效果由于英国从 2020年4月13日开始不冉更新治愈病例数据,而 且比利时和美国也分别于2020年11月11日、12月丨3日后不再更新治愈病例数据,所以第二至四时间 段的相应分析不含英国,第四时间段的相应分析不 含比利时和美国
1.3统计学方法
1.3.1 函数型主成分分析 FPCA旨在找到一组主 成分函数表示样本数据的主要变异性特征,FPC可 以反映样本数据在各时刻的变异性大小,函数取值 越偏离0,表明对应时刻上样本数据变异性越大,进 而揭示各地病例数据随时间的变化特征_FPC得分 则浓缩了原曲线变化的主要信息。具体步骤为:(1)使用B样条函数并结合粗糙度惩罚拟合原始记 录数据,得到数据曲线。(2)进行FPCA,对拟合曲 线对应的协方差算子做特征分解,得到主成分函数,并做方差最大化旋转方便解释… (3)选取累计方差 解释比例超过设定阈值的前几个主成分函数,以及 相应的FPC得分。
1.3.2层次聚类分析原曲线的大部分信息都包含在其对应的前几个FPC得分中,因此基于各个国 家对应的FPC得分值的欧式距离作为各个国家之 间的距离度量,进•步使用两类所含各国家之间的 距离平均来刻W类间距离,用系统聚类法对所有国家进行聚类,探索各地疫情演变发展的相似性。
1.3.3参数设置使用K 3.6.3软件进行统计分 析,其中病例数据的曲线拟合以及FPCA结果可由R 包fda便捷得到。采用=次B样条函数拟合数据曲 线,在各时段上分别设置65、115、97、108个均匀节 点,
即利用60、110、92、103个B样条基函数(对应 各时段的天数),通过交叉验证方法选定粗糙度惩 罚参数对拟合曲线进行平滑性调节。设定累计方差 解释比例阈值为99.9%。这真是极好的
2 结果
2.1函数型主成分分析结果累计确诊、治愈、死亡病例数据均保留前3个主成分,累计方差贡献率 都在99. 9%以上,旋转后各主成分函数见图丨、图2, 对应方差贡献率见表I 。
.FPC1
FPC2 FPC3
a ro for emily
图1第一、二时间段累计确诊、治愈、死亡病例数据的前3个主成分函数
Figure 1 The first 3 P'PCs for accumulative confirmed, cured, death cas number on the first and cond periods
第一时间段:累计确诊病例数据的第一主成分 在2020年1月底到3月上旬偏离0值,第二主成分 在3月中下旬偏离0值,第=主成分主要从2月底 开始偏离〇值累计治愈病例数据的第一主成分在 2020年2月初开始偏离0值,第二、三主成分表现 和确诊病例的规律相似。累计死亡病例数据的第一 主成分在20
20年1月底到3月中偏离0值,第二主 成分从3月初开始偏离0值,第三主成分在3月中 偏离〇值。结合方差贡献率结果可以看到,在第一 时间段内,确诊、死亡病例数据变异性主要集中在1 月底到3月中旬,治愈病例数据变异性主要体现在 2020年3月中上旬。
第二时间段:累计确诊病例数据的第一主成分 在2020年6月初开始偏离0值,第二主成分主要表 现为3月下旬到5月下旬偏离0值,第三主成分在4 月下旬到7月初偏离0值。累计治愈病例数据的第 一主成分在2020年6月中旬开始偏离0值,第二主 成分集中在4月底到7月初偏离0值,第三主成分 集中在3月下旬至5月底偏离0值。累计死亡病例 数据的第一主成分在2020年5月下旬开始偏离0 值,第二主成分主要在4月中旬至7月初偏离0值,
第一时间段
第5主成分则在3月下旬至5月中偏离0值总体 来看,确诊病例数据变异性主要集中在4月下旬至 7月上旬,治愈病例数据变异性主要体现在6月中 旬至7月上旬,死亡病例数据变异性则集中在4月 中旬至7月初。
第三时间段:累计确诊病例数据的第一主成分 在2020年9月初开始偏离0值,第二主成分主要在 7月中旬至8月底偏离0值,第三主成分则集中在7 月下旬到9月底偏离0值。累计治愈、死亡病例数 据分別和确诊病例的各主成分函数形态十分相近, 因此确诊、治愈、死亡病例数据变异性均集中在7月 下旬至9
月底。
第四时间段:累计确诊病例数据的第一主成分 从2020年11月底开始偏离0值,第二主成分主要 在10月中旬至11月中偏离0值,第三主成分在10 月下旬至1月初偏离0值。累计治愈病例数据的第
主成分集中在2020年10月中旬至11月底偏离0
值,第二主成分在12月中旬开始偏离0值,第=主 成分主要在1丨月初至12月上旬偏离0值。累计死 亡病例数据的第一主成分主要在2020年10月底到 2021年1月上旬偏离0值,第二主成分主要对应12
第二时间段
-0.1
-0.2
-0.2
-0.3
月份12
月份
-------FPC1—FPC2 —FPC3
图2第三、四时间段累计确诊、治愈及死亡病例数据的前3个主成分函数
Figure  2 The first 3 FPCs for accumulative confirmed, cured, death cas number on the third and fourth periods
表1
各时段累计确诊、治愈、死亡病例 数据各主成分的方差贡献率
英汉语音翻译器Table  1 The percentage of variability of each FPC for accumulative confirmed, cured, death cas number
on each time period
方差贡献韦(%)第一时间段
私人外教
第二时间段
第'时间段
第四时间段
确诊FPC153.8745.7229.1754.47FPC29.57  4.328.6534.55FFC336.53
ranks49.91
建筑师资格证怎么考62.18
10.95
治愈FPC132.2562.2237.8232.%FPC226.2434.37  3.7439.34FFC341.51
3.08
58.44
27.67
动漫学习网
死亡FPC150.3432.9923.0754.68FPC233.0465.1111.6426.50FPC3
16.61
1.88
65.29
18.81
月中旬后偏离o 值,而第三主成分则集中在10月中 旬至12月偏离0值确诊病例在第四时间段上的 数据变异性主要在11月底到2021年I 月下旬和10 月下旬至2021年1月初,治愈病例数据变异性大部 分体现在12月中旬至2021年1月下旬,而死亡病 例数据变异性集中在10月底到2021年1月上旬
2.2层次聚类分析结果将累计确诊、治愈、死亡病例数据的前3个FPC 得分作为9个变量对各个 国家进行聚类分析,得到各时段的聚类系谱图和聚 类结果。英国、美国、比利时的治愈病例数据缺失, 故在对应时间段上会缺少相应聚类结果。见图3、 图4、表2。3
讨论
FPCA 结果显示,累计确诊病例数据在第一时间 段上的第一主成分代表的数据变异性主要体现了中 国在2020年1月下旬到3月上旬确诊病例数远超 其他地区;第三主成分效应表现了 2月底之后样本 数据的较大变异性,即意大利、伊朗、韩国、西班牙等 国家的确诊病例数从2月底开始增加,对应了海 外疫情的蔓延之势到了第二时间段,第一主成分 效应表现出2020年3月下旬到7月上旬,巴西、印 度和俄罗斯确诊病例数的增长起伏,其确诊病例数 在4月增长较多,在5月增长有所放缓,而在6月又 开始较快增长;第三主成分效应主要表现出美国确 诊病例数在4月中到6月底持续快速增加。第三时 间段内,第一主成分效应表现了美国、印度、巴西的
10
裝I !
六级 时间
确诊病例数在2020年9月后快速增长;第三主成分 效应则反映了数据的整体变异性,即各国家在整个 时段上比较均匀的差异。在第四时间段上,第一主 成分效应体现出2020年丨1月底之后,美国、印度、巴西的确诊病例数大幅增长;第三主成分则反映了 上述国家以及俄罗斯的确诊病例数在丨〇月下旬至 11月上旬又有所增长〇
对于治愈病例,在第一时间段内,累计治愈病例 数据的第一主成分效应表现了 2020年2月初至3月初的样本数据变异性,主要对应中国治愈病例数在此 期间的大幅增多;第二、三主成分主要反映了 3月中 旬的样本数据变异性,主要反映了伊朗的治愈病例 数开始增长。第二时间段上,第一主成分效应主要表现了美国、巴西、俄罗斯、印度、智利的治愈病例数 从2020年6月中旬开始大幅增多,第二主成分反映 了4月底到7月初,美国、巴西、俄罗斯、德国、意大 利、西班牙、土耳其、伊朗等国家治愈病例逐渐增多。同时,治愈病例各主成分函数变化的时间点往往滞 后确诊病例1周至10 d。而进人第三时间段后,治 愈病例的各主成分效应和确诊病例的类似,说明在 第二、三时间段上,治愈病例与确诊病例之间存在一 定的协同变化,这种协同方式随着时间发展也在变 化。在第四时间段上,第一主成分主要反映了印度、巴西、美国治愈病例在2020年10月中旬至11月底 的较快增长;第二主成分对应了 12月中旬之后,上 述国家和俄罗斯、
智利治愈病例的大幅增长。

本文发布于:2023-07-07 09:51:33,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/78/1083426.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   病例   成分   累计
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图