•论箸・皮肌炎基因表达谱的生物信息学分析
白晶晶,吴婵媛,钟丹丽,王迁,曾小峰
作者单位:100730北京,中国医学科学院北京协和医学院北京协和医院风湿免疫科,
2021四级作文
风湿免疫病学教育部重点实验室,国家皮肤与免疫疾病临床医学研究中心
通信作者:王迁,E-mail:wangqian_
DOI:10.3969/j.issn.1673-8705.2020.06.004
【摘要】目的利用生物信息学的分析方法研究皮肌炎(DM)基因表达谱的改变,探索DM
潜在的发病机制。方法GEO数据库下载DM患者肌肉组织基因表达谱数据集(GSE1551,
GSE39454)。利用R软件对数据集进行差异表达基因(DEGs)的筛选。将两个芯片数据集筛选得到
的DEGs取交集获取目的基因。利用DAVID数据库对目的基因进行基因本体论(GO)及通路富集
(KEGG)分析。利用STRING数据库构建目的基因的蛋白质互作网络并根据基因间的连接度值寻找核
心(Hub)基因。结果通过对两个基因数据集的DEGs取交集获得101个目的基因。GO分析显示生
物学过程主要富集于一型干扰素信号通路以及抗病毒反应等;分子功能主要富集于抗原肽结合以及双
链RNA结合等;KEGG通路主要富集于单纯疱疹病毒、甲型流感病毒等病原体的感染。蛋白质互作
outernet
网络分析筛选出STAT1、MX1、GBP1以及IFIT3等10个Hub基因。结论通过生物信息学分析所发
现的Hub基因及信号通路可能成为DM潜在的生物标志物以及治疗靶点,并为DM的发病机制研究提
供理论依据。
【关键词】皮肌炎;生物信息学;基因芯片;一型干扰素
基金项目:国家重点研发计划精准医学专项(2017YFC0907604);国家“十三五”重大新药创制专
项课题“创新药物全过程临床评价示范性技术平台建设”(2019ZX09734001-002-004);国家自然科学基
金青年基金项目(81601430,81471615);中国医学科学院医学与健康科技创新工程(2019-I2M-2-008)
Bioinformatics analysis of gene expression profiles in dermatomyositis BAI Jing-jing,WU
Chan-yuan,ZHONG Dan-li,WANG Qian,ZENG Xiao-feng
Department of Rheumatology,Peking Union Medical College Hospital,Chine Academy of Medical Sciences&
Peking Union Medical College,Key Laboratory of Rheumatology and Clinical Immunology,Ministry of Educa
tion,National Clinical Rearch Center for Dermatologic and Immunologic Dias(NCRC-DID),Beijingpractice的过去式
100730,China
Corresponding author:WANG Qian,E-mail:wangqian_
[Abstract]Objective To explore the potential pathogenesis in dermatomyositis(DM)by investigating
the aberrantly expresd gene profiles using bioinformatics analysis.Methods The gene expression profiles of
the DM muscle tissues were downloaded from GEO databa(GSE1551,GSE39454).Differentially expresd
genes(DEGs)were filtered by using R programming respectively.Objective genes were obtained by overlapping
the DEGs from the two datats.The Gene Ontology(GO)analysis and Kyoto encyclopedia of Genes and Ge
nomes(KEGG)pathway enrichment analysis were conducted by using the DAVID databa.A protein-protein
interaction(PPI)network was described by using the STRING databa.Hub genes were screened bad on the
degree value.Results101overlapping DEGs from the two datats were filtered as objective genes.GO analy
sis revealed that most significantly enriched terms in biological process included type I interferon signaling
pathway and defen respon to virus,etc.Molecular functions mainly included peptide antigen binding and
double stranded RNA binding,etc.KEGG pathway enrichment analysis indicated that objective genes were most
enriched in the Herpes simplex infection and Influenza A,etc.PPI network analysis screened out ten hub
genes,including STAT1,MX1,GBP1,IFIT3,ISG15,OAS2,OAS1,OAS3,RSAD2,IFIT2. Conclusion The identified hub genes and signaling pathways may rve as the potential molecular biomarkers and therapeutic targets in DM and provide the insights for further mechanistic studies.
[Key words]dermatomyositis;bioinformatics;microarray;type I interferon
Fund program:Chine National Key Technology R&D Program of Ministry of Science and Technology (2017YFC0907604);“13th Five-Year”National Science and Technology Major Project for New Drugs of the Ministry of Science and Technology of China(2019ZX09734001-002-004);National Natural Science Foundation of China(81601430,81471615);Medical and Health Science and Technology Innovation Project of Chine Academy of Medical Sciences(2019-I2M-2-008)
皮肌炎(dermatomyositis,DM)是一种以皮肤与骨骼肌受累为主要特征的系统性自身免疫性疾病。对称性的近端肌肉无力是DM常见的临床表现,患者实验室检查血清肌酸激酶水平升高,肌肉病理出现束周肌纤维萎缩与纤维化,肌束膜可见炎症细胞浸润。DM的发病机制复杂,遗传、环境、免疫机制以及非免疫调节机制等多种因素共同参与。以往研究表明,一型干扰素系统激活在DM发病中发挥重要作用,但是DM的确切致病原因及发病机制尚不清楚。
随着二代测序和基因芯片技术的不断发展及多组学数据库的建立,应用生物信息学对组学数据进行深度挖掘,预测分子间的相互作用关系,已成为研究疾病分子机制的重要方法之一。本研究利用NCBI GEO(Gene Expression Omnibus,GEO, bi.v)数据库的DM基因表达谱数据筛选目的基因,并利用DAVID、KEGG以及STRING数据库分析目的基因主要富集的生物学过程、分子功能以及信号通路,为DM生物标志物的鉴定以及分子机制研究提供依据。
1材料与方法
1.1表达谱数据获取与处理
数据来源于NCBI GEO数据库,数据系列号为GSE1551[1]和GSE39454[2]o样本采用Affymetrix Human Genome U133A Array平台检测。GSE1551数据集包括13例皮肌炎肌肉组织样本以及10例健康肌肉组织样本。GSE39454数据集包括8例皮肌炎肌肉组织样本以及5例健康肌肉组织样本。利用Pe
rl软件对芯片数据进行预处理。GSE1551数据集的GSM26526, GSM26527及GSM26530健康肌肉样本表达值分布异常,予以去除。
1.2目的基因筛选
利用R软件的Limma包计算基因表达差异的显著性P值。以P<0.05并且I logFC I M1为条件,筛选显著差异表达基因(differentially expresd genes,DEGs)。利用Heml软件绘制DEGs热图。利用韦恩图将两个肌肉组织芯片数据集筛选得到的DEGs取交集,获取目的基因进行后续分析。
1.3目的基因功能富集分析
利用富集分析工具DAVID(v/)分析目的基因参与的GO功能富集及KEGG 通路功能富集。以参与富集基因个数counts,矫正P<0.05为筛选条件。
1.4目的基因蛋白质互作网络构建
结合STRING(https:///)数据库分析目的基因的蛋白互作网络(Protein-protein interaction,PPI)O以PPI score>0.4为标准,构建目的基因的PPI网络并筛选出连接度值位于Top10的核心(Hub)基因。构建PPI网络软件为Cytoscape (version: 3.6.0)。
2结果
胖子衣服
2.1差异表达基因基本信息统计
数据集GSE1551筛选出472个DEGs,其中上调311个,下调161个;GSE39454数据集共筛选出177个DEGs,其中上调153个,下调24个。2个数据集I logFC I>2的显著DEGs热图分别如图1A、1B所示。对2个数据集的DEGs取交集,共筛选出101个目的基因,其中上调基因96个,下调基因5个(表1)。
2.2目的基因功能和通路富集分析
对目的基因进行GO功能富集和KEGG-Pathway 通路富集分析。GO富集主要包括抗病毒感染、抗原提呈以及趋化因子活化等,最为显著的生物学过程为一型干扰素通路的活化(图2A);分子功能富集于抗原肽结合、双链RNA结合、TAP结合等(图2B)。KEGG-Pathway 分析发现显著富集的通路包括
中华临床免疫和变态反应杂志2020年12月第14卷第6期 Chin J Allergy Clin Immunol, December 2020, Vol.14. No 6
531
图1ISG15PSMB8 SIK1 GBP1 SERPINE1 CDKN1A CXCL11 CXCL10 POSTN GADD45A CD163IGLCl IGLV1-44C1QA PYCARD 差异表达基因热图
IIW G
可口可乐广告曲C S Q
8W G
A
PMAIPl SERPINH1 GPR137B MYH3 MYBPH RSAD2 IFTT3 DDX60 OAS1 MX1 DDX58 IFI44L IFI44 IFI27QAS2 USP18IFTT5 STAT1IHHl SLC15A3 IRF9 RTP4 ISG20IFI6 IRF7 HERC6 LY6E ASNS CCL8 HCP5 CHAC1 POR MYC ACKR1 ASPM RNASE6 SPP1 MMP3 CALCB : KCNA5 ■笛REEP2
s n ---1
V
^^—一 一一一 一
^^
1
一
IFTT3MYH3ACTC1MYBPH ISG15IFI6USP18OAS1MX1RSAD2CMPK2I
HERC5DDX60
gmentedIFTT2IFI44L IFTTl EPSTI1RTP4ISG20STAT1IRF9UBE2L6IFI27CXCL11CCL8CXCL10GBP1PSMB8HCP5RARRES3Cl Q B CXCL9MMP3CALML6
6 co 守 g 9 8忖 w w w w w w
Q Q Q Q Q Q Q
B
郑州室内设计培训
Fig 1 Expression heatmaps of DEGs
A : DM 肌肉数据集GSE1551目的基因(尸<0.05 且 logFC >2);
B : DM 肌肉数据集 GSE39454 (P<0. 05 且 logF
C >2)
表1 GSE1551数据集和GSE39454数据集共同的差异基因
Table 1 Overlapped DEGs from GSE1551 and GSE39454
Gene symbol
上调
CDKN1A, SP100, POSTN , CD163, GBP1, LBE2L6, TRIM22, CCR1, HLA-A, NMI, STAT1, IFIT5, IFI44, IFITM3, CHAC 1, SIGLEC 1, OAS3,CHRNA1, IFITM2, OAS1, ISG15, CCL2, LY96, MS4A4A ,
LGALS3BP , C1QA , PRLNE2, MX2, ZC3HAV 1, SLC15A3,VAMP8, TDRD7, PSMB9, ASNS, DDX58, CXCL10, CXCL11,ISG20,VSIG4,
IFI16,HLA-C ,IFIH1,
RND3,OAS2,HLA-B,HLA-G,
AMPD3,TAP1,CCL8,
HLA-F,VCAM1, DDX60, HERC5, IFI35,IFITM1, LY6E, PSMB8,
C1QB, LSP18, IFI27, PLTP , IFIT3, PARP12,
RSAD2, IFI44L, IRF9,
RTP4, SERPINE1, HLA-
J, TIMP, LGALS9, SP110, XAF1, C1R, HCP5, SRPX, MX1, SAMD9, MLLT11, HERC6, MYBPH, PLA1A, RNASE6,BTN3A2, MMP3, IFI6, BTN3A3, RARRES3, CYR61, ANKRD2, MYH3, IFIT2, CHRND, CXCL9, DHCR24, TRIB3
下调 LMO1, RHOBTB1, OR7E47P , TFRC, LGR5
单纯疱疹病毒、流感病毒、麻疹病毒等(图2C )。2・3目的基因PPI 网络
将筛选出的目的基因映射到STRING 在线分析
软件,得到目的基因相互作用网络。将蛋白互作网
络信息导入Cytoscape 软件,分析网络的拓扑学性
质(图3)。目的基因的PPI 网络共有98个节点,
1 008个相互作用关系,连接度值位于TOP 10的 Hub 基因包括 STAT1、MX1、GBP1、IFIT3、ISG15
、
Antigen Processing And Prentation Of Peptide Antigen Via MHC Class I
Innate Immune Respon
Respon To Interferon-Beta
Antigen Processing And Prentation Of Exogenous Peptide Antigen Via MHC Class I,Tap-lndependent Immune Respon
Negative Regulation Of Viral Genome Replication
Interferon-Gamma-Mediated Signaling Pathway
dymaxionRespon To Virus
Defen Respon To Virus
Type I Interferon Signaling Pathway
010203040
-log(adi_P)
•Heparin bin d ing
•Single-stranded RNA binding
•CXCR3chemokine receptor binding
•2'-5'-oligoadenylate syntheta activity •Chemokine activity
-TAP binding
•Double-stranded RNA binding
•Peptide antigen binding
I I I I I 012345
-log(adj_P)
Epstein-Barr Virus Infection
Antigen Processing And Prentation
Allograft Rejection
Graft-Versus-Host Dia
Phagosome
■Measles
In f lue n za A
Herpes Simplex Infection
世界大学排名2012
l I I 051015
-log(adj_P)
B C
图2目的基因GO与KEGG功能富集分析
Fig2GO and KEGG pathway analysis of objective genes in DM muscle samples
A:目的基因富集的主要生物学过程;B:目的基因富集的主要分子功能;C:目的基因富集的KEGG信号通路
OAS2、OAS1、OAS3、RSAD2、IFIT2。
3讨论
DM是一种以皮肤和骨骼肌慢性炎症为主要特征的特发性炎性肌病。发病机制复杂,涉及免疫、遗传及环境等多种因素。本研究通过分析DM肌肉组织基因芯片数据集,旨在寻找潜在的诊断与治疗靶基因和靶通路,为后续的发病机制研究提供理论依据。
通过对2个DM肌肉组织芯片数据集的差异表达基因取交集,共获得101个目的基因,GO分析结果显示,目的基因所涉及的生物学过程主要包括一型干扰素通路、抗病毒反应、抗原递呈以及趋化因子活化等。KEGG通路富集分析结果显示,目的基因主要富集于多种病原体的感染,包括单纯疱疹病毒、甲型流感病毒、麻疹病毒以及EB(epstein-barr)病毒等。
Magro等[3]报道了1例由于弥漫性肺泡损伤导致急性呼吸衰竭的皮肌炎患者,发现患者皮肤以及肺活检单纯疱疹病毒RNA的表达,但是病毒培养未见典型的细胞病变,推测单纯疱疹病毒感染可能是DM急性加重诱发而非机会性感染。以往研究提出病毒感染诱发皮肌炎的发生机制主要包括:病毒蛋白与宿主蛋白直接的相互作用引发自身抗原的修
C1R
MYBPH POSTN
CD1&3
MS4A4A
VSIG4
USP18
///
奥巴马总统之路
BTN3A3IBT1N3A2
SP11O
TDRO7
kU VCAM1
ANKRO2 MV h 3
WP1 神 ™
RNASES X
TFRC
I vw
1 CHAC1
!prRi&3 ASNSI
SAM DS
TAP1
HU\-A
HLA-C
HLA-B HLA-F
FSMB9
DDX58
GB 卩I FITS
I RSA.D2
£;I0D
图3目的基因蛋白质相互作用网络(目的基因相互作用网络由98个节点和1008个交互线组成)
Fig 3 Protein-protein interaction network of the objective genes
Anti-virus Antigen procession
Cell adhesion
Chemotaxis Complement
Others
i Skeletal muscle contraction Type I interferon
饰;表达隐蔽抗原决定簇的宿主蛋白的释放;抗独
特型自身抗体的诱导以及宿主蛋白与病毒抗原表位
的序列同源性所引发的交叉反应⑷。
Walker 等[5]利用计算机序列比对的方法发现
组氨酰tRNA 合成酶(抗Jo-1抗体的靶抗原)的氨
基酸序列与EB 病毒蛋白EC-RF4部分序列相匹配, 推测EB 病毒蛋白所包含的抗原决定簇可能会诱发
DM 患者产生抗Jo-1抗体,但是该假设需要后续确
切的表位鉴定以及交叉反应实验的验证。Liu 等⑷
发现在多种自身免疫性疾病患者的血清中可检测到 抗人类巨细胞病毒抗体(抗-Pp150抗体)水平的 升高,进一步研究证实该抗体可以识别NK 细胞表
面的CIP2A 分子,并通过抗体以及补体介导的细
胞毒作用诱导NK 细胞凋亡。DM 患者血清中的多 种自身抗体可能是在特定的遗传易感的背景下病毒 感染所遗留的足迹,并在DM 患者的免疫系统紊乱
中发挥重要作用。根据目的基因的PPI 网络,本研究共筛选出10
个 Hub 基因,包括:STAT1、MX1、GBP1、IFIT3、 ISG15、 OAS2、 OAS1、 OAS3、 RSAD2、 IFIT2。
Hub 基因主要富集于一型干扰素通路以及抗病毒 反应。
STAT1是一型干扰素通路重要的转录激活因
子。一型干扰素与受体结合后,受体发生二聚体
化,引发JAK1以及TYK2激活,招募STAT1与
STAT2并发生磷酸化反应,活化的STAT1以及
STAT2 与 IRF9 形成复合物进入细胞核, 上调大量
干扰素刺激基因(IFN-stimulated genes, ISG )O 其
中, MX1、 GBP1、 IFIT3、 ISG15、 OAS2、 OAS1、 OAS3、 RSAD2 以及 IFIT2 通过抑制病毒基因组复
制、激活RNa L 对病毒mRNA 进行降解、抑制病
毒基因组翻译、抑制出芽等方式发挥抗病毒
作用[7-8]。
Zhang 等[9]报道抗黑色素瘤分化相关基因5抗
体阳性的DM 患者的皮肤组织高表达STAT1、
ISG15、MX1,提示DM 患者一型干扰素通路活化。
Uruh 等[10]研究发现DM 肌肉细胞浆MX1蛋白表达
水平升高, 并与传统的 DM 病理学特征如束周萎缩 以及膜攻击复合物的沉积相比,MX1具有更高的 诊断效能。
IFIT3作为MAVS 与TBK1之间的衔接分子,
介导RIG-1抗病毒信号通路的活化[11]。研究报道