长峪城村⽂献解读ONT重测序揭⽰藏族⼈为什么适应⾼原环境?
导读
韩国烧烤结构变异(SV)作为基因组变异的⼀种形式,在基因组进化和功能塑造过程中发挥重要的作⽤。在由迁移负荷引起的⾼基因流中,SV可以形成不相容的等位基因,从⽽降低与不适应基因组背景的重组风险,保持等位基因频率趋向于环境梯度。
幽房宫月
青藏⾼原藏族⼈对⾼海拔环境的适应是现代⼈类征服新环境的⼀个典型例⼦。以往的研究通常使⽤单核苷酸变异(SNV)来寻找藏族⼈适应⾼原环境的证据;最近的⼏项研究发现,SV起源于古⼈类并渗⼊现代⼈类中,对当地⼈⼝的适应有很⼤的贡献,但迄今为⽌,对藏族⼈中的SV的适应性渐渗却知之甚少。
高兴千里迢迢造句近年来出现的以PacBio和Nanopore等为代表的长读长测序(LRS)技术,显著提升了SV检测的准确性和灵敏度,为SV的功能机制研究提供了契机。但是,还未有研究探索SV在藏族⼈群适应⾼海拔环境中的作⽤,对藏族⼈群中是否有适应性SV的渐渗的也不清楚。
2021年5⽉,军事科学院军事医学研究院辐射医学研究所在Genome Biology发表了题为“Characterization of structural variation in Tibetans reveals new evidence of high-altitude adaptation and introgression”的研究论⽂。该研究通过Nanopore测序技术揭⽰了SV在藏族⼈群适应青藏⾼原环境过程中发挥的重要作⽤,为后续深⼊的⾼海拔环境适应性机制研究提供了宝贵的资源。
主要内容
中国藏族和汉族⼈群结构变异图谱
研究⼈员⾸先对15个藏族⼈和10个汉族⼈进⾏Nanopore测序,将GRCh37作为参考基因组,利⽤不同的软件进⾏SV鉴定,平均每个样品鉴定得到15,813个SV(合并后得到41,792个⾮冗余的SV)(图1 a, b),经过筛选过滤,最终获得38,216个SVs,包含19,441个缺失,17,424个插⼊,721个复制, 442个倒位和188易位(图1 c)。其中,> 88%的SV长度在50 bp~1 kb之间,并且与短读长测序的SV研究⽐较,本研究中27%的SV是新检测到的(图1 e)。值得注意的是,与只检测单个藏族⼈和汉族
⼈中的SV相⽐,本研究中的SV数量是极⾼的,表明通过基于群体的⽅法构建完整SV变异图谱的重要性。
图1 15个藏族和10个汉族⼈的SV结构变异图谱
SV在基因组重复序列和功能区域的分布
对SV在基因组重复序列和功能区域的分布分析发现,近80%的SV处于重复序列区域,在短散在序列(SINEs)中分布较多,长散在序列(LINEs)和长末段重复(LTRs)中分布较少(图2 a)。对SV的形成机制推断发现,⾮等位的同源重组(NAHRs)、短散在序列(SINEs)和可变数⽬串联重复(VNTRs)在SV形成中发挥重要的作⽤。另外,分析了major和share SV对编码区和⾮编码区可能存在的功能影响,发现⼤部分SV分布在内含⼦或者基因间区(图2 c),很少位于功能丧失基因附近。园明圆
图2 SV在基因组重复序列和功能区域的分布
群体结构和群体演化历史分析
进⼀步利⽤276个短读长数据(78个藏族⼈、174个汉族⼈和24个⾮洲⼈),对Nanopore测序检测到的SV进⾏基因分型,发现近⼀半由长读长测序检测的SV⽆法在NGS数据中检测到(图3 a),表明NGS数据在SV鉴定中精度较低。最终,利⽤10,387个SV进⾏遗传结构解析,以⾮洲⼈为外群,可以将中国⼈群分为4个亚群,包括中国北⽅和南⽅的汉族,以及4000⽶以上和以下的藏族;将分析限制在中国⼈群揭⽰了两个主要亚群,藏族⼈和汉族⼈(图3 b, c),这与
族,以及4000⽶以上和以下的藏族;将分析限制在中国⼈群揭⽰了两个主要亚群,藏族⼈和汉族⼈(图3 b, c),这与全基因组SNV分析的结果⼀致。
潭州鹤会利⽤全基因组SNV对3个⼈群的群体演化历史进⾏分析,结果显⽰,藏族和汉族⼈分化的年代约在22,000年前,结合考古学证据,藏族⼈和汉族⼈之间的差异更接近于旧⽯器晚期⾸次向⾼原迁移的⼤规模迁徙史。
图3 利⽤NGS数据的群体结构分析
群体分层SV和⾼原环境适应候选基因
白蒲茶干利⽤NGS数据对藏汉⼈群的Fst分析,得到69个在藏汉⼈群中有显著差异的SV(图3 d)。与之前研究⼀致,Fst最⼤的候选变异是位于EPAS1和TMEM247之间基因间区的3.4 kb TED,另外还证实了MRTFA内含⼦区存在的163 bp的藏汉群体分层的缺失。利⽤PCR和sanger测序,对16个SV进⾏验证,成功验证到14个SV。进⼀步通过表达数量性状位点(eQTL)、三维基因组结构预测和LD连锁的eQTL基因等⽅法筛选出80个受藏汉⼈群分层SV影响的基因(图4 a, c),这些基因中,已经报道有28个基因与⾼原环境适应相关,33个基因具有与缺氧相关的特征,可能与⾼原环境适应相关。功能富集分析发现,这些基因与缺氧应答、⾎管舒张、冷诱导产热等功能相关(图4 d);另外,缺氧相关通路的富集分析表明,候选基因在VEGF通路中最显著富集(图4 e)。
图4 ⾼原环境适应候选基因
正选择和古⽼基因的渗⼊
该研究通过最佳拟合线性模型模拟的中性变异,发现了⼀些与⾼原环境适应相关的SV和可能来源于古⼈类(尼安德特⼈和丹尼索⽡⼈)的基因位点渗⼊(图5)。在古⼈类基因组中鉴定这些渐渗位点,最终确定位于1p 36.32处的335 bp 缺失是⼀个⾼置信度SV。进⼀步对该缺失变异进⾏深⼊分析,发现该缺失是受正选择的祖先等位基因,提供了古⼈类基因渗⼊和正选择的证据。本研究发现了该缺失与⼀些⾎液指标显著相关,包含与肝功能相关的⾕丙转氨酶、⽩蛋⽩等。PRDM16基因可控制⽩⾊脂肪组织褐变以应对寒冷,进⼀步证明了该缺失能够通过显著降低PRDM16基因启动⼦活性进⽽下调基因的表达。PRDM16在1p36.32位点的335 bp缺失位点位于弱阳性选择区域,很可能是从古⼈类进化⽽来的,该缺失位点可能通过调控PRDM16来适应寒冷环境,同时对肝功能具有潜在的保护作⽤。因此,藏族⼈中相对较低的这种缺失可能有助于藏族⼈对⾼原环境的适应。
图5 ⾼原环境适应和古⼈类渗⼊SV
⼩结
本研究通过Nanopore测序技术全⾯分析了中国藏族和汉族⼈群SV的变异图谱,揭⽰了SV在藏族⼈适应⾼原环境中发挥的重要作⽤。进⼀步在藏汉⼈群分层SV中筛选了80个⾼原环境适应的候选基因,这将提⾼我们对多变异位点适应性的理解。此外,本研究还⾸次对藏族⼈全基因组中适应性渐渗SV进⾏了研究,表明可能是起源于古⼈类的SVs渐渗到中国⼈群中帮助了藏族⼈对⾼原环境的适应。总之,该研究结果为未来的⾼原环境适应研究提供了宝贵的资源。
参考⽂献
Quan C, Li Y, Liu X, et al. Characterization of structural variation in Tibetans reveals new evidence of high-altitude adaptation and introgression. Genome Biol. 2021;22(1):159.