doris53卷
无刺龙舌兰叶绿体基因组特征及密码子偏好性分析
王
飞,辛雅萱,董章宏,赵文植,李卫英,马路遥,夏茂甜,辛培尧
(西南林业大学国家林业和草原局西南风景园林工程技术研究中心/西南林业大学西南地区生物多样性保育
国家林业和草原局重点实验室,云南昆明
650224)
摘要:【目的】分析无刺龙舌兰叶绿体基因组特征及密码子偏好性,为无刺龙舌兰叶绿体相关基因的表达、修饰和物种进化研究提供参考。【方法】对无刺龙舌兰的叶绿体基因组进行测序、组装和注释,分析密码子偏好性及其影响因素,并通过建立高、低基因表达库,筛选出最优密码子。基于20个已发表的龙舌兰科植物叶绿体基因组数据构建系统发育进化树。【结果】无刺龙舌兰叶绿体基因组总长157579bp ,大单拷贝区(LSC )、小单拷贝区(SSC )和2个反向重复区(IRa 和IRb )的长度分别为85940、1
8279和26680bp ,GC 含量为37.8%,包括135个基因(85个蛋白编码基因、38个tRNA 基因、8个rRNA 基因及4个未知功能的基因),从中筛选出51个长度大于300bp 的基因编码区(CDS )序列,其有效密码子数(ENC )均大于41.0。GC1、GC2、GC3和GC3s 含量分别为46.75%、39.61%、29.19%和26.06%,说明密码子第3位多以A/T 结尾。GCall 与GC1、GC2和GC3均呈极显著相关(P <0.01,下同),但GC3与GC1和GC2均无显著相关性(P >0.05,下同),表明密码子第1、2位的碱基组成相似,但与第3位的相似度不高。选择和突变是导致叶绿体基因组密码子偏好性的主要因素。筛选出14个多以A/U 结尾的最优密码子。无刺龙舌兰与克雷塔罗丝兰和西地格丝兰为姊妹关系,自荐值为100%。【结论】无刺龙舌兰叶绿体基因组为保守的四分体结构,叶绿体基因组密码子偏好性较弱,主要受选择和突变等多因素影响。基于植物叶绿体基因组构建系统发育进化树在物种的分类鉴定及确定各物种间系统发育关系的研究中是一种准确、可靠的方法。
关键词:无刺龙舌兰;叶绿体基因组;密码子偏好性;系统发育分析中图分类号:S563.8
文献标志码:A
success作文文章编号:2095-1191(2022)04-1030-10
收稿日期:2021-08-24基金项目:云南省科技厅科技计划重点研发项目(2018BB005);西南林业大学科技创新基金项目(KY21034)通讯作者:辛培尧(1975-),https ://orcid/0000-0001-8512-
7083,教授,主要从事植物遗传育种与快繁研究研究工作,E-mail :
***************
第一作者:王飞(1996-),https ://orcid/ORCID :0000-0002-9117-6620,主要从事林木分子生物学与遗传改良研究,E-mail :
*****************
Chloroplast genome characteristics and codon preference
analysis of Yucca treculeana
WANG Fei ,XIN Ya-xuan ,DONG Zhang-hong ,ZHAO Wen-zhi ,
LI Wei-ying ,MA Lu-yao ,XIA Mao-tian ,XIN Pei-yao
(Southwest Landscape Architecture Engineering Technology Rearch Center of National Forestry and Grassland
Administration ,Southwest Forestry University/Key Laboratory of Biodiversity Conrvation in Sout
hwest China of National Forestry and Grassland Administration ,Southwest Forestry University ,Kunming ,Yunnan 650224,China )Abstract :【Objective 】To analyze chloroplast genome characteristics and codon preference of Yucca treculeana ,so as to provide reference for the study of chloroplast-related gene expression ,modification and species evolution.【Method 】Chloroplast genome uleana was quenced ,asmbled and annotated to analyze codon preference and its influe-ncing factors ,and the optimal codon was screened by establishing high and low gene expression libraries.Phylogenetic tree was constructed bad on 20published chloroplast genome data of Agavaceae plants.【Result 】The total length uleana chloroplast genome was 157579bp ,and the length of the large single copy region (LSC ),small single copy region (SSC ),and two rever repeat regions (IR ),namely IRa and IRb regions were 85940,18279and 26680bp ,re-spectively.The total GC content was 37.8%.Among 135genes (85protein-coding gene ,38tRNA ,8rRNA and 4un-known functional genes ),51coding DNA quences (CDS )with length greater than 300bp were screened out ,and the ENC was greater than 41.0.The contents of GC1,GC2,GC3and GC3s were 46.75%,39.61%,29.19%and 26.06%,re-spectively ,indicating that the third codon most ended in A/T.GCall was significantly correlated with GC1,GC2and GC3
4期·1031·
0引言
【研究意义】无刺龙舌兰(Yucca treculeana)为丝兰属(Yucca)多年生植物,原产于北美洲,多生于降雨稀少的沙漠地区,适应性强,剑形叶,花茎高挺,整体形态优美,具有极高的观赏价值,且其根和茎分别用作啤酒发泡剂、除臭剂的生产原料,叶纤维强韧亦可用于制作绳缆(Irish,2000)。据调查,丝兰属内约有40个种。截至2021年7月,NCBI数据库中已确定发表叶绿体全基因组的丝兰属植物有6种。目前,丝兰属植物在不同分类系统存在争议,根据哈钦松系统和克朗奎斯特系统将其划分为龙舌兰科(Agava-ceae);而APGⅢ分类系统则将其定位至天门冬科(Asparagaceae)(http://www.iplant/info/Yucca)。造成分类差异的原因不仅与分类系统本身有关,还与丝兰属植物形态特征相似度较高密切相关。因此,在利用传统形态学方法分类存在争议的情况下,借助无刺龙舌兰叶绿体基因组构建的系统发育进化树能直观反映物种间遗传关系,同时有助于对其进行分类(Kai et al.,2018)。此外,通过分析无刺龙舌兰叶绿体基因组密码子偏性,可优化基因密码子,提高目的基因表达水平,对选育优良品种具有重要意义。【前人研究进展】叶绿体是绿色植物和部分藻类用于光合作用的细胞器(Jia-Yee et al.,2015),也是除线粒体外的另一个含有遗传信息的细胞器。与含有庞大遗传信息的核基因组相比,叶绿体基因组长度较小,仅为160kb左右,且碱基含量和基因数量均较少,但因叶绿体内基因所在位置的特殊性,其具有结构完整性和序列保守性(Parks et al.,2009;Jann and Uhlman,2012)。叶绿体基因组为单亲遗传,碱基很少发生替换,使其在植物分
类及系统进化研究中具有独特的优势(Tao et al.,2017)。在解析植物叶绿体基因组特征的基础上,结合系统发育分析探究物种间进化关系已有相关报道。高亚芳等(2019)通过对药用植物金铁锁叶绿体基因组的测序、组装
和注释,明确了其基因组成,进而利用叶绿体全基因组构建系统发育进化树,解析了石竹科属间的系统发育关系。段义忠和张凯(2021)对2种沙冬青属植物叶绿体基因组的反向重复区(IR)进行比对分析,并基于叶绿体基因组构建了系统发育进化树,为该属的物种鉴别、种群动态研究打下基础。此外,作为编码氨基酸的遗传密码子在基因功能和蛋白质表达的研究中意义重大。肽链合成过程中每种氨基酸对应1~6种密码子(即同义密码子)(牛元等,2018),但密码子的使用偏好于一种或几种特定密码子,称为密码子偏好性(Li et al.,2019)。只有无选择压或基因突变的情况下,才不存在密码子使用偏好性(Long et al.,2018)。但实际上,生物体是自然选择的结果,均存在密码子使用偏好性(Li et al.,2019)。密码子使用偏好性存在于各生物体中,自然选择、碱基组成、基因的长度和表达水平、RNA丰度和二级结构、氨基酸保守性等均可能造成密码子使用偏好性(Xu et al.,2011)。目前,不同植物密码子偏好性分析已有相关报道。金刚等(2018)揭示了同为龙舌兰科植物剑麻的叶绿体基因组密码子偏好性,并指出密码子使用偏好性受选择和突变等多重因素影响。另外,香花枇杷(屈亚亚等,2021)、杧果(辛雅萱等,2021)、永椿香槐(李江飞等,2021)和蒜头(原晓龙等,2021)等叶绿体基因组密码子偏好性分析均是在测序获得叶绿体全基因组的基础上,应用统计学
方法分析其密码子使用模式及形成原因。【本研究切入点】无刺龙舌在植物分类中仍存在一定的争议,利用其叶绿体基因组构建的系统发育进化树有助于其分类研究,但目前未见丝兰属植物叶绿体基因组特征及密码子偏好性的相关研究报道。【拟解决的关键问题】对无刺龙舌兰的叶绿体基因组进行测序、组装和注释,分析密码子偏好性及其影响因素,并通过建立高、低基因表达库,筛选出最优密码子;基于20个已发表的龙舌兰科植物叶绿体基因组数据构建系统发育进化树,为无刺龙舌兰乃至丝兰属植物叶绿体
(P<0.01,the same below),but GC3was not significantly correlated with GC1and GC2(P>0.05,the same below),sug-gesting that the ba composition of the first and cond codon of chloroplast genome was basically similar,but the simi-larity with the third codon was not high.Selection and mutation were the main caus of chloroplast genome codon prefer-ence.14optimal codons ending in A/U were screened uleana was sisterly with Y.queretaroensis and Y.schidig-era,and the bootstrap values was100%.【Conclusion】The chloroplast genome uleana has a conrved tetrad structure,and the codon bias is weak,which is mainly affected by multiple factors such as lection and mutation.It is an accurate and reliable method to construct phylogenetic tree bad on chloroplast genome in studying the taxonomic identi-fication and phylogenetic relationship among plant species.
Key words:Yucca treculeana;chloroplast genome;codon preference;phylogeny analysis
Foundation items:Yunnan Science and Technology Department Science and Technology Plan Development Key Rearch Project(2018BB005);Southwest Forestry University Science and Technology Innovation Fund Project (KY21034)
王飞等:无刺龙舌兰叶绿体基因组特征及密码子偏好性分析
53卷
南方农业学报
·1032·
相关基因的表达、修饰和物种进化研究提供理论依据。elfa
1材料与方法
1.1试验材料
供试材料为新鲜无刺龙舌兰叶片,采自于中国科学院西双版纳热带植物园,将采集好的样叶装入自封
袋放入液氮中速冻,带回实验室后保存于-80℃的超低温冰箱备用。主要设备仪器:超微量紫外分光光度计(DN2000)、核酸蛋白测定仪(NanoDrop 2000Thermo Scientific)、琼脂糖凝胶电泳仪(北京六一DYCP-31DN)和凝胶成像系统(Gene Company Limited,GBOX.E3)。
1.2DNA提取及测序
采用改良CTAB法提取无刺龙舌兰的全基因组DNA(Windarti et al.,2021),并利用琼脂糖凝胶电泳及NanoDrop2000对其完整性、质量和浓度进行检测。将检测合格的DNA样品送至北京诺禾致源科技股份有限公司建库测序。
1.3叶绿体基因组组装、注释及编码区(CDS)序列挑选
以克雷塔罗丝兰(Yucca queretaroensis)(登录号KX931468)为参考序列,使用GetOrganelle进行基因组序列组装(Jin et al.,2020),采用GeSeq(https:// chlorobox.mpimp-golm.mpg.de/geq.html)对无刺龙舌兰叶绿体基因组进行注释(Tillich et al.,2017),再用Geneious8.1.3手动校正(Kear et al.,2012)。将注释好的无刺龙舌兰叶绿体基因组数据(登录号OL912952)上传至NCBI数据库(https://bi. v/)。利用OGDRAW(https://chlorobox. mpimp-golm.mpg.de/OGDraw.html)(Loh et al.,2013)绘制无刺龙舌兰叶绿体基因组物理图谱。
利用Geneious8.1.3、BioEdit Sequence Align-ment Editor和ORFfinder(https://bi.nlm.nih. gov/orffinder/)对无刺龙舌兰叶绿体基因组进行分析,共获得85个基因的CDS序列。为了降低误差,剔除长度小于300bp、内部含有终止密码子和重复基因的序列,最终筛选出51个以ATG为起始密码子的CDS用作后续分析。
1.4密码子相关参数计算
使用CodonW1.4.2和CUSP(https://bioinforma-tics.nl/emboss-explorer/)统计上述筛选出的51个CDS 序列的有效密码子数(Effective number of codon,ENC)、同义密码子相对使用度(Relative synonymous codon usage,RSCU)、各CDS序列总GC含量(用GCallprice是什么意思
表示),以及密码子第1、2、3位上的GC含量(分别用GC1、GC2和GC3表示)。
1.5中性绘图分析
利用中性绘图直观反映影响密码子使用偏好性因素,即利用Excel2010以CDS的GC3值为横坐标、GC12(GC1和GC2的均值)为纵坐标绘制散点图,用于分析GC12和GC3的相关性,进而判断密码子偏好性影响因素(Jiang et al.,2008)。若GC12与GC3相关性显著,回归系数接近1,说明突变是其主要影响因素;反之,则说明GC12与GC3差异大,自然选择是主要影响因素(Wei et al.,2014)。
1.6ENC-plot分析
利用Excel2010以GC3为横坐标、ENC为纵坐标,利用两者的实际值来构建二维散点图,并在图中添加ENC=2+GC3+29/[GC2+(1-GC3)2]的标准曲线,根据散点在标准曲线周围的分散情况,再结合ENC比值频率,进而判断影响密码子偏好性的原因(Sueoka,2017)。若代表CDS的散点落在曲线附近,则密码子偏好性受突变影响;而落在曲线下方较远的位置,则受自然选择影响(Wang et al.,2018)。1.7PR2-plot分析
举行英语
利用Excel2010以G3/(G3+C3)为横坐标、A3/(A3+T3)为纵坐标进行绘图,用于分析密码子第3位上的碱基组成。图的中心点表示A=T且G=C,即无偏性的密码子状态,由中心点向其余点发出的矢量表示偏性方向和程度(Yang et al.,2015)。
1.8最优密码子分析
同义密码子相对使用度(RSCU)作为选择最优密码子的条件之一,RSCU=1时,密码子无偏好性;RSCU>1时,密码子使用频率偏高;反之,表示密码子出现频率低(Wu et al.,2019;惠小涵等,2020)。最优密码子选择时,以ENC为标准,对51个CDS序列的ENC进行排序,分别从ENC最高和最低两端选取10%的基因,建立高、低表达库。计算ΔRSCU值(ΔRSCU=RSCU高表达-RSCU低表达),将ΔRSCU≥0.08,且RSCU>1的密码子定为最优密码子。
1.9系统发育分析
为了确定无刺龙舌兰在龙舌兰科中的系统发育位置,从NCBI数据库下载20个已发表的龙舌兰科植物叶绿体基因组与外类群绵枣儿(Barnardia japonica),结合无刺龙舌兰叶绿体基因组进行系统发育分析。将22个叶绿体基因组序列用MAFFT7比对,BioEdit手动调整,用最大似然法(ML)对系统发育关系进行分析,使用RAxML8.2.12中的HPC2 on XSEDE模型构建系统发育进化树(Stamatakis et
4期
·1033·
图1无刺龙舌兰叶绿体基因组图谱
Fig.1Genome map of chloroplast in Y.
treculeana
al.,2008;Katoh and Standley ,2013),最后用FigTree 1.4.0进行树图美化。
2结果与分析
2.1
叶绿体基因组基本特征分析结果
无刺龙舌兰叶绿体基因组大小为157579bp ,呈反向平行的双链环状四分体结构,大单拷贝区(LSC )、小单拷贝区(SSC )和2个IR 区(IRa 和IRb )的大小分别为85940、18279和26680bp ,平均GC 含量为37.8%。另外,叶绿体基因组共有135个基因(85个蛋白编码基因、38个tRNA 基因、8个rRNA 基因及4个未知功能的基因),绝大多数存在于LSC 区(图1)。4个未知功能的基因中,ycf3和ycf4位于LSC 区,ycf2位于IR 区并有一个拷贝,y cf1基因则位于SSC 区和IRb 区的交界位置。值得注意的是,LSC 区的atpB 基因出现了1个突变位点和1个缺失位点,导致该基因序列不能正常翻译,基因功能丧失,致使假基因化。2.2密码子组成及使用度分析结果
无刺龙舌兰叶绿体基因组密码子组成如图2所示。GC1、GC2和GC3含量分别为46.75%、39.61%和29.19%。密码子第1、2、3位的GC 分布并不均匀,第3位上的GC 含量明显低于前两位,分布趋势为GC1>
GC2>GC3,GC3s 含量为26.06%,表明密码子第3位多以A/T 结尾。
ENC 理论取值范围为20.0~61.0,与同义密码子的偏性呈负相关。无刺龙舌兰51个CDS 序列的ENC 为41.2~61.0,均>41.0,说明无刺龙舌兰叶绿体基因组密码子偏好性较弱。其中,ndhE 基因的ENC 为理论取值范围的上限(即61.0),说明该基因密码子使用无偏好性。
工作分析方法从密码子各参数的相关分析结果(表1)可看出,GCall 与GC1、GC2和GC3均呈极显著相关(P <0.01,下同),且GC1与GC2及ENC 值与GC3均呈极显著相关,但GC3与GC1和GC2均无显著相关性(P >0.05,下同),表明叶绿体基因组密码子第1、2位的碱基组成基本类似,但与第3位的碱基相似度不高。而叶绿体基因组密码子数与各GC 含量和ENC 均无显著相关性。
从无刺龙舌兰各氨基酸RSCU 分析(表2)可看出,RSCU>1的密码子共30个,多为A/U 结尾,而以G/C 结尾的密码子RSCU 多数都小于1,表明无刺龙舌兰叶绿体基因组密码子偏好以A/U 结尾。
王飞等:无刺龙舌兰叶绿体基因组特征及密码子偏好性分析
53卷
南方农业学报·1034·
2.3
中性绘图分析结果
从图3可看出,GC12和GC3的取值范围分别为0.33~0.51和0.22~0.35,回归系数(即斜率)为0.0391,GC12与GC3的相关系数(R )为0.024,二者相关性弱,表明密码子第1、2位与第3位之间碱基的相关性不强,可初步判断出自然选择是影响密码子使用偏好性的主要因素之一。2.4ENC-plot 分析结果
从图4中可看出,多数基因CDS 序列处于标准曲线下方。再结合图5可知,ENC 比值分布在-0.05~0.05区间的基因CDS 序列有15个,其接近标准曲线,实际ENC 与预期ENC 接近,说明其偏好性主要受突变影响;而其余36个基因CDS 序列的ENC 比值分布在
-0.05~0.05区间之外,位于标准曲线较远的位置,表示与预期ENC 相差较大,即这部分基因密码子偏好性与GC3含量有关。因此,除了突变的影响,自然选择等其他因素很大程度上也会影响密码子的偏好性。2.5PR2-plot 分析结果
PR2-plot 绘图是通过分析密码子第3位碱基类型,从而揭示密码子使用偏性影响因素。由图6可知,51个基因CDS 序列在图中4个区域分布并不均匀,其中,左下方分布较多。T>A 、C>G ,即嘧啶使用
氨基酸Amino acid Phe Ser Tyr Cys
Leu TER
Trp Pro His Arg
大学英语四级单词Gln
正规翻译公司
密码子Codon UUU UCU UAU UGU UUC UCC UAC UGC UUA UCA UAA UGA UUG UCG UAG UGG CUU CCU CAU CGU CUC CCC CAC CGC CUA CCA CAA CGA CUG CCG CAG CGG 数量Number 744441614176421260167596722992413451169143834433193972661381821218028923656527612910018190RSCU 1.281.681.571.500.720.990.430.501.901.141.410.761.280.640.821.001.251.521.531.310.390.870.470.400.821.131.511.360.360.480.490.44
氨基酸Amino
acid
Ile Thr Asn Ser Lys Arg Met Val Ala Asp Gly Glu 密码子Codon AUU ACU AAU AGU AUC ACC AAC AGC AUA ACA AAA AGA AUG ACG AAG AGG GUU GCU GAU GGU GUC GCC GAC GGC GUA GCA GAA GGA GUG GCG GAG GGG
数量Number 87340875033135420121878566319771371475113279131411505675464130169172131417328825584159110286230
RSCU
1.461.571.551.260.590.770.450.300.951.231.471.831.000.430.530.651.471.821.591.320.470.610.410.371.491.181.491.660.570.400.510.65
图2
无刺龙舌兰叶绿体基因组中51个基因CDS 序列的密码子相关参数
Fig.2Codon correlation parameters of CDS quences of 51
genes in the chloroplast genome uleana
颜色越深,相关参数越大,反之亦然The darker the color ,the larger the correlation parameter ,and vice versa
表1无刺龙舌兰叶绿体基因组51个基因CDS 序列密码子参数间的相关系数
Table 1Condon parameters correlation coefficient of CDS -quences of 51genes in the chloroplast genome uleana
**表示极显著相关(P <0.01);*表示显著相关(P <0.05)**indicated extremely significant correlati
on (P <0.01);*indicated sig-nificant correlation (P <0.05)
表2无刺龙舌兰氨基酸的RSCU 分析
Table 2RSCU analysis of amino acids uleana
参数Parameter GC2GC3GCall ENC 密码子数Codon number
GC10.413**0.0570.821**0.030-0.148
GC2-0.0220.755**-0.311*-0.266
GC3
friendship演讲稿
0.366**0.421**0.227
GCall
-0.034-0.147
ENC
0.081
图3密码子的中性绘图
如何察言观色
Fig.3Neutral plot of codons
GC3
G C 12
0.600.500.400.300.200.10
0.00
0.000.050.100.150.200.250.300.350.40
y =0.0319x +0.4225R 2=0.0006