16S rDNA高通量测序技术分析油藏微生物多样性*
许颖1,2**马德胜1,2宋文枫1,2魏小芳1,2
hoisting1中国石油勘探开发研究院北京100083
2提高石油采收率国家重点实验室北京100083
摘要本研究以16S rDNA为分子标记,通过高通量测序技术对三口采油井的油藏微生物多样性进行了全面和深入的分析。对三个DNA样本中细菌16S rDNA的PCR扩增产物进行高通量测序,得到123,360条优化序列,测序深度指数超过99.9%。根据序列相似性进行聚类分析,得到139个OTU。基于OTU的物种分类分析发现三个样本中的细菌种类覆盖91个属、29个纲和20个门,其中包括多种采油有益菌。分别对各个样本的菌种组成和相对丰度进行分析,发现不同采油井的主要菌种组成和优势类群呈现出差异性。结果表明,16S rDNA高通量测序能更加全面、准确和深入地反映油藏微生物多样性情况,为微生物采油技术提供有用和必要的背景信息。图6表1参27
关键词油藏;微生物多样性;16S rDNA;高通量测序
CLC TE357
dodge收稿日期Received: 接受日期Accepted:
*中国石油天然气股份有限公司科技攻关专项(2014A-1006)Supported by CNPC Programs f or Science and Technology Development (2014A-1006).
**通讯作者Correspondingauthor(E-mail:*************************)
16S rDNA-assisted analysis of microbial diversity in oil rervoirs by NGS*
XU Ying 1,2**, MA Desheng1,2, SONG Wenfeng1,2& WEI Xiaofang1,2
1PetroChina Rearch Institute of Petroleum Exploration & Development, Beijing 100083, China
2State Key Laboratory of Enhanced Oil Recovery, Beijing 100083, China
Abstract
Objectives:Indigenous microbial community in oil rervoirs has great influenceon the application ofmicrobial enhanced oil recovery technology (MEOR). This paper aims to obtain accurate information about microbial diversity in oil rervoirsby the aid of a recently developed next generation quencing technology(NGS). In this study, NGSand application of 16S rDNA molecular marker were combined.
Methods:Total DNA of three samples was extracted parately, followed by amplification of bacterial 16S rDNA fragment. PCR productswere quenced on the Illumina Miq platform.Sequencing datatwith high quality was collected for further analysis. Identification of bacteria at different taxonomic levels was performed badon the result of blast against annotated16S rDNA databa. Microbial diversity ineach samplewas analyzed parately and comparison among them was alsoperformed.
Results: 123,360 16S rDNA quences with high quality were obtained and thequencing coverage was more than 99.9%. The quences were clustered into 139 OTUs. Bacterial species detected in the samples covered 91 genera, 29 class and 20 phyla, including many groups beneficial for MEOR.,Arcobacter, Pudomonas and Acinetobacter)that can utilize petroleum hydrocarbons as sole carbon sources were detected,eventho with extremely low abundance.Moreover, the analysis of microbial community structure for each sample showeddifferentpatterns ofcomposition characteristicsand dominant groups.
Conclusions:The results indicate that analysis badon high-throughput quencing data of 16S rDNA fragments is powerful in reflecting microbial community structure accurately and provides more information for MEOR compared to traditional methods.
Keywords oil rervoirs; microbial diversity; 16S rDNA; high-throughput quencing/ next generation quencing (NGS)
油藏环境是一种独特的生态环境,其中存在着丰富的微生物资源[1-3]。这些微生物对于石油开采,特别是在微生物采油技术的应用中,具有极其重要的作用[4-5]。微生物采油技术是利用微生物的代谢作用或其代谢产物改善原油物性,提高流动能力从而提高采收率。因此,油藏微生物多样性研究对微生物采油技术的开展具有重要的意义。
微生物多样性研究初期依赖人工培养技术,根据培养基上生长出的菌落形态和数目来确定微生物的种类和数量。应用纯培养的方法从油藏环境中分离到大量有应用价值的菌种[6]。但自然界中大量微生物无法利用现有方法进行培养,可培养的微生物种类可能不足1%[7]。这导致了人们对油藏中的微生物多样性认识严重不足。随着分子生物学技术的发展,出现了基于16S rDNA的分析技术[8]。16S rDNA编码核糖体亚基,在结构和功能上高度保守,其进化具有良好的时钟性质,能体现不同菌属之间的差异。在原核生物基因组中的拷贝数多,保守区与可变区交替排列,易于通过聚合酶链式反应(PCR)扩增获得,序列长度适中,是细菌系统分类研究中最常用的分子标记[9-10]。通过16S rDNA序列多样性直接在分子层面研究微生物多样性,突破了微生物可培养性的限制。
常用的16S rDNA序列多样性研究手段主要有两类。一类是依靠凝胶电泳将PCR扩增产物中的不同序
ringway列区分开,根据电泳条带多样性推断序列多样性。如限制性片段长度多态性分析(RFLP)、变性梯度凝胶电泳(DGGE)和温度梯度凝胶电泳(TGGE)等[11]。由RFLP衍生出末端限制性片段长度多样性(T-RFLP)技术,引入荧光物质标记取代凝胶电泳进行不同16S rDNA末端片段检测,也得到了较为广泛的应用[12-13]。但此类指纹图谱技术普遍存在的缺点是不能满足定量研究的需要。通过电泳条带特征进行微生物种类鉴定困难;分辨率低,只能反映高丰度优势种群的信息,并且在较低分类水平上会严重低估微生物多样性[14]。另一类是基于DNA测序的研究手段,极大提高了分析的精确度和可靠度。采用第一代DNA测序技术需要依靠克隆文库。将PCR扩增得到的16S rDNA片段插入克隆载体,带有不同片段的克隆载体分别导入工程菌中实现大规模扩增,建立起克隆文库,采用传统的Sanger测序法对克隆文库中的每条序列进行测定。基于克隆文库测序的多样性分析极大地推动了人们对油藏微生物多样性的认识[15-18]。但克隆测序的步骤繁琐、成本较高,导致测序数据量小。由于测序深度不足,仍不能全面和准确地反映微生物多样性的真实情况。
近年来,以大规模平行测序为特征的第二代DNA测序技术(NGS)迅猛发展。二代测序摒弃了Sanger 测序中的毛细管电泳,直接在芯片上进行,采用边合成边测序的原理,在DNA互补链合成过程中加入荧光标记的dNTP或酶促反应催化底物发出荧光,通过捕获荧光信号进行序列测定,极大地增加了测序的通量[19-20]。继454(GS-FLX)、Solexa、SOLiD和Polonator之后,Illumina公司又推出了Hiq/Miq测序平台,具有更高的通量和更低的价格。与克隆测序相比,高通量测序极大地增加了测
non woven fabric序深度和覆盖度,能检测到丰度极低的微生物种类,基于大规模数据的分析具有更强的统计效力,更准确地反应样本情况,这为16S rDNA多样性研究提供了新的发展契机。
本研究将第二代高通量测序技术应用于油藏微生物多样性的研究。利用Miq测序平台,对来自三口采油井的16S rDNA样本进行了分析。借助生物信息学的方法对大规模的序列数据进行统计,得到了更为全面和深入的油藏微生物多样性信息,为微生物采油技术提供了更加详实和准确的背景资料。
1.材料和方法
1.1微生物样本
样本采集自吉林油田FY区。在同一区块的3口采油井取井口产出液,每口采油井取1个油水混合样本,分别编号为D1,D2,D3。取样采用无菌容器。取样区块已注水开发20年以上,流体性质稳定,属于低温低矿化度稠油油藏。该区块油层埋深约400~500m,地层温度31℃,压力约3.6 Mpa。地面原油密度0.881g/cm3,黏度112 mPa•S(50℃)。地层水为NaHCO3型,总矿化度约为4000~6000 mg/L,PH范围7~8。
1.2样本总DNA提取
取水样300~400ml,使用0.22μm滤膜抽滤。抽滤后的滤膜剪碎,用于总DNA提取。采用FastDNA TM
SPIN
kit for Soil试剂盒(MP公司)提取总DNA。提取的总DNA经1%琼脂糖凝胶电泳检测完整性,超微量分光光度计(ThermoNanoDrop2000)检测浓度。检测合格后于-20℃保存,用于后续实验。
1.316S rDNA序列扩增
为避免序列太长影响测序,同时兼顾扩增特异性,选用通用引物515F/907R对总DNA样品进行细菌16S rDNA序列片段扩增,引物序列为515F:5'-GTGCCAGCMGCCGCGG-3',907R:5'-CCGTCAATTCMTTTRAGTTT-3'。PCR反应采用TransStartFastpfu DNA Polymera,20μl反应体系,DNA模板10ng。为保证测序数据的准确性和可靠性,使用尽可能低的循环数扩增,并保证每个样本扩增的循环数一致。经预实验,选定为27个循环。反应参数为:95℃3min;95℃30s,55℃30s,72℃45s,27个循环;72℃10min。每个样本做3个重复,重复样本PCR产物合并后经1%琼脂糖凝胶电泳检测,浓度和特异性合格后用于后续高通量测序。
1.416S rDNA PCR产物高通量测序
测序由上海美吉生物医药科技有限公司完成,采用第二代DNA高通量测序技术。PCR产物经2%琼脂糖凝胶电泳,使用AxyPrep DNA凝胶回收试剂盒(AXYGEN公司)切胶纯化,Tris_HCl洗脱,经2%
琼脂糖电泳初步检测浓度。参照电泳初步定量结果,将PCR产物用QuantiFluor™-ST蓝色荧光定量系统(Promega 公司)进行检测定量。根据定量结果和测序量要求,取PCR产物构建测序文库,建库主要步骤为:1)连接“Y”字形接头;2)使用磁珠筛选去除接头自连片段;3)利用PCR扩增进行文库模板的富集;4)氢氧化钠变性,产生单链DNA片段。不同样本合并测序,以接头中包含的不同索引序列(Index quence)加以区分。使用Illumina Miq PE300测序平台,此测序平台采用桥(Bridge)式扩增产生DNA簇和边合成边测序的原理,双端测序,读长2×300 bp。
1.5测序原始数据处理
蔡卓妍 郑中基Miq测序得到双端序列数据,以fastq格式存储,分为fq1和fq2两个文件。根据文件中存储的每条read的质量值信息,去除测序质量较低的碱基。方法是在每条read尾部设置50bp的窗口,若平均质量分数低于20,截去末端碱基。根据序列配对关系进行拼接,最小重叠长度为10 bp,最大错配率为0.2。拼接后得到优化序列,根据引物和索引序列区分不同样本。为了便于分析,将相似的优化序列进行聚类。相似性高于97%的序列归为一个分类单元,即一个OTU(Operational Taxonomic Units)。在聚类过程中去除嵌合体。采用RDP classifier贝叶斯算法对97%相似水平的OTU代表序列进行分类学分析,选用Silva核糖体数据库。分析过程中使用Trimmomatic、FLASH、Uarch和RDP Classifier等软件平台。
2013英语四级1.6多样性分析
使用mothur软件进行多样性分析。评估测序深度的指数采用Good’s Coverage (C),C=1-n1/N,其中n1为只含有一条序列的OTU数目,N为序列总数。计算菌群多样性的指数采用Shannon-Wiener (H’)和Simpson (λ)。H’=-Σp i ln p i,其中p i=n i/N,;λ=Σp i2。本研究中用于指数评估的OTU相似水平为97% (0.97)。同时使用mothur软件绘制稀释性曲线和Shannon-Wiener曲线。
2.结果与讨论
2.1测序数据和聚类分析
细菌16S rDNA高通量测序共得到优化序列123,360条,平均长度395.8 bp,样本D1、D2和D3对应的序列条数分别为44636, 44397和34327(表1)。测序数据量比克隆测序高2~3个数量级。三个样本的测序深度均超过99.9%,理论上测序数据已覆盖样本中的全部序列。
在97%相似性水平上进行聚类,共得到139个OTU。D1、D2和D3中包含的OTU数目分别为72, 88和98(表1)。其中三个样本共有的OTU数目为33个,D1、D2和D3特有的OTU数目分别为14,17和22,其余OTU为样本间两两共有的(图1)。其中样本D3中特有的OTU数目最多,预示着较多的特有微生物种类。D2与D3共有的OTU数目较多,为61条。
对序列进行随机抽样,统计抽样样本的序列数和OUT数目,绘制稀释性曲线(Rarefaction Curve)。
曲线已接近平台期,说明更大的测序量不会引起OTU数目的显著增长,基于现有数据量的分析结果准确可靠(图2)。
表1高通量测序数据概况
Table 1 Summary of the high-throughput quencing data
样本Sample 优化序列
Sequence
平均长度(bp)
Average length
测序深度指数
Coverage
操作分类单位
OTU
igm>多少钱英文
pleasure的用法D1 44636 395.9 0.9996 72
D2 44397 395.8 0.9995 88
D3 34327 395.5 0.9993 98
图1OTU分布韦恩图
起飞英语Figure 1 V enn diagram showing the distribution ofOTUs
图2 OTU稀释性曲线
Figure 2 Rarefaction Curve of OTUs
2.2OTU多样性分析
对各个样本中的OTU多样性进行分析,发现D3中OTU的Shannon-Wiener指数相对最高,(2.18),