首页 > 美文鉴赏

建库测序中的若干问题（1）

更新时间:2023-04-26 16:58:22 阅读：评论：0

2023年4月26日发(作者：学前班拼音拼读)

建库测序中的若⼲问题（1）

⽂库结构可分为以下⼏个部分：插⼊⽚段，P5、P7接头，测序引物结合位点及index。

我的同桌600字 P5、P7接头位于⽂库两端，可以与flowcell上的寡核苷酸结合，在簇⽣成和测序过程中可作为引物或起到固定模板链的作⽤。

Index是不同样本的区分依据，当同⼀条lane中混⼊多个样本测序时，即可根据index区分来⾃不同样本的reads。根据建库时使⽤接头结构不

同，⼜分为单index⽂库和双index⽂库。随着测序通量的不断增加，每营业额英文条lane可以容纳的样本量也越来越多，双index可以变化出更多种组合，且

能够降低标签串扰的⽐例，因此⼀些对灵敏度要求较⾼的检测通常会构建双index⽂库[1]。

图中黄⾊和蓝⾊的部分是测序引物结合位点：index5在NovaSeq 6000和HiSeq X平台的测序⽅向是不同的。完成Read1、index7测序之

后，NovaSeq 6000平台会继续以这条链为模板进形容难过的四字词语⾏index5的测序，测序引物是flowcell上的P5接头，因此index5的测序⽅向和Read1、

index7是⼀致的。⽽HiSeq X平台的index5、Read2测序则是在末端翻转后进⾏的，因此index5的测序⽅向与Read2⼀致，⽽与Read1、

index7相反，同样的index5在HiSeq X和NovaSeq 同样的index5在HiSeq X和NovaSeq 6000平台测得的序列是反向互补的，因此在填写⽂库信息的时候⼀定要注意测序6000平台测得的序列是反向互补的，因此在填写⽂库信息的时候⼀定要注意测序

平台和序列的对应关系。

Illumina 测序仪在收集信号时，并不是拍摄⼀张彩⾊照⽚⼀次完成的，⽽是分 A、C、G、T 4 个波长，分别拍摄 4 张单⾊照⽚，然后通过

软件处理把这 4 张图叠加成⼀张。这是⼀种权宜之计，⽬的是减少图⽚⽂件的⼤⼩，从⽽降低对于数据存贮空间的要求。但也有缺点，⼀旦某⼀

张或⼏张照⽚的信号强度不够，或者没有信号，则图⽚的叠加就不能准确完成。碱基不平衡⽂库碱基不平衡⽂库（即A、G、C、T 四种碱基的含量远远偏离

25%）在测序时会导致某些图⽚（波长）没有信号或者信号很弱，在碱基识别时准确性降低。常见的碱基不平衡⽂库有BS甲基化⽂库、单细胞转

录组⽂库、PCR产物⽂库等，为了减少碱基不平衡对测序结果的影响，通常会混⼊⼀定⽐例的phix⽂库。

Phix ⽂库是校准⽂库，是 illumina 的⼀种试剂，来源于病毒基因组DNA。其基因序列已精确知晓，GC ⽐例约为 40%，与⼈类、哺乳类的基Phix ⽂库是校准⽂库

因组的 GC ⽐例接近。其基因序列⼜与⼈类的基因序列相去甚远，且不含有index。在与哺乳类基因组⼀起测序时，可以通过基因序列⽐对或数据

拆分⽽将之去除。在测碱基不平衡的⽂库样本时，可以加⼊⼤量的 phix ⽂库，以部分抵消样本的不平衡性。也可以少量地加⼊phix⽂库，以作为

control library 来验证测序质量。

Index可以容纳多少种⽂库？以8碱基index为例，单端inde语文答题公式 x⽂库理论上可以有4^8=65536种index，双端index⽂库理论上可以有Index可以容纳多少种⽂库？

65536^2=4294967296种index，但实际pooling时为了避免因对焦不准造成index读错，造成数据⽆法拆分，需要使⽤碱基分布均匀的

index。

⽂库质检的⽅法：上机前使⽤Aglient 2100或LabChip GX Touch⽣物芯⽚分析系统检测⽂库⽚段⼤⼩，并使⽤StepOnePlusTM Real-Time⽂库质检的⽅法：

PCR System，以P5、P7接头作为引物进⾏QPCR定量（最准确）QPCR定量（最准确）。由于Illumina⽂库开始测序之前会先以P5、P7接头为引物进⾏桥式PCR，

在flowcell上⽣成簇，因此这样的上机定量结果是⽐较准确的。

⽂库pooling的原则：1）去除低质量的reads⽂库pooling的原则：去除低质量的reads：reads中质量值Q≤19的碱基占总碱基的50%以上则舍弃该条read，对于双端测序，若⼀端为

低质量reads，则会去掉两端reads；2）去除接头污染的reads去除接头污染的reads：reads中接头污染的碱基数⼤于5bp则舍弃该条read，对于双端测序，若⼀端

受到接头污染，则去掉两端的reads；3）去除含N较多的reads去除人物头像女含N较多的reads：reads中读N碱基⽐例⼤于5%则舍弃该条read，对于双端测序，若⼀端含N⽐

例⼤于5%，则会去掉两端reads。

Duplication是指起始与终⽌位置完全⼀致的⽚段。引起Duplication的主要原因是在测逐梦青春序中有PCR过程，来源于同⼀个DNA⽚段PCR的产物被

重复测序，就会产⽣duplication。次要原因是正巧两个插⼊⽚段的头和尾的位置完全⼀致，导致这⼀现象可能的原因有以下⼏种：a. 物种基因组物种基因组

⼩，本⾝的⽚段多样性低，测定的数据量多，重复的数据多；b. 建库过程中建库起始量伴奏音乐大全少，⽚段多样性低⼩，本⾝的⽚段多样性低建库起始量少，⽚段多样性低，在相同的PCR条件下，会造成⽂

库总量低，后期数据的dup率⾼；c.⽚段打断或加接头存在偏好性，⽂库的多样性较差⽚段打断或加接头存在偏好性，⽂库的多样性较差。Dup率计算主要有以下2种⽅法：⼀种是数据质控时计

算，利⽤ reads 序列来计算dup，要求 read 序列⼀样才算作duplication，duplicate reads数⽬除以总 reads数⽬计算⽐率；另⼀种是⽐对分

析时计算，根据read⽐对上基因组的位置来判断，⽐对的位置⼀样就算作duplication，⼀般会有 2bp的容错。

参考⽂献

[1] Macconaill L E, Burns R T, NagA, et al. Unique, dual-indexed quencing adapters 上品无寒门 with UMIs effectively eliminate index

cros万物无邪 s-talk and significantly improve nsitivity of massively parallel qu女贝网打屁股视频 encing[J]., 2018, 19(1):30.

Bmc Genomics

本文发布于:2023-04-26 16:58:22，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/89/849404.html

上一篇：台湾注音符号和中国拼音对照表详解

下一篇：工业总产值的定义及计算方法是什么

标签：建库

留言与评论（共有 0 条评论）