首页 > 美文阅读

转录组学习六（reads计数与标准化）

更新时间:2023-06-24 10:49:13 阅读：评论：0

转录组学习六（reads计数与标准化）

增根是什么任务

学习了解各个reads计数，及标准化的原理，如RPKM/FPKM/TPM的统计学原理；

了解reads计数的各个软件，⽤⼊门的htq-count软件对每个样本内⽣成关于表达量的⽂件；

自己制作闪字⽤脚本合并所有的样本表达量⽂件为表达矩阵；

对表达矩阵在R软件⾥简单的摸索，例如求平均值，⽅差等；

看⼀些重要的⽣物学意义的特殊基因的表达情况如何，⽐如GAPDH,β-ACTIN等。

reads计数的原理

参考徐洲更在reads计数⾥的解释：

reads的计数定量主要可分为三个⽔平：基因⽔平、转录组⽔平、外显⼦⽔平。

基因⽔平：常⽤的软件包括HTSeq-count, featureCounts, BEDTools, Qualim

ap, Rsubread, GenomicRange等。在转录组学习五中的那篇重要的⽂章对于有参的expression定量所推荐的是FeatureCounts

区域来判断这些reads到底是属于哪个基因的，然后再进⼀步对这些属于这个基因的reads进⾏计数，⽽出现了overlap区域就会有不同的情况，对于HTSeq的三种对reads计数处理的模式如图：（⼤多数情况下，作者推image

使⽤完之后，就会对每个样本输出⼀个表达量的⽂件，后续需要对表达量⽂件写脚本合并。

转录本⽔平：使⽤的⼯具为Cufflinks和StringTie，eXpress。不同的转录本之间通常是重叠区域⼗分多且相似的，当⼆代读长⼩于转录本长度时，就会有区分上的难题。不过现在有三代测序，外显⼦⽔平：和基因⽔平定量类似，不过需要提供⽆重叠的外显⼦区域的gtf⽂件(?)，分析差异外显⼦使⽤的DEXSeq提供了⼀个Python脚本（dexq_prepare_annotation.py）执⾏这个任务alignment-free软件：省去⽐对，直接得到read count。运⾏效率更⾼，但会有样本特异性和读长偏差（不⽐对如何知道这些reads是属于基因组上的哪个gene上，进⽽如何知道定量计数呢？标准化的原理RPKM/FPKM/TPM

之前学习genek-转录组原理篇课程时记录的相关笔记，也再次回顾⼀下

夏花秋叶

image

1. 需要标准化的原因：

跆拳道入门

1. 样本内：相对定量⽽不是绝对定量：仅表⽰在35次抽样中，B基因抽样到了20次，（⽽不是其表达了20次。也不能说其会⽐geneA表达量⾼，因为基因的长度不同，所以落到基因上的reads数量也不同）

2. 样本件：不同样本的测序深度也是不同的，测序深度更深的会得到更多的reads。

会呼吸的痛歌词3. 故，需要标准化。对基因长度和测序深度的不同进⾏标准化。

2. PKM 流程

1. gene长度标准化(真实转录序列的长度，不考虑可变剪接情况)

学生期末评语2. 测序深度标准化(除以每个样品总的reads数⽬，能够⽐对到参考序列上的reads数⽬):

3. RPKM(Reads Per Kiloba Per Million.)就是上⾯的对1 million个reads进⾏的操作

1. kiloba 基因长度单位

2. million 测序深度的单位

4. FPKM(Fragments Per Kiloba Per Million).建库测序是以⽚段为单位。单端测序两者等价。⽽双端测序应该⽤FPKM是更为通⽤的表⽰⽅式

5. TPM：

1. 长度标准化、与FPKM同。

2. 测序深度的标准化，(不是如FPKM的除以总reads树)⽽是按照长度标准化之后的样本求和。除以求和的结果。TPM是相等的

6. gene的表达量到底代表是什么意思。

绝对定量：⼀个细胞中，⼀定mol的RNA种有多少转录本

但是建库测序时并不知道⽤于建库测序时候提取了多少个细胞或者是总共有多少条转录本。所以只能进⾏相对定量。

相对定量：某⼀个基因的所有转录本所占的⽐例。

7. 根据公式：

image

TPM：总的转录本的丰度，更符合对相对表达量的定义。表达丰度求和。(reads数⽬/基因的长度=表达丰富度)

看了许多的⽂章都在强调RPKM/FPKM的不合理性跟TPM的相对合理性，但为什么现在⼤多数的相对计数都在⽤FPKM/RPKM，⽽不⽤TPM呢，因为后续的软件不⽀持。

HTSeq-count定量

根据featureCounts or htq-count?⽂章⾥对HTSeq-count和feature-counts做了⽐较，浏览下来得到⼏点:HTq-count为Python写的软件，为欧洲分⼦实验室⼤神（写了另外的DESeq2）所写，并且htq-count 基本使⽤：

htq-count [options] <alignment_file> <gff_file>

⽂献中测序的数据是双末端PE-reads，htq的计数需要进⾏按照reads名称进⾏排序

### samtools重新排序

for i in `q 56 58`; do nohup samtools sort -@ 5 -n ../5_samtools/SRR35899${i}.bam -o SRR35899${i}_nsort.bam & done

我的小手

规矩的名言警句HTSeq-count的基本参数：

-f bam/sam：指定⽂件格式，默认为sam，选择为bam。

-r name/pos：利⽤samtool sort对数据根据read name或者位置进⾏排序，默认是name。

软件在

59~62的

3. 【转录组⼊门（6）：reads计数】/p/24cf44b610a7

4. 【genek-转录组原理篇】k.tv/

5. 【featureCounts or htq-count?】bioinformatics.cvr.ac.uk/blog/featurecounts-or-htq-count/

6. 【转录组HTq对基因表达量进⾏计数】/244.html

本文发布于:2023-06-24 10:49:13，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/82/1028140.html

上一篇：最新大学计划书300字大学计划书大一新生(十四篇)

下一篇：2023年出租车夜班出租合同(八篇)

标签：基因测序计数表达标准化样本

留言与评论（共有 0 条评论）