单细胞测序--Seurat标准流程

更新时间:2023-07-05 00:39:14 阅读: 评论:0

单细胞测序--Seurat标准流程
单细胞测序--Seurat(上)--创建对象和数据预处理
需要这三个⽂件:
1)barcodes.tsv:样本中所有的细胞的条码。这⽂件会按照 matrix.tsv 的顺序来排列
[图⽚上传失败...(image-b39475-1621137785277)]新视野大学英语4答案
2)genes.tsv:参照 (reference name)会按照Enmbl、NCBI、UCSC⽹站⽽有所不同, gene symbol会与 matrix.tsv 的顺序⼀致。
image.png
3):包含 count matrix,⾏名与gene.tsv上的⾏名对应,列名与barcodes.tsv相对应。ntec
image.png
Seurat 内的【Read10X()】函数可以将上述三⽂件 raw data整合为⼀个稀疏矩阵 (spar matrix) ,
1、加载数据 Load the PBMC datat
pbmc.data <- Read10X(data.dir = "filtered_gene_bc_matrices/hg19/")
dim(pbmc.data)
[1] 32738 2700
pbmc <- CreateSeuratObject(counts = pbmc.data, project = "pbmc3k", lls = 3, min.features = 200)
参数 :
counts: 未标准化的数据,如原始计数或TPMs
project: 设置Seurat对象的项⽬名称;默认为"SeuratProject"
assay: 与初始输⼊数据对应的分析名称。
meta.data: 添加到Seurat对象的其他细胞⽔平(cell-level)数据。⼀个matrix,其中⾏是cell name,列是附加的元数据字段。lls --该feature⾄少在n个细胞内被覆盖; 该基因(feature)⾄少在3个细胞中被检测到
min.features--规定了⾄少检测到这些feature的细胞。即检测到的基因⾄少有200个细胞才被⽤于分析
看看 pbmc ⾥⾯有啥
pbmc
An object of class Seurat
13714 features across 2700 samples within 1 assay
Active assay: RNA (13714 features, 0 variable features)zey
dim(pbmc) #⾏,列
[1] 13714 2700
head(pbmc@assays))
$RNA
blessing
[4] "AAACCGTGCTTCCG-1" "AAACCGTGTATGCG-1" "AAACGCACTGGTAC-1"
2、标准的预处理流程 Standard pre-processing workflow
1)基于质量控制指标(QC metrics)和删除不需要的细胞作进⼀步分析:
Seurat允许根据任何⽤户定义的标准过滤单元格(cells)。
通常使⽤的QC指标:
1. 每个细胞内被检测到特有的基因(****unique genes****)的数⽬,unique feature会因为数据质量⽽调整。
▲低质量的细胞或空的液滴⼀般含有较少的基因;
繁体中文转换▲细胞双重态或多重态可能呈现异常⾼的基因count值
2. 细胞内被监测到的分⼦的总数⽬(与unique genes⾼度相关)
3. 匹配到线粒体基因组的read的百分⽐
▲低质量/将要死去的细胞经常呈现过度的线粒体污染情况;
▲使⽤function计算线粒体QC metrics, 此function可以计算源于feature集的count值的百分⽐
▲使⽤所有以【MT-】为起始的基因集合,作为线粒体基因集
数据质控
topsage
质控的参数主要有两个:
1.每个细胞测到的unique feature数⽬(unique feature代表⼀个细胞检测到的基因的数⽬,可以根据数据的质量进⾏调整)
2.每个细胞检测到的线粒体基因的⽐例,理论上线粒体基因组与核基因组相⽐,只占很⼩⼀部分。所以线粒体基因表达⽐例过⾼的细胞会被过滤。pbmc[[""]] <- PercentageFeatureSet(pbmc, pattern = "^MT-")
"[[" 操作符可以向对象元数据添加列
维持会QC metrics 在 Seurat :head(pbmc@meta.data)) QC指标存储▲过滤掉拥有 feature count>2500, or < 200 的细胞;
▲过滤掉含有> 5% 的线粒体 count值的细胞
使⽤ VlnPlot()进⾏可视化****(基因表达、指标、PC分数等)
nFeature RNA: 每个细胞所检测到的基因数⽬,也就是以前版本的nGene;
nCount RNA: 每个细胞测到所有基因的表达量之和,即这些基因数⽬⼀共测到的count数⽬,也就是以前版本的UMI数⽬;
<: 每个细胞所检测到的线粒体基因,即测到的线粒体基因的⽐例。
VlnPlot(pbmc, features = c("nFeature_RNA", "nCount_RNA", ""), ncol = 3)
image.png
FeatureScatter ⼀般⽤于可视化 feature-feature 关系,使⽤点图查看两个数据之间的相关性,也可以⽤于计算对象的任何东西,i.e. 对象数据中的列,PC分数等。
spillplot1 <- FeatureScatter(pbmc, feature1 = "nCount_RNA", feature2 = "")
plot2 <- FeatureScatter(pbmc, feature1 = "nCount_RNA", feature2 = "nFeature_RNA")
unique什么意思plot1 + plot2
deity
image.png
选择 200< gene 数⽬ <2500(根据vio lin图1) & 线粒体数⽬ <5%的细胞(根据vio lin 图2)

本文发布于:2023-07-05 00:39:14,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/167303.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:细胞   基因   数据   线粒体   检测   对象   标准   过滤
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图