首页 > 英文翻译

loom

更新时间:2022-12-28 12:22:02 阅读：评论：0

2022年12月28日发(作者：像素论坛)

SENIC的使⽤

软件介绍

SENIC是⼀种同时重建基因调控⽹络并从单细胞RNA-q数据中鉴定stablecellstates的⼯具。基于共表达和DNA模基序（motif）分析推断基因调控⽹络，然后在每个

细胞中分析⽹络活性以鉴定细胞状态

输⼊：SCENIC需要输⼊的是单细胞RNA-q表达矩阵——每列对应于样品（细胞），每⾏对应⼀个基因。基因ID应该是gene-symbol并存储为rownames（尤其是基因

名字部分是为了与RcisTarget数据库兼容）；表达数据是Gene的readscount。根据作者的测试，提供原始的或NormalizedUMIcount，⽆论是否log转换，或使⽤TPM

值，结果相差不⼤。

软件的安装

if(!requireNamespace("BiocManager",quietly=TRUE))es("BiocManager")

BiocManager::install(c("AUCell","RcisTarget"))

BiocManager::install(c("GENIE3"))

BiocManager::install(c("zoo","mixtools","rbokeh"))

BiocManager::install(c("DT","NMF","pheatmap","R2HTML","Rtsne"))

BiocManager::install(c("doMC","doRNG"))

BiocManager::install(c("SingleCellExperiment"))

if(!requireNamespace("devtools",quietly=TRUE))es("devtools")

devtools::install_github("aertslab/SCopeLoomR",build_vignettes=TRUE)

if(!requireNamespace("devtools",quietly=TRUE))es("devtools")

devtools::install_github("aertslab/SCENIC")

packageVersion("SCENIC")

下载评分数据库

ForHuman,Mou,Fly

mm_url="/cistarget/databas/mus_musculus/mm9/refq_r45/mc9nr/gene_bad/r"

mm_url2="/cistarget/databas/mus_musculus/mm9/refq_r45/mc9nr/gene_bad/r"

hg_url="/cistarget/databas/homo_sapiens/hg19/refq_r45/mc9nr/gene_bad/r"

hg_url2="/cistarget/databas/homo_sapiens/hg19/refq_r45/mc9nr/gene_bad/r"

fly_url="/cistarget/databas/drosophila_melanogaster/dm6/flyba_r6.02/mc8nr/gene_bad/r"

wget-c$mm_url

wget-c$mm_url2

wget-c$hg_url

wget-c$hg_url2

wget-c$fly_url

不同数据格式的读⼊

对于loom⽂件

("/clone/Previously%20Published/","")

loomPath<-""

10x的输出⽂件

singleCellMatrix<-Seurat::Read10X(="data/pbmc3k/filtered_gene_bc_matrices/hg19/")

cellInfo<-(uratCluster=Idents(uratObject))

Robjects(,SingleCellExperiment)

sce<-load_as_sce(dataPath)#anySingleCellExperimentobject

exprMat<-counts(sce)

cellInfo<-colData(sce)

简单的SENIC⼯作流程

twd("/media/sdb/project/20200223/SCENIC_MouBrain")

loomPath<-(package="SCENIC","examples/mouBrain_")

library(SCopeLoomR)

loom<-open_loom(loomPath)

exprMat<-get_dgem(loom)

cellInfo<-get_cellAnnotation(loom)

clo_loom(loom)

#查看矩阵⼤⼩

#dim(exprMat)

library(SCENIC)

#scenicOptions<-initializeScenic(org="mgi",dbDir="cisTarget_databas",nCores=10)

scenicOptions<-initializeScenic(org="mgi",dbDir="/media/sdb/project/20200223/data",nCores=10)

saveRDS(scenicOptions,file="int/")

###Co-expressionnetwork

genesKept<-geneFiltering(exprMat,scenicOptions)

exprMat_filtered<-exprMat[genesKept,]

runCorrelation(exprMat_filtered,scenicOptions)

exprMat_filtered_log<-log2(exprMat_filtered+1)

runGenie3(exprMat_filtered_log,scenicOptions)

###BuildandscoretheGRN

exprMat_log<-log2(exprMat+1)

scenicOptions@ttings$dbs<-scenicOptions@ttings$dbs["10kb"]#Toyrunttings

runSCENIC_1_coexNetwork2modules(scenicOptions)

runSCENIC_2_createRegulons(scenicOptions,coexMethod=c("top5perTarget"))#Toyrunttings

runSCENIC_3_scoreCells(scenicOptions,exprMat_log)

#Export:运⾏这个时可能报错

#export2scope(scenicOptions,exprMat)

#Binarizeactivity?

#aucellApp<-plotTsne_AUCellApp(scenicOptions,exprMat_log)

#savedSelections<-shiny::runApp(aucellApp)

#newThresholds<-savedSelections$thresholds

#scenicOptions@fileNames$int["aucell_thresholds",1]<-"int/"

#saveRDS(newThresholds,file=getIntName(scenicOptions,"aucell_thresholds"))

#saveRDS(scenicOptions,file="int/")

runSCENIC_4_aucell_binarize(scenicOptions)

###Exploringoutput

#Checkfilesinfolder'output'

#.loomfile@

#output/Step2_MotifEnrichment_detail/subt:

motifEnrichment_lfMotifs_wGenes<-loadInt(scenicOptions,"motifEnrichment_lfMotifs_wGenes")

tableSubt<-motifEnrichment_lfMotifs_wGenes[highlightedTFs=="Sox8"]

viewMotifs(tableSubt)

#output/Step2_etail:

regulonTargetsInfo<-loadInt(scenicOptions,"regulonTargetsInfo")

tableSubt<-regulonTargetsInfo[TF=="Stat6"&highConfAnnot==TRUE]

viewMotifs(tableSubt)

运⾏SENIC

建⽴基因调控⽹络（GeneRegulationNetwork，GRN）：

1.基于共表达识别每个转录因⼦TF的潜在靶标。过滤表达矩阵并运⾏GENIE3或者GRNBoost，它们是利⽤表达矩阵推断基因调控⽹络的⼀种算法，能得到转录因⼦

和潜在靶标的相关性⽹络；将⽬标从GENIE3或者GRNBoost格式转为共表达模块。

2.根据DNA模序分析（motif）选择潜在的直接结合靶标（调节因⼦）（利⽤RcisTarget包：TF基序分析）

确定细胞状态及其调节因⼦：

3.分析每个细胞中的⽹络活性（AUCell）在细胞中评分调节⼦（计算AUC）

SCENIC完整流程

导⼊数据

loomPath<-(package="SCENIC","examples/mouBrain_")

library(SCopeLoomR)

loom<-open_loom(loomPath)#mode='r'如果报错可以加上

exprMat<-get_dgem(loom)

cellInfo<-get_cellAnnotation(loom)

clo_loom(loom)

Initializettings初始设置，导⼊评分数据库

library(SCENIC)

#先下载数据库，org⽤来选择物种，这⾥选择的是⼩⿏

scenicOptions<-initializeScenic(org="mgi",dbDir="cisTarget_databas",nCores=10)

#scenicOptions@inputDatatInfo$cellInfo<-"int/"

saveRDS(scenicOptions,file="int/")

共表达⽹络

根据已有的表达矩阵推断潜在的转录因⼦靶标，使⽤GENIE3或GRNBoost。⾸先需要进⾏基因的过滤。

genesKept<-geneFiltering(exprMat,scenicOptions=scenicOptions,

minCountsPerGene=3*.01*ncol(exprMat),

minSamples=ncol(exprMat)*.01)

过滤表达矩阵，保留只有过滤后的基因

exprMat_filtered<-exprMat[genesKept,]

计算相关性，这⼀步时间会⽐较长

runCorrelation(exprMat_filtered,scenicOptions)

exprMat_filtered_log<-log2(exprMat_filtered+1)

runGenie3(exprMat_filtered_log,scenicOptions)

BuildandscoretheGRN构建并给基因调控⽹络（GRN）打分

exprMat_log<-log2(exprMat+1)

scenicOptions@ttings$dbs<-scenicOptions@ttings$dbs["10kb"]#Toyrunttings

runSCENIC_1_coexNetwork2modules(scenicOptions)

runSCENIC_2_createRegulons(scenicOptions,coexMethod=c("top5perTarget"))#Toyrunttings

runSCENIC_3_scoreCells(scenicOptions,exprMat_log)

输⼊表达矩阵

在本教程中，我们提供了⼀个⽰例，样本是⼩⿏⼤脑的200个细胞和862个基因：

loomPath<-(package="SCENIC","examples/mouBrain_")

打开loom⽂件并加载表达矩阵；

library(SCopeLoomR)

loom<-open_loom(loomPath,mode="r")

exprMat<-get_dgem(loom)

cellInfo<-get_cellAnnotation(loom)

clo_loom(loom)

#dim(exprMat)

细胞信息/表型

#cellInfo$nGene<-colSums(exprMat>0)

head(cellInfo)

cellInfo<-(cellInfo)

cellTypeColumn<-"Class"

colnames(cellInfo)[which(colnames(cellInfo)==cellTypeColumn)]<-"CellType"

cbind(table(cellInfo$CellType))

saveRDS(cellInfo,file="int/")

#Colortoassigntothevariables(sameformatasforNMF::aheatmap)

colVars<-list(CellType=c("microglia"="forestgreen",

"endothelial-mural"="darkorange",

"astrocytes_ependymal"="magenta4",

"oligodendrocytes"="hotpink",

"interneurons"="red3",

"pyramidalCA1"="skyblue",

"pyramidaSS"="darkblue"

))

colVars$CellType<-colVars$CellType[interct(names(colVars$CellType),cellInfo$CellType)]

saveRDS(colVars,file="int/")

()

legend(0,1,fill=colVars$CellType,legend=names(colVars$CellType))

初始化SCENIC设置

为了在SCENIC的多个步骤中保持设置⼀致，SCENIC包中的⼤多数函数使⽤⼀个公共对象，该对象存储当前运⾏的选项并代替⼤多数函数的“参数”。⽐如下⾯

的org，dbDir等，可以在开始就将物种rog（mgi——mou，hgnc——human，dmel——fly）和RcisTarge数据库位置分别读给对象org，dbDir，之后统⼀⽤函

数initializeScenic得到对象scenicOptions。具体参数设置可以⽤?initializeScenichelp⼀下。

library(SCENIC)

org="mgi"#orhgnc,or

dmeldbDir="cisTarget_databas"#RcisTargetdatabaslocation

myDatatTitle="SCENICexampleonMoubrain"#chooanameforyouranalysis

data(defaultDbNames)

dbs<-defaultDbNames[[org]]

scenicOptions<-initializeScenic(org=org,dbDir=dbDir,dbs=dbs,datatTitle=myDatatTitle,nCores=10)

#如果有需要就修改这个地⽅

scenicOptions@inputDatatInfo$cellInfo<-"int/

"scenicOptions@inputDatatInfo$colVars<-"int/"

#Databas:

#scenicOptions@ttings$dbs<-c("mm9-5kb-mc8nr"="r")

#scenicOptions@ttings$db_mcVersion<-"v8"

#Savetouatalatertime...

saveRDS(scenicOptions,file="int/")

共表达⽹络

SCENIC⼯作流程的第⼀步是根据表达数据推断潜在的转录因⼦靶标。为此，我们使⽤GENIE3或GRNBoost，输⼊⽂件是表达矩阵（过滤后的）和转录因⼦列表。

GENIE3/GRBBoost的输出结果和相关矩阵将⽤于创建共表达模块（runSCENIC_1_coexNetwork2modules（））。

基因过滤/选择

按每个基因的reads总数进⾏过滤。该filter旨在去除最可能是噪⾳的基因。默认情况下，它（minCountsPerGene）保留所有样品中⾄少带有6个UMIreads的基因（例

如，如果在1％的细胞中以3的值表达，则基因将具有的总数）。

通过基因的细胞数来实现过滤（例如UMI>0，或log2（TPM）>1）。默认情况下(minSamples)，保留下来的基因能在⾄少1％的细胞中检测得到。

最后，只保留RcisTarget数据库中可⽤的基因。

#(Adjustminimumvaluesaccordingtoyourdatat)

genesKept<-geneFiltering(exprMat,scenicOptions=scenicOptions,

minCountsPerGene=3*.01*ncol(exprMat),

minSamples=ncol(exprMat)*.01)

在进⾏⽹络推断之前，检查是否有任何已知的相关基因被过滤掉（如果缺少任何相关基因，请仔细检查filter设置是否合适）：

interestingGenes<-c("Sox9","Sox10","Dlx5")

interestingGenes[which(!interestingGenes%in%genesKept)]