超⼏何分布检验辅助进⾏单细胞数据的细胞定义
⽬前单细胞技术已经⽕了很久了,⽂章也层出不穷,⽽且很多都是⾼分⽂章,规模上也已经完全铺开,很多客户和⽼师都希望借助单细胞技术来实
现科研甚⾄研究疾病的⽬的,但是经过这么久的从业发现,⽬前摆在眼前最⼤的拦路虎就是如果确定单细胞数据得到的细胞类型。
markergene定义细胞类型markergene定义细胞类型
这个是⽂献常见的⽅法,依据⼀定的经典marker来确定细胞类型。然⽽我们拿到的往往是聚类结束后每个cluster的差异基因,如何从差异基因中
来确定markergene,以此来确定细胞类型,今天我们来分享⼀个使⽤了⽐较久的⼀个算法,超⼏何检验。
超⼏何检验
定义:
超⼏何分布:总共有N件产品,其中M件次品,现在从中抽取n件做检查,抽到k件次品的概率分布服从超⼏何分布。
我们把这种思想运⽤在细胞定义上的结果就是:
1、N为markergene库中的总基因数(可以⾃⼰定义查找,也可借助数据库)
2、M为定义某⼀具体细胞类型的的基因数
3、n为我们得到的需要进⾏细胞定义分析的基因总数⽬
4、k为n中属于M的数⽬。
因此我们就可以计算基因集n是否在M类中富集的概率。
但是知道这个概率后并不能直接⽤来作为细胞定义分析的结果,必须要对其进⾏⼀个评估,因为我们必须要考虑到随机情况,如果随机从N中抽取
n个基因,其中k个在M中的概率很⾼的话,那我们进⾏这样的分析的意义就是极⼩的。这时候我们引⼊p值对超⼏何分析的概率结果进⾏分析。
有没有很像?其实就是做富集的算法
2、p-value检验
P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很⼩,说明这种情况的发⽣的概率很⼩,⽽如果出现了,根据
⼩概率原理,我们就有理由拒绝原假设,P值越⼩,我们拒绝原假设的理由越充分。通俗的讲,p值就是指随机出现的概率,p值越⼩说明越不可能
随机出现,也就是说我们得到的结果越具有显著性。
总之,P值越⼩,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“⾼度显著的”需要我们⾃⼰根据P值的⼤⼩和实际
问题来解决。
p值是由下⾯这个式⼦计算得到的:
图⽚.png
上⾯式⼦的意思是:从总N个基因抽n个基因,作为分母,分⼦是M个基因有i个落在定义好的markergene上,有n-i个不落在markergene
上。p-value是指你观察到m个基因落在markergene中,⽐这还要更极端的概率之和,所以i是从m到M。就是说看到更多的基因落在这个
markergene⾥的所有可能。所以超⼏何检验很⽅便地可以给你算⼀个p-value,最后得到p-value<0.01或者0.05,你的结果如果定义p-
value<0.05那就有5%的概率看到是⼀个假阳性,这⾥我们只是在谈拿⼀个定义好的细胞类型来做检测,⽐如我们给定了10种细胞类型定义的
marker,每⼀个细胞类型都做⼀个超⼏何检验,每⼀次有5%的概率出错,⼀共进⾏10次,那出错的概率就很会⼤很多,所以怎么评估最终看到
的结果是真的⽽不是被误导的呢?你就要算⼀个叫多假设检验的矫正,只要做了多次的statisticaltest,就要做多假设矫正。矫正有多种⽅法,
现在⼤家⽤的最多的是FDR矫正。
FDR矫正的是faldiscoveryrate,也就是FP/(TP+FP)的期望值,看这个期望值是多少。如果这个期望值⼩于0.05,⼤家就认为有可能是⼀个
真实的有⽣物学意义的结果。
超⼏何定义细胞类型的主要问题在于,需要我们提供marker,这个需要数据库以及⽂献的⽀持,但是仍然⽆法很好的解决markergene的问
题,其实做科研是⼀个艰苦⽽且⽆聊的过程,速成是不可能的,只有真正有经验的的科研者才会对细胞类型有很深的认识,随着时间的积累才会真
正的解决问题。
本文发布于:2022-11-24 21:37:47,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/90/14414.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |