【数据科学】肯德尔等级相关系数(Kendallstaucoefficient)在统计学中,Kendall等级相关系数,通常称为Kendall的tau系数(在希腊字母τ之后),是⽤于测量两个测量量之间的序数关联的统计量。甲tau蛋⽩测试是⼀种⾮参数假设检验⽤于基于所述tau蛋⽩系数统计依赖性。
它是衡量等级相关:数据的排序的相似度时排名由每个量。它以1938年开发的莫⾥斯·肯德尔命名,尽管古斯塔夫·费希纳在1897年的时间序列背景下提出了类似的措施。
直观地说,两个变量之间的Kendall相关将是⾼的,当观察具有类似的(或相同的为1的相关性)秩(变量内的观察,即相对位置标签:第⼀,第⼆,第三等)在两者之间变量,当观察结果与两个变量之间的排序不相似(或相关性完全不同)时,变量为低。
肯德尔都是和斯⽪尔曼的可以表述为更⼀般的相关系数的特殊情况。否极泰来英文
定义
恍惚是什么意思令(x 1, y 1),(x 2, y 2),...,(x n, y n)分别是联合随机变量X和Y的⼀组观察值,使得所有值(的))和()是独⼀⽆⼆的。任何⼀对观察 和 ,哪⾥ ,被认为是⼀致的,如果两个元件的⾏列(更精确地,由所述排序顺序X和由ÿ)同意:即,如果两个 和
; 或两者兼⽽有之 和。他们被认为是不和谐的,如果 和 ; 或者如果 和
。如果 要么,这对既不和谐也不⽭盾。
肯德尔τ系数定义为:
属性
的是对组合的总数,所以系数⼀定要在范围-1≤ τ ≤1。
如果两个排名之间的⼀致性是完美的(即两个排名相同),则系数的值为1。
如果两个排名之间的分歧是完美的(即,⼀个排名与另⼀个排名相反),则系数具有值-1。
如果X和Y是,那么我们期望系数近似为零。
肯德尔秩系数的显式表达式是
。
假设检验
肯德尔秩系数通常⽤作统计假设检验中的检验统计量,以确定两个变量是否可被视为统计依赖性。该测试是⾮参数的,因为它不依赖于对X 或Y的分布或(X,Y)的分布的任何假设。
在X和Y独⽴的零假设下,τ的采样分布具有零的预期值。精确分布不能⽤共同分布来表征,但可以精确计算⼩样本; 对于较⼤的样本,通常使⽤正态分布的近似值,均值为零和⽅差
关系会计ckl
⼀双如果被认为是并列的话 要么
; 束缚既不协调也不⽭盾。当数据中出现绑定对时,可以通过多种⽅式修改系数以使其保持在[-1,1]范围内:
Tau-acav
⽜头-统计测试的的。这两个变量都必须是。Tau-a不会对关系进⾏任何调整。它被定义为:
其中nc,nd和n0的定义如下⼀节所述。
Tau-b
与Tau-a不同,Tau-b统计数据可以对关系进⾏调整。 Tau-b的值范围从-1(100%负相关或完全反转)到+1(100%正相关或完全⼀致)。值为零表⽰没有关联。
Kendall Tau-b系数定义为:
参数:
二本师范大学排名请注意,某些统计软件包(例如SPSS)使⽤替代公式来提⾼计算效率,其中“常⽤”数量是⼀致和不⼀致对的两倍。
一百万美元Tau-c
Tau-c(也称为Stuart-Kendall Tau-c)⽐Tau-b更适合于基于⾮正⽅形(即矩形)。因此,如果两个变
量的基础⽐例具有相同数量的可能值(排名前),则使⽤Tau-b,如果它们不同,则使⽤Tau-c。例如,⼀个变量可能在5分制(⾮常好,好,平均,差,⾮常差)上得分,⽽另⼀个可能基于更精细的10分制。
肯德尔Tau-c系数定义为:
参数:
算法
facebook总裁
直接计算分⼦,涉及两个嵌套迭代,由以下伪代码表征:
numer := 0
for i:=2..N do
for j:=1..(i-1) do
numer := numer + sign(x[i] - x[j]) * sign(y[i] - y[j])
return numer
虽然快速实现,但这个算法是在复杂性和⼤样本变得⾮常慢。基于算法的更复杂的算法可⽤于计算分⼦
时间。
⾸先按第⼀个数量排序您的数据点, 其次(在...中的关系))按第⼆数量,。通过这个初始订购,未排序,算法的核⼼包括计算将对此初始化进⾏排序所需的步数。增强的算法,带 复杂性,可⽤于计算掉期数量, ,需要排序。那么分⼦为 计算如下:
哪⾥ 算得像 和,但关于联合关系 和。
⼀个划分的数据进⾏排序, 两个⼤致相等的⼀半, 和,然后对每⼀半递归进⾏排序,然后将两个已排序的⼀半合并为⼀个完全排序的向量。数互换等于:
哪⾥ 和 是排序版本 和,和
表征合并操作的交换等价物。 计算如下⾯的伪代码所⽰:
function M(], ])
i := 1
naivej := 1
nSwaps := 0
while i <= n and j <= m do
if R[j] < L[i] then
nSwaps := nSwaps + n - i + 1
j := j + 1
el
privilege
i := i + 1天津跆拳道
return nSwaps
上述步骤的副作⽤是您最终得到的排序版本 和⼀个排序版本。有了这些,因素 和 ⽤来计算 很容易在单个线性时间内通过排序数组获得。
参考⽂献: