Pearson相关系数和Spearman秩相关系数介绍

更新时间:2022-07-19 19:55:38 阅读: 评论:0

婺源旅游攻略-曹操 作文


2022年7月19日发
(作者:寂寞文章)

皮尔逊积矩相关系数(Pearsonproduct-momentcorrelation

coefficient)

1定义

在统计学中,皮尔逊积矩相关系数(Pearsonproduct-momentcorrelationcoefficient),有时也

简称为PMCC古代兵法,通常用r或是ρ表示,是用来度量两个变量X和Y之间的相互关系(线性相关)

的我真的很不错儿歌,取值范围在[-1,+1]之间。皮尔逊积矩相关系数在学术研究中被广泛应用来度量两个变量线性相

关性的强弱干嫂子,它是由KarlPearson在19世纪80年代从FrancisGalton介绍的想法基础发展起来的,

但是发展后原想法相似但略有不同的,这种相关系数常被称为“Pearson的r”。

两个变量之间的皮尔逊积矩相关系数定义为这两个变量的协方差与二者标准差积的商薄古,即

cov(X,Y)

E(X

X

)(Y

Y

)

XY



X

Y

X

Y

上式定义了总体相关系数,一般用希腊字母ρ(rho)表示。若用样本计算的协方差和标准差代

替总体的协方差和标准差,则为样本相关系数快乐童话,一般用r表示:

r

(X

i1

n

i

X)(Y

i

Y)

2(X

i1

n

i

X)(YY)

i

i1

n

2

另外一个与上式等效的定义相关系数的公式是通过标准化以后变量均值的积定义的。假设样本

可以记为

(X

i

,Y

i

),则样本Pearson相关系数为

1n

X

i

X



Y

i

Y

r



n1

i1

s

X

s

Y

其中

X

i

X

治痤疮的好方法,

X

s

X

分别为标准化变量加多宝对不起广告,样本均值和样本标准差。

s

X

2皮尔逊积矩相关系数的数学特性

不论是样本的还是总体的Pearson相关系数绝对值均小于等于1,相关系数等于1或-1时华晨宇资料,所

有数据的点都精确地落在一条直线上(为样本相关系数的情况),或是两变量的分布完全由一条直

线支撑(为总体相关系数的情况)会有天使替我去爱你。Pearson相关系数具有对称性希望工程图片,即:corr

corr(X布娃娃,Y)corr(Y,X)

伊多拉的高加索。

Pearson相关系数的一个关键的特性就是它并不随着变量的位置或是大小的变化而变化。也就是

说狼文言文,我们可以把X变为a+bX,把Y变为c+dY,其中a,b,c和d都是常数,而并不会改变相互之

间的相关系数(这点对总体和样本Pearson相关系数都成立)面试中的自我介绍。

Pearson相关系数可以用原点矩的形式表示。因为

222

X

E(X)艾青的现代诗歌,2

X

[E(X)X]E(X)E(X),

对于Y也有相似的表达式。又

E[(XE(X))E(YE(Y))]E(XY)E(X)E(Y)

于是式(1)可写为

XY

E(XY)E(X)E(Y)

E(X2)E2(X)E(Y2)E2(Y)

上述形式对于样本的Pearson相关系数同样是可用的严控属地招生比例,有

r

xy

xynxy

ii

nx

i

y

i

x

iy

i

nx(x

i

)2

i

2(n1)s

x

s

yny(y

i

)2

i

2

上式提供了一个非常简单的计算样本相关系数的算法国产婴幼儿奶粉品牌,但是有时受数据的影响五一手抄报简单内容,可上式可能存

在数值上的不稳定性。

相关系数取值范围为[-1,1]。取1时表示变量X和Y之间具有线性变化的关系,即Y随着X的

增加而增加dnf复仇刷图加点,而且所有的点都落在一条直线上。取-1时则是所有点落在一条直线上,但是变量Y随

着X的增加而减小要红酒论坛。相关系数值为0是表示变量之间没有线性相关关系昏倒羊。

更一般地给老师的一句美好的祝福语,应该注意到陈奕迅经典歌,只要

X

i

Y

i

落在各自均值的同一侧教师节鲜花图片,那么(X

i

X)(Y

i

Y)就是大于0

的。也就是说下象棋,只要

X

i

Y

i

同时趋近于大于或是同时趋近于小于他们各自的均值,那么它们的相关

系数为正黑豆加醋。反之,当二者区于在相反的一边时华北电力大学专业,二者相关系数为负侦探小说排行榜。

几种的(x,y)点即相应的x、y的相关系数安然无恙英文。可以看出和学姐一起游泳,相关反映线性关系分散程度和方向(第

一行),但是不能反映线性关系时的斜率(第二行),也不能反映出非线性关系的许多方面(最底下

一行)。注:图中第二行第四个小图的直线斜率是0七堇年,在这种情况下,相关系数是没有意义的,因为

Y的方差是零雪孩子动画片。

3几何解释

对于相对中心性的数据(例如,一组已经通过样本均值转换为均值为0的数据),相关系数可

以看做是由两随机变量样本绘出的两个向量之间夹角的余弦值麻豆腐。

有些学者则比较倾向于非中心性(费皮尔逊兼容)的相关系数海瓜子。以下通过一个例子比较二者之

间的差异。

假设有5个国家渔舟唱晚 古筝,国民生产总值分别为10亿美元、20亿美元、30亿美元、50亿美元和80亿

美元心理活动的成语,而贫困人数占总人口的比例分别为11%、12%、13%、15%和18%。则可令X=(10章鱼和鱿鱼的区别,20什么叫寡妇年,

30海盐武原中学,50月之女皇刷图加点,80)手撕包菜的做法,Y=(0交通行政执法规范.11纨绔子弟什么意思,0手机usb连接不上.12,0.13,0.15琅琊山,0庆.18)。

有一般的计算两个向量之间的角度的过程(点乘)可得非中心性相关系数为:

cos

xy2中秋佳节的古诗词名句.93

0.920814711

1030流星的眼泪.0983

x

y

应该注意到,上述数据是特意从完全线性相关的线性函数Y=0作业本.10+0.001X中挑选出来的,所以

Pearson相关系数应该精确地为1故园。将数据中心化(将X减去E(X)=38校友会致辞,Y减去E(Y)=0大学毕业五年计划.138)泊船瓜洲课件,可得

X’=(-28,-18,-0项链 莫泊桑 赏析.8,12开普勒三大定律,42),Y’=(-0.028生日快乐英文怎么说,-0杜海涛女友照片.018动漫卡通人物图片,-0.08,0ppt背景音乐.012,0.042),并有

cos'

x'y'3目光作文.08

1

xy30800观沧海赏析.00308

x'

y'

跟期望的一样。

相关系数大小与相关性大小的关系

许多学者都提出了通过相关系数大小判断变量相关性的标准网络教学资源库。但是正如Cohen(1988)所指出的

一样关牧林记忆法,这些标准或多或少的有些武断,不应该过于严格地遵守运动音乐。相同相关系数对相关性大小的判断

取决于不同的背景和目的你是我一生的知己。同样是0.9的相关系数电荷及其守恒定律,在使用很精确的仪器验证物理定律的时候可能

被认为是很低的,但是社会科学中,在评定许多复杂因素的贡献时苏教版五年级语文上册教案,却可能被认为是很高的相关性。

相关系数与相关性的关系

相关性

不相关

低相关

中等相关

显著相关

负值

−0哲思杂志.09~0诛仙青云志第二季.0

−0电话礼仪.3~−0.1

−0捉刀.5~−0作文 春天来了.3

−1.0~−0成绩报告单家长的话怎么写.5

正值

0南京的古城墙.0~0.09

0.1~0.3

0女排冠军.3~0.5

0.5~1.0

4对数据分布的敏感性

4.1存在性

总体的Pearson相关系数是通过原点矩来定义的章程,所以二元概率分布的总体协方差以及变量边缘

总体反差必须是有意义且是非零的。一些概率分布例如柯西(Cauchy)分布的反差就是无意义的中药房,

因此在X或Y服从这种分布时北京郊游好去处,

也是没有意义的。在一些实际应用中国际奥委会总部设在哪里,例如那些涉及数据在尾部

比较集中的情况,考虑这点就是很重要的。但是,相关系数的存在性通常不是我们关注的焦点,因

为一般只要分布是有界的,那么

就可以被定义。

4.2大样本性

在二元正态分布中,若已知变量的边缘分布的均值和标准差,那么由Pearson相关系数就可以

完全确定该分布的特性日本水俣病事件。但是对于其它的二元分布,情况就有所不同笔记本键盘打出数字。然而七律长征课件ppt,不论变量之间的联合

概率密度函数是不是正态的男士西服,Pearson相关系数都是用来衡量两个随机变量之间的线性相关程度的兄弟打一成语。

对于二元正态数据 土耳其海峡,样本的相关系数是总体相关系数的极大似然估计中级经济师历年真题,并且具有渐进无偏性和有效

性早会小故事,也即是说在数据来自正态分布,且样本大小适中或是足够大的时候江郎,不可能构造一个比样本相

关相关系数更加精确的量来估计变量之间的相关性。对于非正态总体,样本相关系数依然是渐进无

偏的,但是可能不是有效的估计唯一的唯一。只要样本均值、方差、协方差是一致的(可以通过应用大数定律

来保证)握不住的他简谱,样本相关系数是总体相关系数的一个一致估计量终极一班五熊。

图中显示了在给定的样本大小时如何去黄美白,在置信水平为0.05时,具有显著非零Pearson相关系数的的最小

值。AgraphshowingtheminimumvalueofPearson'scorrelationcoefficientthatissignificantlydifferent

fromzeroatthe0.05level,foragivensamplesize.

5鲁棒性(Robustness)

与其他一些广泛应用的统计量相同高职什么专业好就业,样本统计量r是不可靠的非谓语,在存在异常值的时候,r的值可

能会误导我们。也就是说七夕诗句古诗,PMCC不仅受变量分布的影响人教版初二语文上册,还随异常值非常敏感。观察X、Y之间

的散点图脚后跟疼,就可以看出,缺少鲁棒性确实是一个很大的问题,在这种情况下2017高考分数线,就需要采用更加稳健

的参量来度量变量的相关性。但是值得一提的是,无论采用多么稳健的参量来度量变量之间的相关

性,都与Pearson相关系数在数值大小保持很好的一致性。

基于Pearson相关系数的统计推断对数据的分布类型是很敏感的望闻问切。所以只有在数据是近似正态

分布的时候探索发现考古中国,基于Fisher变换的精确检验和近似检验才能被采用,否则就可能导致错误的结论王菲微博新浪。在

某些情况下转让合同范本,引导可用于构造置信区间,并置换测试可用于进行假设检验。在二元正态不成立时,

非参数的方法在某些情况下可能会得到更有意义的结果。但这些方法的标准版本依赖于数据的互换

性人生最美是清欢,也就是说,在没有特定的顺序或是数据可供分析时中山纪念堂,可能影响相关估计的行为平安夜朋友圈说说。

Spearman秩相关系数(Spearman'srankcorrelationcoefficient)

Pearson线性相关系数只是许多可能中的一种情况,为了使用Pearson线性相关系数必须假设

数据是成对地从正态分布中取得的解冻的近义词,并且数据至少在逻辑范畴内必须是等间距的数据有关中秋节的短信。如果这两条

件不符合米罗可儿,一种可能就是采用Spearman秩相关系数来代替Pearson线性相关系数。Spearman秩相

关系数是一个非参数性质(与分布无关)的秩统计参数普吉岛自助游,由Spearman在1904年提出姓名预测人生,用来度量两

个变量之间联系的强弱(LehmannandD'Abrera1998)新版瑞兹连招。Spearman秩相关系数可以用于R检验中国古代医学,同样

可以在数据的分布使得Pearson线性相关系数不能用来描述或是用来描述或导致错误的结论时,作

为变量之间单调联系强弱的度量。

在统计学中神话电视剧排行榜,Spearman秩相关系数或称为Spearman的ρ,是由CharlesSpearman命名的,一般

用希腊字母ρ

s

(rho)或是r

s

表示实习报告的格式。Spearman秩相关系数是一个非参数的度量两个变量之间的统计

相关性的指标珍藏 作文,用来评估当用单调函数来描述是两个变量之间的关系有多好。在没有重复的数据的

情况下美工软件,如果一个变量是两外一个变量的严格单调的函数,则二者之间的Spearman秩相关系数就

是+1或-1适配器未连接,称变量完全Spearman相关卧底老板。

Spearman秩相关系数通常被认为是排列后的变量之间的Pearson线性相关系数,在实际计算中,

有更简单的计算ρ

s

的方法高一语文教案。假设原始的数据xi300字美文,yi已经按从大到小的顺序排列,记x’i喜气洋洋过蛇年大电影,y’i为原xi,

yi在排列后数据所在的位置手忙脚乱是什么生肖,则x’i,y’i称为变量x’i翻唱日本歌曲,y’i的秩次,则di=x’i-y’i为xi 望庐山瀑布 唐 李白,yi的秩次之

差。

如果没有相同的秩次,则ρ

s

可由下式计算

s

1

6d

i

2

n(n21)

如果有相同的秩次存在rescue是什么意思,那么就需要计算秩次之间的Pearson的线性相关系数

s

(xx)(yy)

(xx)(yy)

iii

2

iiii

2

一个相同的值在一列数据中必须有相同的秩次,那么在计算中采用的秩次就是数值在按从大到

小排列时所在位置的平均值含有荷花的诗句。表1为一个球平均秩次的例子。注意在秩次相同时白醋洗脸,用他们在排列后

的数据中所在的位置的平均值作为秩次无线模块。

表1有相同数值时秩次的计算

变量x

i

从大到小排列时的位置秩次x’

i

0.855

1.24(4+3)/2=3.5

1.23(4+3)/2=3狄知逊.5

2.322

1811

Spearman秩相关系数的符号表示X和Y之间联系的方向俳句。如果Y随着X的增加而增加,那么

Spearman秩相关系数是正的奥古斯丁,反之,若果Y随着X的增加而减小中国最好的美术学院,Spearman秩相关系数就是负的。

Spearman秩相关系数为0表示随着X的增加,Y没有增大或减小的趋势。随着X和Y越来越接近

严格单调的函数关系竞赛方案,Spearman秩相关系数在数值上越来越大。当X、Y有严格单增的关系是下一站幸福经典台词,它

们之间的Spearman秩相关系数为1端午节手机短信,反之,在X、Y有严格单减的关系时戒烟糖,Spearman秩相关系数为

-1。严格单增的关系为对于任意的两对数据值Xi西单女孩如果,Yi和Xj,Yj,Xi-Yi和Xj-Yj都具有相同的符号。

严格单减则上述差值在任何时候都具有相反的符号。

Spearman秩相关系数经常被称为非参数相关系数建党100周年演讲稿,这具有两层含义:第一深居简出的意思,只要在X和Y具

有单调的函数关系的关系,那么X和Y就是完全Spearman相关的小摄影师教学反思,这与Pearson相关性不同坏坏表弟txt,后

者只有在变量之间具有线性关系时才是完全相关的。另外一个关于Spearman秩相关系数的非参数

性的理解就是样本之间精确的分布可以在不知道X和Y的联合概率密度函数时获得。

不管变量之间的关系是不是线性的丰碑阅读答案,只要变量之间具有严格的单调增加的函数关系,变量之间

的Spearman秩相关系数就是1gymboree童装,相同情况下电信无线宽带,Pearson相关性在变量不是线性函数关系时,并不是

完全相关的。

在数据大略地呈椭圆形分布义乌注册公司,而且没有明显的外形轮廓的时候,Spearman秩相关系数和Pearson

线性相关系数大小比较接近。

Spearman秩相关系数对样本的尾部与具有明显的外形轮廓样本偏离比较大的情况没有Pearson

线性相关系数敏感。

正的Spearman秩相关系数对应于X、Y之间单调增加的变化趋势,负的Spearman秩相关系数对应

于X、Y之间单调减小的变化趋势。

可爱用英语怎么说-广西高考录取分数线


本文发布于:2022-07-19 19:55:38,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/fanwen/fan/82/34077.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:ous
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图