首页 > 知识文档

相关系数分析(相关系数分析具体分为)

更新时间:2023-03-02 11:01:08 阅读：评论：0

介绍两种最为常用的相关系数：皮尔逊person相关系数和斯皮尔曼spearman等等级相关系数。他们可以用来衡量两个变量之间的相关性的大小，根据数据满足不同的条件，我们要选择不同的相关系数进行计算和分析。（建模论文中最容易用错的方法）

1、总体和样本

总体——所要考察对象的全部个体叫做总体.

我们总是希望得到总体数据的一些特征(例如均值方差等)

样本——从总体中所抽取的一部分个体叫做总体的一个样本.

计算这些抽取的样本的统计量来估计总体的统计量:

例如使用样本均值、样本标准差来估计总体的均值(平均水平)和总体的标准差(偏离程度)。例子: 我国10年进行一-次的人口普查得到的数据就是总体数据。大家自己在QQ群发问卷叫同学帮忙填写得到的数据就是样本数据。

2、总体皮尔逊Person相关系数

回顾《概率论与数理统计》中的数理统计部分: 如果两组数据和是总体数据(例如普查结果)

那么总体均值:

总体协方差:

直观理解协方差：如果X、Y变化方向相同，即当X大于(小于)其均值时，Y也大于(小于)其均值，在这两种情况下，乘积为正。如果X、Y的变化方向一直保持相同，则协方差为正；同理，如果X、 Y变化方向一直相反，则协方差为负；如果X、Y变化方向之间相互无规律，即分子中有的项为正，有的项为负，那么累加后正负抵消。

注意：假设X，Y变化方向一直相同，说明它们存在很强的正相关或负相关，但是协方差的大小和两个变量的量纲有关，因此不适合做比较。

总体皮尔逊相关系数就是在总体协方差的基础上消去量纲的影响

2.1 总体皮尔逊相关系数计算

如果两组数据和是总体数据(例如普查结果)

那么总体均值:

总体协方差:

所以，定义总体皮尔逊Person相关系数为：

其中，就是对X、Y的标准差

我们知道就是用来标准化数据的，因此皮尔逊相关系数可以看作是剔除了两个变量量纲的影响，即X和Y标准化之后的协方差。

而且可以证明

3、样本皮尔逊Person相关系数

如果两组数据和是样本数据(例如调查得到的数据)

那么样本均值:

样本协方差:

所以，定义样本皮尔逊Person相关系数为：

其中，就是对X、Y的样本标准差

4、相关性可视化

从图中我们可以看出，散点图为一条直线，即y与x的关系可以描述为y=kx+b，相关性为1或-1，而越小于1的绝对值，相关性1越不显著，散点图越离散

实际上皮尔逊相关系数反应的是线性系数

5、关于皮尔逊相关系数的理解误区

上面四个图的皮尔逊相关系数均为0.816

但是，可以发现第二幅图（横向）明显是一个抛物线的这种相关性，直线很难刻画它，第三幅图出现了一个异常值，离散于其他的点，假如去掉这个离群点，相关系数可能会更大，因为其他的点还是服从于这条直线的；第四幅图也出现了一个异常值，但是这个异常值对整体结果影响特别大，假如去掉这个异常值，x和y之间的相关系数应该是0。

也就是说异常值对皮尔逊相关系数的影响是很大的，我们也不能单纯靠皮尔逊相关系数来理解数据。

再来看一张图，冰激凌销售量和气温之间的关系

冰激凌销售量和气温之间的关系

这个数据计算出来的皮尔逊相关系数为0，但我们不能说x和y之间没有关系，它们大致是服从于一个抛物线的。

因此这里需要特别注意：

这里的相关系数只是用来衡量两个变量线性相关程度的指标;也就是说，你必须先确认这两个变量是线性相关的，然后这个相关系数才能告诉你他俩相关程度如何。

（1）因此得先画散点图，说明这两个变量之间是线性的，说明有线性关系

（2）然后再来计算皮尔逊相关系数来刻画相关程度

5.1总结：

(1)非线性相关也会导致线性相关系数很大

(2)离群点对相关系数的影响很大，

(3)如果两个变量的相关系数很大也不能说明两者相关，可能是受到了异常值的影响。

(4)相关系数计算结果为0，只能说不是线性相关，但说不定会有更复杂的相关关系(非线性相关)。

5.2再来强调一下：

(1) 如果两个变量本身就是线性的关系，那么皮尔逊相关系数绝对值大的就是相关性强，小的就是相关性弱;

(2)在不确定两个变量是什么关系的情况下，即使算出皮尔逊相关系数，发现很大，也不能说明那两个变量线性相关，甚至不能说他们相关，我们一定要画出散点图来看才行。

6、对相关系数大小的解释