⽅差(Variance)、协⽅差(Covariance)与相关性系数
⽅差
⽅差主要计算⼀维数组的离散程度
协⽅差
协⽅差主要衡量两组变量或者⼆维变量的相似程度
很明显,所谓的协⽅差就是⽅差在⼆维上的呈现。那么⼀维数据⾃⾝的协⽅差是如何计算呢?
⼀维数据和⾃⼰的协⽅差,就是数据本⾝的⽅差,⽅差是协⽅差的特殊情况。
值得注意的是当两组数据的协⽅差为0时,说明两组数据线性⽆关。⽽两组数据的协⽅差越⼤,相关性也就越⼤。当协⽅差为负时,两组数据负相关,反之为正相关。
相关性系数
相关性系数也可以被理解成⼀种特殊的协⽅差。相对于协⽅差来说,它是经过了标准化的消除了变化幅度的影响的协⽅差,可以单纯反应两个变量每单位变化时的相似程度。
这⾥的消除变化幅度的影响如何理解呢?两组数据变化趋势相同时,可能幅度相差很多,导致协⽅差的计算值在负⽆穷到正⽆穷之间变化。但我们经过了标准化处理,使得相关性系数的值集中在-1到1之间。当相关系数为-1时,说明两个变量变化的反向相似度最⼤,X增⼤
时,Y进⾏等值缩⼩,反之亦然。