协方差、相关系数本质上是一个东西,目的都是描述两个随机变量之间具有什么样的关系。
1 事物之间的关系
事物之间的关系有两种,有关系、没关系。
1.1 有关系
据专家表示,要买房的人越多(下图的城镇化率可以简单理解为进城买房的人数),房价就越高(数据来源):
图一
从上图可以看出,房价与进城买房的人数成正比,两者的关系是正相关。
城镇化除了推升城市房价之外,还有另外一个作用,降低出生率。城镇化和出生率之间的关系就是负相关:
图二
所以说,“城镇化是最好的避孕药”,不管在新加坡、日本、中国、美国都有这样的规律。
2 协方差和相关系数
扯了这么多有的没的,我们该回到正题了。
先假设有两个随机量下,x,y,皆有均值。
由这两个随机量及其均值组成两个向量(可以这么认为,对于随机变量组成的
向量,其均值才是原点):
图三
好,准备好了,我们往下走。
3.1 样本协方差
对于 x,y ,其样本协方差为:
图四
通过向量表示为:
图五
协方差看起来很像点积。
其实协方差已经可以表示两个向量之间的关系了,但是会受到向量长度的影响,比如:
图六
虽然两个向量的夹角相等,但是算出来的协方差,除了符号相同外,数值却相差较大,为了解决这个问题,我们把协方差归一化,也就是相关系数。
3.2 样本相关系数
对于 x,y ,样本相关系数为:r=(Sxy)/(Sx)(Sy)
其中Sx,Sy 为标准差。
通过向量表示为:
图七
相关系数其实就是之前说的余弦距离,表示事物之间的相关性。
对比之前关于网站书评的例子,容易知道:
• 0<r=cos(θ) ≤1 ,则正相关
• -1≤r=cos(θ)<0 ,则负相关
• r=0 ,则不相关
要说明的一点是,r=0 代表不相关,并不一定独立。这和线代的独立含义还是有所不同。
4 通过散点图来看待相关系数
之前是通过向量来解释了相关系数,不过随机变量x,y 一般数值都很多,组成的向量都超过三维,这样就没有直观的几何意义了,所以我们一般用散点图来表示。
比如说,我这里有一组身高、体重的数据:
图八
相关系数为:r≈0.94
和我们直觉相符,体重和身高确实是有强烈的正相关关系。
把(身高,体重)作为一个点,画成散点图:
图九
从散点图也可以看出,这些点并非随机,其实是有规律的,可以认为它们贴合在下面红色直线的周围:
图十
而下面这样的点才是散乱无章的,所以相关系数接近于零:
图十一
最后用维基百科给出的散点图来结束,该散点图给出了不同形态的点分布与相关系数之间的关系:
图十二
(声明:本文仅代表作者观点,不代表本站观点,仅做陈列之用)
[责编:雨滴]
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。