关注数学发展弘扬科学精神

关注数学发展,弘扬科学精神,专注数学科普

您的位置:主页 > 大学数学 > 协方差

协方差

作者:马同学高等数学发布日期:2019-11-12 16:52浏览次数: 来源:微信公众号

协方差、相关系数本质上是一个东西,目的都是描述两个随机变量之间具有什么样的关系。

1 事物之间的关系

事物之间的关系有两种,有关系、没关系。

1.1 有关系

据专家表示,要买房的人越多(下图的城镇化率可以简单理解为进城买房的人数),房价就越高(数据来源):

协方差

图一

从上图可以看出,房价与进城买房的人数成正比,两者的关系是正相关。

城镇化除了推升城市房价之外,还有另外一个作用,降低出生率。城镇化和出生率之间的关系就是负相关:

协方差

图二

所以说,“城镇化是最好的避孕药”,不管在新加坡、日本、中国、美国都有这样的规律。

2 协方差和相关系数

扯了这么多有的没的,我们该回到正题了。

先假设有两个随机量下,x,y,皆有均值。

由这两个随机量及其均值组成两个向量(可以这么认为,对于随机变量组成的

向量,其均值才是原点):

协方差

图三

好,准备好了,我们往下走。

3.1 样本协方差

对于 x,y   ,其样本协方差为:

协方差

图四

通过向量表示为:

协方差

图五

协方差看起来很像点积。

其实协方差已经可以表示两个向量之间的关系了,但是会受到向量长度的影响,比如:

协方差

图六

虽然两个向量的夹角相等,但是算出来的协方差,除了符号相同外,数值却相差较大,为了解决这个问题,我们把协方差归一化,也就是相关系数。

3.2 样本相关系数

对于 x,y  ,样本相关系数为:r=(Sxy)/(Sx)(Sy)

其中Sx,Sy  为标准差。

通过向量表示为:

协方差

图七

相关系数其实就是之前说的余弦距离,表示事物之间的相关性。

对比之前关于网站书评的例子,容易知道:

• 0<r=cos(θ) ≤1 ,则正相关

• -1≤r=cos(θ)<0 ,则负相关

• r=0 ,则不相关

要说明的一点是,r=0 代表不相关,并不一定独立。这和线代的独立含义还是有所不同。

4 通过散点图来看待相关系数

之前是通过向量来解释了相关系数,不过随机变量x,y  一般数值都很多,组成的向量都超过三维,这样就没有直观的几何意义了,所以我们一般用散点图来表示。

比如说,我这里有一组身高、体重的数据:

协方差

图八

相关系数为:r≈0.94

和我们直觉相符,体重和身高确实是有强烈的正相关关系。

把(身高,体重)作为一个点,画成散点图:

协方差

图九

从散点图也可以看出,这些点并非随机,其实是有规律的,可以认为它们贴合在下面红色直线的周围:

协方差

图十

而下面这样的点才是散乱无章的,所以相关系数接近于零:

协方差

图十一

最后用维基百科给出的散点图来结束,该散点图给出了不同形态的点分布与相关系数之间的关系:

协方差

图十二


(声明:本文仅代表作者观点,不代表本站观点,仅做陈列之用)

[责编:雨滴]

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

欢迎扫描关注我们的微信公众平台!

欢迎扫描关注我们的微信公众平台!