相关分析那些事儿

相关分析的适用范围很广,理论上讲,凡是考察两个变量的相关性,都可以叫做相关分析。但通常说的相关分析,一般指的是两个定量数据之间的简单相关分析,判断两组数据的变化是否相关。比如用户体验得分与用户留存率是否有关、新增用户与推广费用是否有关。

散点图

询问了10名20多岁的小姐姐近1个月内的化妆品费用和置装费用数据,数据如下

通过Excel图表功能可以画出化妆品费和置装费的散点分布图,很明显花较多钱在化妆品上的小姐姐也愿意花更多钱买衣服。这说明化妆品费和置装费两个变量具有很强的相关性。

那么相关性到底有多强呢?

相关系数

相关系数可以反应变量之间线性关系的强弱程度。相关系数的数学计算公式如下,对于非数学专业/数据从业者来说较为复杂,这里只列出公式不做深入说明

但是用Excel可以快速求出他们的相关系数。使用数据菜单-数据分析-在分析工具中选择相关系数即可。化妆品费和置装费的相关系数为0.968。

若两个变量的相关性越强,则相关系数就会越接近±1;相关性越弱,则相关系数就会越接近0。由于这个结果非常接近1,则化妆品费和置装费的相关性非常强。

不同相关系数对应的散点图大概长这样,可以由散点图大概判断相关性强弱。

其他

以上主要是接受数值变量的线性相关关系,也有非线性相关关系。比如以下情况,从相关系数上看完全不相关,但是从散点图分布上看也有很强的相关性。