数据分析与知识发现
    主页 > 综合新闻 >

R数据分析:相关性分析

本期内容速览:

相关性分析方法选择Pearson相关&Spearman;相关偏相关相关关系可视化

第一部分: 相关性分析方法选择

相关分析是研究两种或两种以上随机变量之间的关系的一种统计学方法,可以分析变量间的关系情况以及关系强弱程度等,如身高和体重之间的相关性。

对于不同类型的变量,需选择合适的相关性分析方法,我们常用的相关性分析方法及适用条件如下:

1.1 Pearson相关系数

最常用,又称积差相关系数,适用于连续变量之间的相关性分析;使用条件:变量都需符合正态分布

1.2 Spearman秩相关系数适合含有有序分类变量或者全部是有序分类变量的相关性分析;但其属于非参数方法,检验效能较Pearson系数低

1.3 无序分类变量的相关性

最常用的为卡方检验,用于评价两个无序分类变量的相关性(检验两组数据是否具有统计学差异,从而分析因素之间的相关性)

第二部分: Pearson相关&Spearman;相关

2.1 相关系数计算

R中可计算多种相关系数,其中最常用的包括Pearson,Spearman和Kendall相关系数,最基础的,cor(x = ,y = ,use = ,method = ) 可用于计算相关系数; cov(x = ,y = ,use = ,method = )可用于计算协方差。

*相关系数:反映变量间相关关系的方向和程度,取值-1~1。

*协方差:在概率论和统计学中用于衡量两个变量的总体误差(如果两个变量的变化趋势一致,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,那么两个变量之间的协方差就是负值)。关于协方差,若想深入学习和理解可参考该博客的讲解 ↓

“ 两变量相关性分析

cor(x = ,y = ,use = ,method = )cov(x = ,y = ,use = ,method = )参数注释:

x:变量x

y:变量y

use:指定缺失数据的处理方式(遇到缺失数据时报错、 everything--遇到缺失数据时相关系数设为missing、遇到缺失数据执行行删除;默认"everything")

method:指定相关系数类型("pearson